CTI-REALM open-source benchmark voor AI-detectie

March 20, 20263 min leestijd

Samenvatting

Microsoft heeft CTI-REALM uitgebracht, een open-source benchmark die meet of AI-agents daadwerkelijk bruikbare detectieregels kunnen bouwen en valideren op basis van threat intelligence, in plaats van alleen cybervragen te beantwoorden. Dat is relevant voor security- en SOC-teams, omdat het een realistischer beeld geeft van de praktische inzetbaarheid van AI in detectie-engineering over Linux, AKS en Azure-omgevingen.

Introductie

Microsoft heeft CTI-REALM aangekondigd, een nieuwe open-source benchmark gericht op een groeiende uitdaging in security operations: bepalen of AI-agents echt detectie-engineeringwerk kunnen uitvoeren, en niet alleen cybersecurityvragen kunnen beantwoorden. Voor securityteams die AI evalueren voor SOC- en detectietoepassingen is dit belangrijk, omdat de benchmark zich richt op operationele uitkomsten—het bouwen en valideren van detecties op basis van threat intelligence.

Wat is er nieuw in CTI-REALM

CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) is ontwikkeld om de volledige workflow te testen die security-analisten volgen bij het maken van detecties.

Belangrijkste mogelijkheden

Evalueert AI-agents op end-to-end generatie van detectieregels in plaats van geïsoleerde tests van CTI-kennis.
Gebruikt 37 samengestelde CTI-rapporten uit openbare bronnen, waaronder Microsoft Security, Datadog Security Labs, Palo Alto Networks en Splunk.
Meet prestaties in Linux-endpoints, Azure Kubernetes Service (AKS) en Azure-cloudinfrastructuur.
Beoordeelt niet alleen de eindresultaten, maar ook tussenliggende stappen zoals:
- Begrip van CTI-rapporten
- MITRE ATT&CK-techniekmapping
- Identificatie van databronnen
- Verfijning van KQL-query's
- Generatie van Sigma-regels
Biedt agents realistische tooling, waaronder CTI-repositories, schema explorers, Kusto query engines, MITRE ATT&CK-referenties en Sigma-databases.

Vroege bevindingen uit Microsofts tests

Microsoft evalueerde 16 frontier model configurations op CTI-REALM-50, een benchmarkset met 50 taken.

Opvallende resultaten zijn onder meer:

Anthropic Claude-modellen voerden de ranglijst aan, grotendeels dankzij sterker toolgebruik en iteratieve queryverfijning.
In de GPT-5-familie presteerde medium reasoning beter dan high reasoning, wat erop wijst dat meer redeneercapaciteit de effectiviteit in agentic detectiescenario's kan verminderen.
Azure-clouddetectie bleek het moeilijkst, met lagere scores dan Linux en AKS door de complexiteit van het correleren van meerdere telemetry-bronnen.
Het verwijderen van CTI-specifieke tools verlaagde de prestaties van alle geteste modellen.
Het toevoegen van door mensen geschreven workflowrichtlijnen verbeterde de prestaties van kleinere modellen aanzienlijk.

Waarom dit belangrijk is voor IT- en securitybeheerders

Voor SOC-leiders, detectie-engineers en securityarchitecten biedt CTI-REALM een praktischere manier om AI te evalueren voordat het in productie-workflows wordt gebruikt. In plaats van te vertrouwen op brede benchmarkscores, kunnen teams vaststellen waar een model moeite mee heeft—zoals threat comprehension, telemetry-mapping of regelspecificiteit.

Dit kan organisaties helpen om:

De geschiktheid van AI-modellen voor detectie-engineeringtaken te valideren
Vast te stellen waar menselijke beoordeling en guardrails nog steeds nodig zijn
Modellen objectief te vergelijken vóór operationele uitrol
Het vertrouwen in AI-ondersteunde detectieontwikkeling te vergroten

Volgende stappen

Securityteams die geïnteresseerd zijn in AI-ondersteunde detectie-engineering zouden:

De CTI-REALM-researchpaper en benchmarkmethodologie moeten bekijken
Kandidaatmodellen tegen de benchmark moeten testen vóór productie-adoptie
Resultaten moeten gebruiken om reviewprocessen en guardrails te definiëren
De Inspect AI-repository moeten volgen voor beschikbaarheid van CTI-REALM en bijdragen vanuit de community

Microsoft positioneert CTI-REALM als een communityresource om de sector te helpen modellen consistent te benchmarken en AI veiliger toe te passen in security operations.

CTI-REALM open-source benchmark voor AI-detectie

Introductie

Wat is er nieuw in CTI-REALM

Belangrijkste mogelijkheden

Vroege bevindingen uit Microsofts tests

Waarom dit belangrijk is voor IT- en securitybeheerders

Volgende stappen

Hulp nodig met Security?

Gerelateerde artikelen

Trivy supply chain-aanval: Defender-richtlijnen

AI-agentgovernance: intent afstemmen voor security

Microsoft Defender predictive shielding stopt GPO-ransomware

Microsoft beveiliging voor agentic AI op RSAC 2026

Microsoft Zero Trust for AI: workshop en architectuur

Microsoft waarschuwt voor belastingseizoen phishing