CTI-REALM open-source benchmark voor AI-detectie
Samenvatting
Microsoft heeft CTI-REALM uitgebracht, een open-source benchmark die meet of AI-agents daadwerkelijk bruikbare detectieregels kunnen bouwen en valideren op basis van threat intelligence, in plaats van alleen cybervragen te beantwoorden. Dat is relevant voor security- en SOC-teams, omdat het een realistischer beeld geeft van de praktische inzetbaarheid van AI in detectie-engineering over Linux, AKS en Azure-omgevingen.
Introductie
Microsoft heeft CTI-REALM aangekondigd, een nieuwe open-source benchmark gericht op een groeiende uitdaging in security operations: bepalen of AI-agents echt detectie-engineeringwerk kunnen uitvoeren, en niet alleen cybersecurityvragen kunnen beantwoorden. Voor securityteams die AI evalueren voor SOC- en detectietoepassingen is dit belangrijk, omdat de benchmark zich richt op operationele uitkomsten—het bouwen en valideren van detecties op basis van threat intelligence.
Wat is er nieuw in CTI-REALM
CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) is ontwikkeld om de volledige workflow te testen die security-analisten volgen bij het maken van detecties.
Belangrijkste mogelijkheden
- Evalueert AI-agents op end-to-end generatie van detectieregels in plaats van geïsoleerde tests van CTI-kennis.
- Gebruikt 37 samengestelde CTI-rapporten uit openbare bronnen, waaronder Microsoft Security, Datadog Security Labs, Palo Alto Networks en Splunk.
- Meet prestaties in Linux-endpoints, Azure Kubernetes Service (AKS) en Azure-cloudinfrastructuur.
- Beoordeelt niet alleen de eindresultaten, maar ook tussenliggende stappen zoals:
- Begrip van CTI-rapporten
- MITRE ATT&CK-techniekmapping
- Identificatie van databronnen
- Verfijning van KQL-query's
- Generatie van Sigma-regels
- Biedt agents realistische tooling, waaronder CTI-repositories, schema explorers, Kusto query engines, MITRE ATT&CK-referenties en Sigma-databases.
Vroege bevindingen uit Microsofts tests
Microsoft evalueerde 16 frontier model configurations op CTI-REALM-50, een benchmarkset met 50 taken.
Opvallende resultaten zijn onder meer:
- Anthropic Claude-modellen voerden de ranglijst aan, grotendeels dankzij sterker toolgebruik en iteratieve queryverfijning.
- In de GPT-5-familie presteerde medium reasoning beter dan high reasoning, wat erop wijst dat meer redeneercapaciteit de effectiviteit in agentic detectiescenario's kan verminderen.
- Azure-clouddetectie bleek het moeilijkst, met lagere scores dan Linux en AKS door de complexiteit van het correleren van meerdere telemetry-bronnen.
- Het verwijderen van CTI-specifieke tools verlaagde de prestaties van alle geteste modellen.
- Het toevoegen van door mensen geschreven workflowrichtlijnen verbeterde de prestaties van kleinere modellen aanzienlijk.
Waarom dit belangrijk is voor IT- en securitybeheerders
Voor SOC-leiders, detectie-engineers en securityarchitecten biedt CTI-REALM een praktischere manier om AI te evalueren voordat het in productie-workflows wordt gebruikt. In plaats van te vertrouwen op brede benchmarkscores, kunnen teams vaststellen waar een model moeite mee heeft—zoals threat comprehension, telemetry-mapping of regelspecificiteit.
Dit kan organisaties helpen om:
- De geschiktheid van AI-modellen voor detectie-engineeringtaken te valideren
- Vast te stellen waar menselijke beoordeling en guardrails nog steeds nodig zijn
- Modellen objectief te vergelijken vóór operationele uitrol
- Het vertrouwen in AI-ondersteunde detectieontwikkeling te vergroten
Volgende stappen
Securityteams die geïnteresseerd zijn in AI-ondersteunde detectie-engineering zouden:
- De CTI-REALM-researchpaper en benchmarkmethodologie moeten bekijken
- Kandidaatmodellen tegen de benchmark moeten testen vóór productie-adoptie
- Resultaten moeten gebruiken om reviewprocessen en guardrails te definiëren
- De Inspect AI-repository moeten volgen voor beschikbaarheid van CTI-REALM en bijdragen vanuit de community
Microsoft positioneert CTI-REALM als een communityresource om de sector te helpen modellen consistent te benchmarken en AI veiliger toe te passen in security operations.
Hulp nodig met Security?
Onze experts helpen u bij het implementeren en optimaliseren van uw Microsoft-oplossingen.
Praat met een expertBlijf op de hoogte van Microsoft-technologieën