Microsoft CTI-REALM benchmark til AI detection engineering
Resumé
Microsoft har lanceret CTI-REALM, en open-source benchmark, der måler om AI-agenter faktisk kan udføre detection engineering fra ende til anden ud fra threat intelligence-rapporter frem for blot at svare på sikkerhedsspørgsmål. Det er vigtigt for SOC- og sikkerhedsteams, fordi benchmarken tester realistiske workflows, værktøjer og mellemtrin på tværs af Linux, AKS og Azure, hvilket kan give et mere retvisende billede af, hvor moden AI er til operationelt sikkerhedsarbejde.
Introduktion
Microsoft har annonceret CTI-REALM, en ny open-source benchmark målrettet en voksende udfordring i sikkerhedsoperationer: at afgøre, om AI-agenter kan udføre reelt detection engineering-arbejde og ikke blot besvare cybersikkerhedsspørgsmål. For sikkerhedsteams, der evaluerer AI til SOC- og detection-scenarier, er dette vigtigt, fordi benchmarken fokuserer på operationelle resultater—opbygning og validering af detections ud fra threat intelligence.
Hvad er nyt i CTI-REALM
CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) er bygget til at teste det fulde workflow, som sikkerhedsanalytikere følger, når de opretter detections.
Nøglefunktioner
- Evaluerer AI-agenter på end-to-end generering af detection-regler frem for isolerede tests af CTI-viden.
- Anvender 37 kuraterede CTI-rapporter fra offentlige kilder, herunder Microsoft Security, Datadog Security Labs, Palo Alto Networks og Splunk.
- Måler performance på tværs af Linux-endpoints, Azure Kubernetes Service (AKS) og Azure cloud-infrastruktur.
- Scorer ikke kun de endelige outputs, men også mellemtrin såsom:
- Forståelse af CTI-rapporter
- Mapping til MITRE ATT&CK-teknikker
- Identifikation af datakilder
- Forfining af KQL-queries
- Generering af Sigma-regler
- Giver agenter adgang til realistiske værktøjer, herunder CTI-repositories, schema explorers, Kusto query engines, MITRE ATT&CK-referencer og Sigma-databaser.
Tidlige resultater fra Microsofts test
Microsoft evaluerede 16 frontier model-konfigurationer på CTI-REALM-50, et benchmark-sæt med 50 opgaver.
Bemærkelsesværdige resultater omfatter:
- Anthropic Claude-modeller toppede ranglisten, primært på grund af stærkere værktøjsbrug og iterativ query-forfining.
- I GPT-5-familien overgik medium reasoning high reasoning, hvilket tyder på, at mere reasoning kan reducere effektiviteten i agentiske detection-scenarier.
- Azure cloud-detection viste sig at være den mest udfordrende, med lavere scorer end Linux og AKS på grund af kompleksiteten ved at korrelere flere telemetrikilder.
- Fjernelse af CTI-specifikke værktøjer reducerede performance på tværs af alle testede modeller.
- Tilføjelse af menneskeskrevet workflow-vejledning forbedrede performance markant for mindre modeller.
Hvorfor dette er vigtigt for IT- og sikkerhedsadministratorer
For SOC-ledere, detection engineers og sikkerhedsarkitekter tilbyder CTI-REALM en mere praktisk måde at evaluere AI på, før det tages i brug i produktionsworkflows. I stedet for at basere sig på brede benchmark-scorer kan teams identificere, hvor en model har udfordringer—såsom threat comprehension, telemetry mapping eller regelspecificitet.
Dette kan hjælpe organisationer med at:
- Validere, om en AI-model er egnet til detection engineering-opgaver
- Identificere, hvor menneskelig gennemgang og guardrails fortsat er nødvendige
- Sammenligne modeller objektivt før operationel implementering
- Øge tilliden til AI-assisteret udvikling af detections
Næste skridt
Sikkerhedsteams med interesse i AI-assisteret detection engineering bør:
- Gennemgå CTI-REALM-forskningspapiret og benchmark-metodologien
- Teste kandidatmodeller mod benchmarken før produktionsadoption
- Bruge resultaterne til at definere review-processer og guardrails
- Overvåge Inspect AI-repositoriet for tilgængelighed af CTI-REALM og community-bidrag
Microsoft positionerer CTI-REALM som en community-ressource, der skal hjælpe branchen med at benchmarke modeller konsistent og anvende AI mere sikkert i sikkerhedsoperationer.
Brug for hjælp med Security?
Vores eksperter kan hjælpe dig med at implementere og optimere dine Microsoft-løsninger.
Tal med en ekspertHold dig opdateret om Microsoft-teknologier