Microsoft CTI-REALM benchmark til AI detection engin...

Microsoft CTI-REALM benchmark til AI detection engineering

March 20, 20263 min læsning

Resumé

Microsoft har lanceret CTI-REALM, en open-source benchmark, der måler om AI-agenter faktisk kan udføre detection engineering fra ende til anden ud fra threat intelligence-rapporter frem for blot at svare på sikkerhedsspørgsmål. Det er vigtigt for SOC- og sikkerhedsteams, fordi benchmarken tester realistiske workflows, værktøjer og mellemtrin på tværs af Linux, AKS og Azure, hvilket kan give et mere retvisende billede af, hvor moden AI er til operationelt sikkerhedsarbejde.

Introduktion

Microsoft har annonceret CTI-REALM, en ny open-source benchmark målrettet en voksende udfordring i sikkerhedsoperationer: at afgøre, om AI-agenter kan udføre reelt detection engineering-arbejde og ikke blot besvare cybersikkerhedsspørgsmål. For sikkerhedsteams, der evaluerer AI til SOC- og detection-scenarier, er dette vigtigt, fordi benchmarken fokuserer på operationelle resultater—opbygning og validering af detections ud fra threat intelligence.

Hvad er nyt i CTI-REALM

CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) er bygget til at teste det fulde workflow, som sikkerhedsanalytikere følger, når de opretter detections.

Nøglefunktioner

Evaluerer AI-agenter på end-to-end generering af detection-regler frem for isolerede tests af CTI-viden.
Anvender 37 kuraterede CTI-rapporter fra offentlige kilder, herunder Microsoft Security, Datadog Security Labs, Palo Alto Networks og Splunk.
Måler performance på tværs af Linux-endpoints, Azure Kubernetes Service (AKS) og Azure cloud-infrastruktur.
Scorer ikke kun de endelige outputs, men også mellemtrin såsom:
- Forståelse af CTI-rapporter
- Mapping til MITRE ATT&CK-teknikker
- Identifikation af datakilder
- Forfining af KQL-queries
- Generering af Sigma-regler
Giver agenter adgang til realistiske værktøjer, herunder CTI-repositories, schema explorers, Kusto query engines, MITRE ATT&CK-referencer og Sigma-databaser.

Tidlige resultater fra Microsofts test

Microsoft evaluerede 16 frontier model-konfigurationer på CTI-REALM-50, et benchmark-sæt med 50 opgaver.

Bemærkelsesværdige resultater omfatter:

Anthropic Claude-modeller toppede ranglisten, primært på grund af stærkere værktøjsbrug og iterativ query-forfining.
I GPT-5-familien overgik medium reasoning high reasoning, hvilket tyder på, at mere reasoning kan reducere effektiviteten i agentiske detection-scenarier.
Azure cloud-detection viste sig at være den mest udfordrende, med lavere scorer end Linux og AKS på grund af kompleksiteten ved at korrelere flere telemetrikilder.
Fjernelse af CTI-specifikke værktøjer reducerede performance på tværs af alle testede modeller.
Tilføjelse af menneskeskrevet workflow-vejledning forbedrede performance markant for mindre modeller.

Hvorfor dette er vigtigt for IT- og sikkerhedsadministratorer

For SOC-ledere, detection engineers og sikkerhedsarkitekter tilbyder CTI-REALM en mere praktisk måde at evaluere AI på, før det tages i brug i produktionsworkflows. I stedet for at basere sig på brede benchmark-scorer kan teams identificere, hvor en model har udfordringer—såsom threat comprehension, telemetry mapping eller regelspecificitet.

Dette kan hjælpe organisationer med at:

Validere, om en AI-model er egnet til detection engineering-opgaver
Identificere, hvor menneskelig gennemgang og guardrails fortsat er nødvendige
Sammenligne modeller objektivt før operationel implementering
Øge tilliden til AI-assisteret udvikling af detections

Næste skridt

Sikkerhedsteams med interesse i AI-assisteret detection engineering bør:

Gennemgå CTI-REALM-forskningspapiret og benchmark-metodologien
Teste kandidatmodeller mod benchmarken før produktionsadoption
Bruge resultaterne til at definere review-processer og guardrails
Overvåge Inspect AI-repositoriet for tilgængelighed af CTI-REALM og community-bidrag

Microsoft positionerer CTI-REALM som en community-ressource, der skal hjælpe branchen med at benchmarke modeller konsistent og anvende AI mere sikkert i sikkerhedsoperationer.

Microsoft CTI-REALM benchmark til AI detection engineering

Introduktion

Hvad er nyt i CTI-REALM

Nøglefunktioner

Tidlige resultater fra Microsofts test

Hvorfor dette er vigtigt for IT- og sikkerhedsadministratorer

Næste skridt

Brug for hjælp med Security?

Relaterede indlæg

Trivy supply chain compromise: Defender-guide

AI-agentstyring: Afstemning af intention for sikkerhed

Microsoft Defender predictive shielding stopper GPO-ransomware

Microsoft sikkerhed til agentic AI på RSAC 2026

Zero Trust for AI: Microsofts nye sikkerhedsmodel

Microsoft advarer om phishing i skattesæsonen