Microsoft Open Source CTI-REALM per AI Detection
Riepilogo
Microsoft has open-sourced CTI-REALM, a new benchmark designed to test whether AI agents can perform real detection engineering work from cyber threat intelligence reports, not just answer cybersecurity questions. It matters because it evaluates end-to-end operational tasks across Linux, Azure Kubernetes Service, and Azure cloud environments, giving security teams a more realistic way to measure how useful AI may be for SOC and detection workflows.
Introduzione
Microsoft ha annunciato CTI-REALM, un nuovo benchmark open source pensato per affrontare una sfida crescente nelle security operations: determinare se gli agenti AI siano in grado di svolgere un vero lavoro di detection engineering, non solo di rispondere a domande di cybersecurity. Per i team di sicurezza che stanno valutando l’AI per casi d’uso SOC e detection, questo è importante perché il benchmark si concentra sui risultati operativi: creare e validare rilevamenti a partire dalla threat intelligence.
Cosa c’è di nuovo in CTI-REALM
CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) è stato progettato per testare l’intero flusso di lavoro che gli analisti di sicurezza seguono quando creano rilevamenti.
Funzionalità chiave
- Valuta gli agenti AI sulla generazione end-to-end di regole di rilevamento anziché su test isolati di conoscenza CTI.
- Utilizza 37 report CTI selezionati da fonti pubbliche, tra cui Microsoft Security, Datadog Security Labs, Palo Alto Networks e Splunk.
- Misura le prestazioni in ambienti endpoint Linux, Azure Kubernetes Service (AKS) e infrastruttura cloud Azure.
- Valuta non solo gli output finali, ma anche i passaggi intermedi come:
- comprensione del report CTI
- mappatura delle tecniche MITRE ATT&CK
- identificazione delle fonti dati
- perfezionamento delle query KQL
- generazione di regole Sigma
- Fornisce agli agenti strumenti realistici, tra cui repository CTI, esploratori di schema, motori di query Kusto, riferimenti MITRE ATT&CK e database Sigma.
Prime evidenze dai test di Microsoft
Microsoft ha valutato 16 configurazioni di modelli frontier su CTI-REALM-50, un set di benchmark da 50 attività.
Tra i risultati più rilevanti:
- I modelli Anthropic Claude hanno guidato la classifica, in gran parte grazie a un uso migliore degli strumenti e al perfezionamento iterativo delle query.
- Nella famiglia GPT-5, il reasoning medium ha superato il reasoning high, suggerendo che un maggiore reasoning possa ridurre l’efficacia negli scenari di detection agentica.
- Il rilevamento nel cloud Azure si è dimostrato il più difficile, con punteggi inferiori rispetto a Linux e AKS a causa della complessità nella correlazione di più fonti di telemetria.
- La rimozione degli strumenti specifici per CTI ha ridotto le prestazioni in tutti i modelli testati.
- L’aggiunta di workflow guidance scritte da esseri umani ha migliorato significativamente le prestazioni dei modelli più piccoli.
Perché è importante per gli amministratori IT e della sicurezza
Per i responsabili SOC, i detection engineer e i security architect, CTI-REALM offre un modo più pratico per valutare l’AI prima di utilizzarla nei workflow di produzione. Invece di affidarsi a punteggi generici dei benchmark, i team possono identificare dove un modello incontra difficoltà, ad esempio nella comprensione delle minacce, nella mappatura della telemetria o nella specificità delle regole.
Questo può aiutare le organizzazioni a:
- Validare l’idoneità dei modelli AI per attività di detection engineering
- Identificare dove revisione umana e guardrail sono ancora necessari
- Confrontare i modelli in modo oggettivo prima della distribuzione operativa
- Aumentare la fiducia nello sviluppo di rilevamenti assistito dall’AI
Prossimi passi
I team di sicurezza interessati al detection engineering assistito dall’AI dovrebbero:
- Esaminare il paper di ricerca CTI-REALM e la metodologia del benchmark
- Testare i modelli candidati rispetto al benchmark prima dell’adozione in produzione
- Utilizzare i risultati per definire processi di revisione e guardrail
- Monitorare il repository Inspect AI per la disponibilità di CTI-REALM e i contributi della community
Microsoft sta posizionando CTI-REALM come una risorsa per la community per aiutare il settore a confrontare i modelli in modo coerente e adottare l’AI in modo più sicuro nelle security operations.
Hai bisogno di aiuto con Security?
I nostri esperti possono aiutarti a implementare e ottimizzare le tue soluzioni Microsoft.
Parla con un espertoResta aggiornato sulle tecnologie Microsoft