Microsoft Open Source CTI-REALM per AI Detection

March 20, 20263 min di lettura

Riepilogo

Microsoft has open-sourced CTI-REALM, a new benchmark designed to test whether AI agents can perform real detection engineering work from cyber threat intelligence reports, not just answer cybersecurity questions. It matters because it evaluates end-to-end operational tasks across Linux, Azure Kubernetes Service, and Azure cloud environments, giving security teams a more realistic way to measure how useful AI may be for SOC and detection workflows.

Introduzione

Microsoft ha annunciato CTI-REALM, un nuovo benchmark open source pensato per affrontare una sfida crescente nelle security operations: determinare se gli agenti AI siano in grado di svolgere un vero lavoro di detection engineering, non solo di rispondere a domande di cybersecurity. Per i team di sicurezza che stanno valutando l’AI per casi d’uso SOC e detection, questo è importante perché il benchmark si concentra sui risultati operativi: creare e validare rilevamenti a partire dalla threat intelligence.

Cosa c’è di nuovo in CTI-REALM

CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) è stato progettato per testare l’intero flusso di lavoro che gli analisti di sicurezza seguono quando creano rilevamenti.

Funzionalità chiave

Valuta gli agenti AI sulla generazione end-to-end di regole di rilevamento anziché su test isolati di conoscenza CTI.
Utilizza 37 report CTI selezionati da fonti pubbliche, tra cui Microsoft Security, Datadog Security Labs, Palo Alto Networks e Splunk.
Misura le prestazioni in ambienti endpoint Linux, Azure Kubernetes Service (AKS) e infrastruttura cloud Azure.
Valuta non solo gli output finali, ma anche i passaggi intermedi come:
- comprensione del report CTI
- mappatura delle tecniche MITRE ATT&CK
- identificazione delle fonti dati
- perfezionamento delle query KQL
- generazione di regole Sigma
Fornisce agli agenti strumenti realistici, tra cui repository CTI, esploratori di schema, motori di query Kusto, riferimenti MITRE ATT&CK e database Sigma.

Prime evidenze dai test di Microsoft

Microsoft ha valutato 16 configurazioni di modelli frontier su CTI-REALM-50, un set di benchmark da 50 attività.

Tra i risultati più rilevanti:

I modelli Anthropic Claude hanno guidato la classifica, in gran parte grazie a un uso migliore degli strumenti e al perfezionamento iterativo delle query.
Nella famiglia GPT-5, il reasoning medium ha superato il reasoning high, suggerendo che un maggiore reasoning possa ridurre l’efficacia negli scenari di detection agentica.
Il rilevamento nel cloud Azure si è dimostrato il più difficile, con punteggi inferiori rispetto a Linux e AKS a causa della complessità nella correlazione di più fonti di telemetria.
La rimozione degli strumenti specifici per CTI ha ridotto le prestazioni in tutti i modelli testati.
L’aggiunta di workflow guidance scritte da esseri umani ha migliorato significativamente le prestazioni dei modelli più piccoli.

Perché è importante per gli amministratori IT e della sicurezza

Per i responsabili SOC, i detection engineer e i security architect, CTI-REALM offre un modo più pratico per valutare l’AI prima di utilizzarla nei workflow di produzione. Invece di affidarsi a punteggi generici dei benchmark, i team possono identificare dove un modello incontra difficoltà, ad esempio nella comprensione delle minacce, nella mappatura della telemetria o nella specificità delle regole.

Questo può aiutare le organizzazioni a:

Validare l’idoneità dei modelli AI per attività di detection engineering
Identificare dove revisione umana e guardrail sono ancora necessari
Confrontare i modelli in modo oggettivo prima della distribuzione operativa
Aumentare la fiducia nello sviluppo di rilevamenti assistito dall’AI

Prossimi passi

I team di sicurezza interessati al detection engineering assistito dall’AI dovrebbero:

Esaminare il paper di ricerca CTI-REALM e la metodologia del benchmark
Testare i modelli candidati rispetto al benchmark prima dell’adozione in produzione
Utilizzare i risultati per definire processi di revisione e guardrail
Monitorare il repository Inspect AI per la disponibilità di CTI-REALM e i contributi della community

Microsoft sta posizionando CTI-REALM come una risorsa per la community per aiutare il settore a confrontare i modelli in modo coerente e adottare l’AI in modo più sicuro nelle security operations.

Microsoft Open Source CTI-REALM per AI Detection

Introduzione

Cosa c’è di nuovo in CTI-REALM

Funzionalità chiave

Prime evidenze dai test di Microsoft

Perché è importante per gli amministratori IT e della sicurezza

Prossimi passi

Hai bisogno di aiuto con Security?

Articoli correlati

Compromissione supply chain Trivy: guida Defender

{{Governance degli AI agent: allineare gli intenti}}

Microsoft Defender predictive shielding ferma ransomware GPO

Sicurezza end-to-end per l’AI agentica con Microsoft

Microsoft Zero Trust for AI: workshop e architettura

Microsoft segnala phishing fiscale contro Microsoft 365