Security

Microsoft Open Source CTI-REALM per AI Detection

3 min di lettura

Riepilogo

Microsoft has open-sourced CTI-REALM, a new benchmark designed to test whether AI agents can perform real detection engineering work from cyber threat intelligence reports, not just answer cybersecurity questions. It matters because it evaluates end-to-end operational tasks across Linux, Azure Kubernetes Service, and Azure cloud environments, giving security teams a more realistic way to measure how useful AI may be for SOC and detection workflows.

Hai bisogno di aiuto con Security?Parla con un esperto

Introduzione

Microsoft ha annunciato CTI-REALM, un nuovo benchmark open source pensato per affrontare una sfida crescente nelle security operations: determinare se gli agenti AI siano in grado di svolgere un vero lavoro di detection engineering, non solo di rispondere a domande di cybersecurity. Per i team di sicurezza che stanno valutando l’AI per casi d’uso SOC e detection, questo è importante perché il benchmark si concentra sui risultati operativi: creare e validare rilevamenti a partire dalla threat intelligence.

Cosa c’è di nuovo in CTI-REALM

CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) è stato progettato per testare l’intero flusso di lavoro che gli analisti di sicurezza seguono quando creano rilevamenti.

Funzionalità chiave

  • Valuta gli agenti AI sulla generazione end-to-end di regole di rilevamento anziché su test isolati di conoscenza CTI.
  • Utilizza 37 report CTI selezionati da fonti pubbliche, tra cui Microsoft Security, Datadog Security Labs, Palo Alto Networks e Splunk.
  • Misura le prestazioni in ambienti endpoint Linux, Azure Kubernetes Service (AKS) e infrastruttura cloud Azure.
  • Valuta non solo gli output finali, ma anche i passaggi intermedi come:
    • comprensione del report CTI
    • mappatura delle tecniche MITRE ATT&CK
    • identificazione delle fonti dati
    • perfezionamento delle query KQL
    • generazione di regole Sigma
  • Fornisce agli agenti strumenti realistici, tra cui repository CTI, esploratori di schema, motori di query Kusto, riferimenti MITRE ATT&CK e database Sigma.

Prime evidenze dai test di Microsoft

Microsoft ha valutato 16 configurazioni di modelli frontier su CTI-REALM-50, un set di benchmark da 50 attività.

Tra i risultati più rilevanti:

  • I modelli Anthropic Claude hanno guidato la classifica, in gran parte grazie a un uso migliore degli strumenti e al perfezionamento iterativo delle query.
  • Nella famiglia GPT-5, il reasoning medium ha superato il reasoning high, suggerendo che un maggiore reasoning possa ridurre l’efficacia negli scenari di detection agentica.
  • Il rilevamento nel cloud Azure si è dimostrato il più difficile, con punteggi inferiori rispetto a Linux e AKS a causa della complessità nella correlazione di più fonti di telemetria.
  • La rimozione degli strumenti specifici per CTI ha ridotto le prestazioni in tutti i modelli testati.
  • L’aggiunta di workflow guidance scritte da esseri umani ha migliorato significativamente le prestazioni dei modelli più piccoli.

Perché è importante per gli amministratori IT e della sicurezza

Per i responsabili SOC, i detection engineer e i security architect, CTI-REALM offre un modo più pratico per valutare l’AI prima di utilizzarla nei workflow di produzione. Invece di affidarsi a punteggi generici dei benchmark, i team possono identificare dove un modello incontra difficoltà, ad esempio nella comprensione delle minacce, nella mappatura della telemetria o nella specificità delle regole.

Questo può aiutare le organizzazioni a:

  • Validare l’idoneità dei modelli AI per attività di detection engineering
  • Identificare dove revisione umana e guardrail sono ancora necessari
  • Confrontare i modelli in modo oggettivo prima della distribuzione operativa
  • Aumentare la fiducia nello sviluppo di rilevamenti assistito dall’AI

Prossimi passi

I team di sicurezza interessati al detection engineering assistito dall’AI dovrebbero:

  • Esaminare il paper di ricerca CTI-REALM e la metodologia del benchmark
  • Testare i modelli candidati rispetto al benchmark prima dell’adozione in produzione
  • Utilizzare i risultati per definire processi di revisione e guardrail
  • Monitorare il repository Inspect AI per la disponibilità di CTI-REALM e i contributi della community

Microsoft sta posizionando CTI-REALM come una risorsa per la community per aiutare il settore a confrontare i modelli in modo coerente e adottare l’AI in modo più sicuro nelle security operations.

Hai bisogno di aiuto con Security?

I nostri esperti possono aiutarti a implementare e ottimizzare le tue soluzioni Microsoft.

Parla con un esperto

Resta aggiornato sulle tecnologie Microsoft

SecurityAI agentsthreat intelligencedetection engineeringKQL

Articoli correlati

Security

Compromissione supply chain Trivy: guida Defender

Microsoft ha pubblicato linee guida per il rilevamento, l’indagine e la mitigazione della compromissione della supply chain di Trivy del marzo 2026, che ha interessato il binario Trivy e le GitHub Actions correlate. L’incidente è rilevante perché ha trasformato uno strumento di sicurezza CI/CD affidabile in un mezzo per rubare credenziali da pipeline di build, ambienti cloud e sistemi di sviluppo, continuando però a sembrare operativo normalmente.

Security

{{Governance degli AI agent: allineare gli intenti}}

{{Microsoft delinea un modello di governance per gli AI agent che allinea l’intento dell’utente, dello sviluppatore, basato sul ruolo e dell’organizzazione. Il framework aiuta le aziende a mantenere gli agent utili, sicuri e conformi definendo confini comportamentali e un chiaro ordine di precedenza quando sorgono conflitti.}}

Security

Microsoft Defender predictive shielding ferma ransomware GPO

Microsoft ha descritto un caso reale di ransomware in cui il predictive shielding di Defender ha rilevato l’abuso dannoso di Group Policy Object prima dell’inizio della crittografia. Rafforzando la propagazione dei GPO e interrompendo gli account compromessi, Defender ha bloccato circa il 97% dei tentativi di crittografia e ha impedito che qualsiasi dispositivo venisse cifrato tramite il percorso di distribuzione GPO.

Security

Sicurezza end-to-end per l’AI agentica con Microsoft

Microsoft ha presentato al RSAC 2026 una strategia di sicurezza end-to-end per l’AI agentica, annunciando la disponibilità generale di Agent 365 dal 1° maggio come piattaforma di controllo per osservare, proteggere e governare gli agenti AI su larga scala. La novità conta perché, insieme a strumenti come Security Dashboard for AI ed Entra Internet Access Shadow AI Detection, offre alle aziende maggiore visibilità sui rischi, aiuta a limitare l’accesso e la condivisione eccessiva dei dati e rafforza la difesa contro minacce AI emergenti.

Security

Microsoft Zero Trust for AI: workshop e architettura

Microsoft ha presentato Zero Trust for AI, una guida che estende i principi di Zero Trust agli ambienti AI per aiutare le aziende a proteggere modelli, agenti, dati e decisioni automatizzate. La novità più rilevante è l’aggiunta di un pilastro dedicato all’AI nel Zero Trust Workshop, con 700 controlli di sicurezza, 116 gruppi logici e 33 swim lane funzionali: un aggiornamento importante perché offre ai team IT e sicurezza un framework pratico per valutare i rischi dell’AI e applicare controlli coerenti su processi e tecnologie.

Security

Microsoft segnala phishing fiscale contro Microsoft 365

Microsoft ha segnalato un aumento delle campagne di phishing a tema fiscale contro gli utenti Microsoft 365, con tecniche più sofisticate come codici QR, catene di reindirizzamento, file ospitati nel cloud e kit phishing-as-a-service come Energy365 e SneakyLog. La notizia è importante perché questi attacchi sfruttano la pressione della stagione fiscale e strumenti legittimi per aggirare i controlli tradizionali, aumentando il rischio di furto di credenziali e compromissione aziendale.