CTI-REALM open source : benchmark IA cybersécurité

March 20, 20263 min de lecture

Résumé

Microsoft a dévoilé CTI-REALM, un benchmark open source qui évalue si des agents IA peuvent réellement produire des détections de sécurité de bout en bout à partir de rapports de cyber threat intelligence, plutôt que simplement répondre à des questions théoriques. C’est important pour les équipes SOC, car cet outil mesure des résultats opérationnels concrets — sur Linux, AKS et Azure — et aide à comparer la capacité réelle des modèles à soutenir l’ingénierie de détection.

Introduction

Microsoft a annoncé CTI-REALM, un nouveau benchmark open source qui répond à un défi croissant dans les opérations de sécurité : déterminer si des agents IA peuvent réaliser un véritable travail d’ingénierie de détection, et pas seulement répondre à des questions de cybersécurité. Pour les équipes de sécurité qui évaluent l’IA pour des cas d’usage SOC et de détection, cela est important, car le benchmark se concentre sur les résultats opérationnels — la création et la validation de détections à partir de threat intelligence.

Ce qui change avec CTI-REALM

CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) est conçu pour tester l’ensemble du workflow suivi par les analystes de sécurité lors de la création de détections.

Capacités clés

Évalue les agents IA sur la génération de règles de détection de bout en bout plutôt que sur des tests isolés de connaissances CTI.
S’appuie sur 37 rapports CTI sélectionnés issus de sources publiques, dont Microsoft Security, Datadog Security Labs, Palo Alto Networks et Splunk.
Mesure les performances sur les endpoints Linux, Azure Kubernetes Service (AKS) et l’infrastructure Azure cloud.
Évalue non seulement les résultats finaux, mais aussi les étapes intermédiaires telles que :
- compréhension des rapports CTI
- mapping des techniques MITRE ATT&CK
- identification des sources de données
- affinement des requêtes KQL
- génération de règles Sigma
Fournit aux agents des outils réalistes, notamment des référentiels CTI, des explorateurs de schéma, des moteurs de requêtes Kusto, des références MITRE ATT&CK et des bases de données Sigma.

Premiers résultats des tests de Microsoft

Microsoft a évalué 16 configurations de modèles de pointe sur CTI-REALM-50, un ensemble de benchmark de 50 tâches.

Parmi les résultats notables :

Les modèles Anthropic Claude arrivent en tête du classement, principalement grâce à une meilleure utilisation des outils et à un affinement itératif des requêtes.
Dans la famille GPT-5, le raisonnement moyen a surpassé le raisonnement élevé, ce qui suggère qu’un raisonnement plus poussé peut réduire l’efficacité dans des scénarios de détection agentique.
La détection dans Azure cloud s’est révélée la plus difficile, avec des scores inférieurs à Linux et AKS en raison de la complexité de la corrélation entre plusieurs sources de télémétrie.
La suppression des outils spécifiques à la CTI a réduit les performances sur tous les modèles testés.
L’ajout d’une guidance de workflow rédigée par des humains a considérablement amélioré les performances des modèles plus petits.

Pourquoi c’est important pour les administrateurs IT et sécurité

Pour les responsables SOC, les ingénieurs en détection et les architectes sécurité, CTI-REALM offre un moyen plus concret d’évaluer l’IA avant de l’utiliser dans des workflows de production. Au lieu de s’appuyer sur des scores de benchmark généraux, les équipes peuvent identifier précisément les points de difficulté d’un modèle — comme la compréhension des menaces, le mapping de la télémétrie ou la spécificité des règles.

Cela peut aider les organisations à :

Valider l’adéquation d’un modèle IA aux tâches d’ingénierie de détection
Identifier les domaines où une revue humaine et des garde-fous restent nécessaires
Comparer les modèles de manière objective avant un déploiement opérationnel
Renforcer la confiance dans le développement de détections assisté par l’IA

Prochaines étapes

Les équipes de sécurité intéressées par l’ingénierie de détection assistée par l’IA devraient :

Consulter le research paper CTI-REALM et la méthodologie du benchmark
Tester les modèles candidats par rapport au benchmark avant une adoption en production
Utiliser les résultats pour définir les processus de revue et les garde-fous
Surveiller le dépôt Inspect AI pour la disponibilité de CTI-REALM et les contributions de la communauté

Microsoft présente CTI-REALM comme une ressource communautaire destinée à aider le secteur à évaluer les modèles de manière cohérente et à adopter l’IA de façon plus sûre dans les opérations de sécurité.

CTI-REALM open source : benchmark IA cybersécurité

Introduction

Ce qui change avec CTI-REALM

Capacités clés

Premiers résultats des tests de Microsoft

Pourquoi c’est important pour les administrateurs IT et sécurité

Prochaines étapes

Besoin d'aide avec Security ?

Articles connexes

Compromission supply chain Trivy : guide Defender

Gouvernance des agents IA : aligner l’intention

Microsoft Defender : predictive shielding stoppe le ransomware GPO

Sécurité agentic AI : Microsoft renforce sa protection

Zero Trust for AI de Microsoft : atelier et architecture

Phishing fiscal Microsoft 365 : hausse avant le 15 avril