CTI-REALM open source : benchmark IA cybersécurité
Résumé
Microsoft a dévoilé CTI-REALM, un benchmark open source qui évalue si des agents IA peuvent réellement produire des détections de sécurité de bout en bout à partir de rapports de cyber threat intelligence, plutôt que simplement répondre à des questions théoriques. C’est important pour les équipes SOC, car cet outil mesure des résultats opérationnels concrets — sur Linux, AKS et Azure — et aide à comparer la capacité réelle des modèles à soutenir l’ingénierie de détection.
Introduction
Microsoft a annoncé CTI-REALM, un nouveau benchmark open source qui répond à un défi croissant dans les opérations de sécurité : déterminer si des agents IA peuvent réaliser un véritable travail d’ingénierie de détection, et pas seulement répondre à des questions de cybersécurité. Pour les équipes de sécurité qui évaluent l’IA pour des cas d’usage SOC et de détection, cela est important, car le benchmark se concentre sur les résultats opérationnels — la création et la validation de détections à partir de threat intelligence.
Ce qui change avec CTI-REALM
CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) est conçu pour tester l’ensemble du workflow suivi par les analystes de sécurité lors de la création de détections.
Capacités clés
- Évalue les agents IA sur la génération de règles de détection de bout en bout plutôt que sur des tests isolés de connaissances CTI.
- S’appuie sur 37 rapports CTI sélectionnés issus de sources publiques, dont Microsoft Security, Datadog Security Labs, Palo Alto Networks et Splunk.
- Mesure les performances sur les endpoints Linux, Azure Kubernetes Service (AKS) et l’infrastructure Azure cloud.
- Évalue non seulement les résultats finaux, mais aussi les étapes intermédiaires telles que :
- compréhension des rapports CTI
- mapping des techniques MITRE ATT&CK
- identification des sources de données
- affinement des requêtes KQL
- génération de règles Sigma
- Fournit aux agents des outils réalistes, notamment des référentiels CTI, des explorateurs de schéma, des moteurs de requêtes Kusto, des références MITRE ATT&CK et des bases de données Sigma.
Premiers résultats des tests de Microsoft
Microsoft a évalué 16 configurations de modèles de pointe sur CTI-REALM-50, un ensemble de benchmark de 50 tâches.
Parmi les résultats notables :
- Les modèles Anthropic Claude arrivent en tête du classement, principalement grâce à une meilleure utilisation des outils et à un affinement itératif des requêtes.
- Dans la famille GPT-5, le raisonnement moyen a surpassé le raisonnement élevé, ce qui suggère qu’un raisonnement plus poussé peut réduire l’efficacité dans des scénarios de détection agentique.
- La détection dans Azure cloud s’est révélée la plus difficile, avec des scores inférieurs à Linux et AKS en raison de la complexité de la corrélation entre plusieurs sources de télémétrie.
- La suppression des outils spécifiques à la CTI a réduit les performances sur tous les modèles testés.
- L’ajout d’une guidance de workflow rédigée par des humains a considérablement amélioré les performances des modèles plus petits.
Pourquoi c’est important pour les administrateurs IT et sécurité
Pour les responsables SOC, les ingénieurs en détection et les architectes sécurité, CTI-REALM offre un moyen plus concret d’évaluer l’IA avant de l’utiliser dans des workflows de production. Au lieu de s’appuyer sur des scores de benchmark généraux, les équipes peuvent identifier précisément les points de difficulté d’un modèle — comme la compréhension des menaces, le mapping de la télémétrie ou la spécificité des règles.
Cela peut aider les organisations à :
- Valider l’adéquation d’un modèle IA aux tâches d’ingénierie de détection
- Identifier les domaines où une revue humaine et des garde-fous restent nécessaires
- Comparer les modèles de manière objective avant un déploiement opérationnel
- Renforcer la confiance dans le développement de détections assisté par l’IA
Prochaines étapes
Les équipes de sécurité intéressées par l’ingénierie de détection assistée par l’IA devraient :
- Consulter le research paper CTI-REALM et la méthodologie du benchmark
- Tester les modèles candidats par rapport au benchmark avant une adoption en production
- Utiliser les résultats pour définir les processus de revue et les garde-fous
- Surveiller le dépôt Inspect AI pour la disponibilité de CTI-REALM et les contributions de la communauté
Microsoft présente CTI-REALM comme une ressource communautaire destinée à aider le secteur à évaluer les modèles de manière cohérente et à adopter l’IA de façon plus sûre dans les opérations de sécurité.
Besoin d'aide avec Security ?
Nos experts peuvent vous aider à implémenter et optimiser vos solutions Microsoft.
Parler à un expertRestez informé sur les technologies Microsoft