CTI-REALM Open Source: Benchmark für AI Detection
Zusammenfassung
Microsoft hat mit CTI-REALM einen Open-Source-Benchmark vorgestellt, der prüft, ob AI-Agents im Security-Betrieb tatsächlich verwertbare Detection-Regeln aus Threat-Intelligence-Berichten ableiten und validieren können. Das ist wichtig, weil Security-Teams damit KI-Modelle nicht nur nach theoretischem Cybersecurity-Wissen, sondern nach ihrem praktischen Nutzen für SOC- und Detection-Engineering-Workflows in realistischen Umgebungen wie Linux, AKS und Azure bewerten können.
Audio-Zusammenfassung
Einführung
Microsoft hat CTI-REALM angekündigt, einen neuen Open-Source-Benchmark, der auf eine wachsende Herausforderung in Security Operations abzielt: festzustellen, ob AI-Agents echte Detection-Engineering-Arbeit leisten können und nicht nur Fragen zur Cybersecurity beantworten. Für Security-Teams, die AI für SOC- und Detection-Anwendungsfälle bewerten, ist das relevant, weil sich der Benchmark auf operative Ergebnisse konzentriert – den Aufbau und die Validierung von Detections auf Basis von Threat Intelligence.
Was ist neu an CTI-REALM
CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) wurde entwickelt, um den vollständigen Workflow zu testen, dem Security-Analysten bei der Erstellung von Detections folgen.
Zentrale Funktionen
- Bewertet AI-Agents anhand der End-to-End-Generierung von Detection-Regeln statt anhand isolierter CTI-Wissenstests.
- Nutzt 37 kuratierte CTI-Berichte aus öffentlichen Quellen, darunter Microsoft Security, Datadog Security Labs, Palo Alto Networks und Splunk.
- Misst die Leistung in Linux-Endpunkten, Azure Kubernetes Service (AKS) und Azure-Cloud-Infrastruktur.
- Bewertet nicht nur die Endergebnisse, sondern auch Zwischenschritte wie:
- Verständnis von CTI-Berichten
- Zuordnung zu MITRE ATT&CK-Techniken
- Identifizierung von Datenquellen
- Verfeinerung von KQL-Abfragen
- Erstellung von Sigma-Regeln
- Stellt Agents realistische Werkzeuge bereit, darunter CTI-Repositories, Schema-Explorer, Kusto-Abfrage-Engines, MITRE ATT&CK-Referenzen und Sigma-Datenbanken.
Frühe Erkenntnisse aus Microsofts Tests
Microsoft bewertete 16 Frontier-Model-Konfigurationen auf CTI-REALM-50, einem Benchmark-Set mit 50 Aufgaben.
Zu den bemerkenswerten Ergebnissen gehören:
- Anthropic-Claude-Modelle führten das Ranking an, vor allem dank stärkerer Tool-Nutzung und iterativer Abfrageverfeinerung.
- In der GPT-5-Familie übertraf Medium Reasoning High Reasoning, was darauf hindeutet, dass mehr Reasoning die Effektivität in agentischen Detection-Szenarien verringern kann.
- Azure-Cloud-Detection erwies sich als am schwierigsten, mit niedrigeren Werten als Linux und AKS aufgrund der Komplexität bei der Korrelation mehrerer Telemetriequellen.
- Das Entfernen CTI-spezifischer Tools verringerte die Leistung bei allen getesteten Modellen.
- Das Hinzufügen von Menschen verfasster Workflow-Anleitungen verbesserte die Leistung kleinerer Modelle deutlich.
Warum das für IT- und Security-Administratoren wichtig ist
Für SOC-Verantwortliche, Detection Engineers und Security-Architekten bietet CTI-REALM eine praxisnähere Möglichkeit, AI zu bewerten, bevor sie in produktiven Workflows eingesetzt wird. Anstatt sich auf allgemeine Benchmark-Werte zu verlassen, können Teams erkennen, an welchen Stellen ein Modell Schwierigkeiten hat – etwa beim Bedrohungsverständnis, beim Telemetrie-Mapping oder bei der Spezifität von Regeln.
Das kann Organisationen dabei helfen:
- Die Eignung von AI-Modellen für Detection-Engineering-Aufgaben zu validieren
- Zu identifizieren, wo weiterhin menschliche Prüfung und Guardrails erforderlich sind
- Modelle vor dem operativen Einsatz objektiv zu vergleichen
- Das Vertrauen in AI-gestützte Detection-Entwicklung zu erhöhen
Nächste Schritte
Security-Teams, die sich für AI-gestütztes Detection Engineering interessieren, sollten:
- Das CTI-REALM-Research-Paper und die Benchmark-Methodik prüfen
- Kandidatenmodelle vor der Einführung in die Produktion anhand des Benchmarks testen
- Die Ergebnisse nutzen, um Prüfprozesse und Guardrails zu definieren
- Das Inspect AI-Repository im Hinblick auf die Verfügbarkeit von CTI-REALM und Beiträge aus der Community beobachten
Microsoft positioniert CTI-REALM als Community-Ressource, um der Branche dabei zu helfen, Modelle konsistent zu benchmarken und AI in Security Operations sicherer einzusetzen.
Brauchen Sie Hilfe mit Security?
Unsere Experten helfen Ihnen bei der Implementierung und Optimierung Ihrer Microsoft-Lösungen.
Mit einem Experten sprechenBleiben Sie über Microsoft-Technologien auf dem Laufenden