CTI-REALM Open Source: Benchmark für AI Detection

20. März 20263 Min. Lesezeit

Zusammenfassung

Microsoft hat mit CTI-REALM einen Open-Source-Benchmark vorgestellt, der prüft, ob AI-Agents im Security-Betrieb tatsächlich verwertbare Detection-Regeln aus Threat-Intelligence-Berichten ableiten und validieren können. Das ist wichtig, weil Security-Teams damit KI-Modelle nicht nur nach theoretischem Cybersecurity-Wissen, sondern nach ihrem praktischen Nutzen für SOC- und Detection-Engineering-Workflows in realistischen Umgebungen wie Linux, AKS und Azure bewerten können.

Einführung

Microsoft hat CTI-REALM angekündigt, einen neuen Open-Source-Benchmark, der auf eine wachsende Herausforderung in Security Operations abzielt: festzustellen, ob AI-Agents echte Detection-Engineering-Arbeit leisten können und nicht nur Fragen zur Cybersecurity beantworten. Für Security-Teams, die AI für SOC- und Detection-Anwendungsfälle bewerten, ist das relevant, weil sich der Benchmark auf operative Ergebnisse konzentriert – den Aufbau und die Validierung von Detections auf Basis von Threat Intelligence.

Was ist neu an CTI-REALM

CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) wurde entwickelt, um den vollständigen Workflow zu testen, dem Security-Analysten bei der Erstellung von Detections folgen.

Zentrale Funktionen

Bewertet AI-Agents anhand der End-to-End-Generierung von Detection-Regeln statt anhand isolierter CTI-Wissenstests.
Nutzt 37 kuratierte CTI-Berichte aus öffentlichen Quellen, darunter Microsoft Security, Datadog Security Labs, Palo Alto Networks und Splunk.
Misst die Leistung in Linux-Endpunkten, Azure Kubernetes Service (AKS) und Azure-Cloud-Infrastruktur.
Bewertet nicht nur die Endergebnisse, sondern auch Zwischenschritte wie:
- Verständnis von CTI-Berichten
- Zuordnung zu MITRE ATT&CK-Techniken
- Identifizierung von Datenquellen
- Verfeinerung von KQL-Abfragen
- Erstellung von Sigma-Regeln
Stellt Agents realistische Werkzeuge bereit, darunter CTI-Repositories, Schema-Explorer, Kusto-Abfrage-Engines, MITRE ATT&CK-Referenzen und Sigma-Datenbanken.

Frühe Erkenntnisse aus Microsofts Tests

Microsoft bewertete 16 Frontier-Model-Konfigurationen auf CTI-REALM-50, einem Benchmark-Set mit 50 Aufgaben.

Zu den bemerkenswerten Ergebnissen gehören:

Anthropic-Claude-Modelle führten das Ranking an, vor allem dank stärkerer Tool-Nutzung und iterativer Abfrageverfeinerung.
In der GPT-5-Familie übertraf Medium Reasoning High Reasoning, was darauf hindeutet, dass mehr Reasoning die Effektivität in agentischen Detection-Szenarien verringern kann.
Azure-Cloud-Detection erwies sich als am schwierigsten, mit niedrigeren Werten als Linux und AKS aufgrund der Komplexität bei der Korrelation mehrerer Telemetriequellen.
Das Entfernen CTI-spezifischer Tools verringerte die Leistung bei allen getesteten Modellen.
Das Hinzufügen von Menschen verfasster Workflow-Anleitungen verbesserte die Leistung kleinerer Modelle deutlich.

Warum das für IT- und Security-Administratoren wichtig ist

Für SOC-Verantwortliche, Detection Engineers und Security-Architekten bietet CTI-REALM eine praxisnähere Möglichkeit, AI zu bewerten, bevor sie in produktiven Workflows eingesetzt wird. Anstatt sich auf allgemeine Benchmark-Werte zu verlassen, können Teams erkennen, an welchen Stellen ein Modell Schwierigkeiten hat – etwa beim Bedrohungsverständnis, beim Telemetrie-Mapping oder bei der Spezifität von Regeln.

Das kann Organisationen dabei helfen:

Die Eignung von AI-Modellen für Detection-Engineering-Aufgaben zu validieren
Zu identifizieren, wo weiterhin menschliche Prüfung und Guardrails erforderlich sind
Modelle vor dem operativen Einsatz objektiv zu vergleichen
Das Vertrauen in AI-gestützte Detection-Entwicklung zu erhöhen

Nächste Schritte

Security-Teams, die sich für AI-gestütztes Detection Engineering interessieren, sollten:

Das CTI-REALM-Research-Paper und die Benchmark-Methodik prüfen
Kandidatenmodelle vor der Einführung in die Produktion anhand des Benchmarks testen
Die Ergebnisse nutzen, um Prüfprozesse und Guardrails zu definieren
Das Inspect AI-Repository im Hinblick auf die Verfügbarkeit von CTI-REALM und Beiträge aus der Community beobachten

Microsoft positioniert CTI-REALM als Community-Ressource, um der Branche dabei zu helfen, Modelle konsistent zu benchmarken und AI in Security Operations sicherer einzusetzen.

CTI-REALM Open Source: Benchmark für AI Detection

Einführung

Was ist neu an CTI-REALM

Zentrale Funktionen

Frühe Erkenntnisse aus Microsofts Tests

Warum das für IT- und Security-Administratoren wichtig ist

Nächste Schritte

Brauchen Sie Hilfe mit Security?

Verwandte Beiträge

Trivy-Lieferkettenkompromittierung: Defender-Hinweise

KI-Agenten-Governance: Intent sicher ausrichten

Microsoft Defender Predictive Shielding stoppt GPO-Ransomware

Agentic AI Sicherheit: Microsofts RSAC 2026 Neuerungen

Zero Trust for AI: Microsoft Workshop & Architektur

Microsoft warnt vor Steuer-Phishing auf Microsoft 365