Security

CTI-REALM Open Source: Benchmark für AI Detection

3 Min. Lesezeit

Zusammenfassung

Microsoft hat mit CTI-REALM einen Open-Source-Benchmark vorgestellt, der prüft, ob AI-Agents im Security-Betrieb tatsächlich verwertbare Detection-Regeln aus Threat-Intelligence-Berichten ableiten und validieren können. Das ist wichtig, weil Security-Teams damit KI-Modelle nicht nur nach theoretischem Cybersecurity-Wissen, sondern nach ihrem praktischen Nutzen für SOC- und Detection-Engineering-Workflows in realistischen Umgebungen wie Linux, AKS und Azure bewerten können.

Audio-Zusammenfassung

0:00--:--
Brauchen Sie Hilfe mit Security?Mit einem Experten sprechen

Einführung

Microsoft hat CTI-REALM angekündigt, einen neuen Open-Source-Benchmark, der auf eine wachsende Herausforderung in Security Operations abzielt: festzustellen, ob AI-Agents echte Detection-Engineering-Arbeit leisten können und nicht nur Fragen zur Cybersecurity beantworten. Für Security-Teams, die AI für SOC- und Detection-Anwendungsfälle bewerten, ist das relevant, weil sich der Benchmark auf operative Ergebnisse konzentriert – den Aufbau und die Validierung von Detections auf Basis von Threat Intelligence.

Was ist neu an CTI-REALM

CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) wurde entwickelt, um den vollständigen Workflow zu testen, dem Security-Analysten bei der Erstellung von Detections folgen.

Zentrale Funktionen

  • Bewertet AI-Agents anhand der End-to-End-Generierung von Detection-Regeln statt anhand isolierter CTI-Wissenstests.
  • Nutzt 37 kuratierte CTI-Berichte aus öffentlichen Quellen, darunter Microsoft Security, Datadog Security Labs, Palo Alto Networks und Splunk.
  • Misst die Leistung in Linux-Endpunkten, Azure Kubernetes Service (AKS) und Azure-Cloud-Infrastruktur.
  • Bewertet nicht nur die Endergebnisse, sondern auch Zwischenschritte wie:
    • Verständnis von CTI-Berichten
    • Zuordnung zu MITRE ATT&CK-Techniken
    • Identifizierung von Datenquellen
    • Verfeinerung von KQL-Abfragen
    • Erstellung von Sigma-Regeln
  • Stellt Agents realistische Werkzeuge bereit, darunter CTI-Repositories, Schema-Explorer, Kusto-Abfrage-Engines, MITRE ATT&CK-Referenzen und Sigma-Datenbanken.

Frühe Erkenntnisse aus Microsofts Tests

Microsoft bewertete 16 Frontier-Model-Konfigurationen auf CTI-REALM-50, einem Benchmark-Set mit 50 Aufgaben.

Zu den bemerkenswerten Ergebnissen gehören:

  • Anthropic-Claude-Modelle führten das Ranking an, vor allem dank stärkerer Tool-Nutzung und iterativer Abfrageverfeinerung.
  • In der GPT-5-Familie übertraf Medium Reasoning High Reasoning, was darauf hindeutet, dass mehr Reasoning die Effektivität in agentischen Detection-Szenarien verringern kann.
  • Azure-Cloud-Detection erwies sich als am schwierigsten, mit niedrigeren Werten als Linux und AKS aufgrund der Komplexität bei der Korrelation mehrerer Telemetriequellen.
  • Das Entfernen CTI-spezifischer Tools verringerte die Leistung bei allen getesteten Modellen.
  • Das Hinzufügen von Menschen verfasster Workflow-Anleitungen verbesserte die Leistung kleinerer Modelle deutlich.

Warum das für IT- und Security-Administratoren wichtig ist

Für SOC-Verantwortliche, Detection Engineers und Security-Architekten bietet CTI-REALM eine praxisnähere Möglichkeit, AI zu bewerten, bevor sie in produktiven Workflows eingesetzt wird. Anstatt sich auf allgemeine Benchmark-Werte zu verlassen, können Teams erkennen, an welchen Stellen ein Modell Schwierigkeiten hat – etwa beim Bedrohungsverständnis, beim Telemetrie-Mapping oder bei der Spezifität von Regeln.

Das kann Organisationen dabei helfen:

  • Die Eignung von AI-Modellen für Detection-Engineering-Aufgaben zu validieren
  • Zu identifizieren, wo weiterhin menschliche Prüfung und Guardrails erforderlich sind
  • Modelle vor dem operativen Einsatz objektiv zu vergleichen
  • Das Vertrauen in AI-gestützte Detection-Entwicklung zu erhöhen

Nächste Schritte

Security-Teams, die sich für AI-gestütztes Detection Engineering interessieren, sollten:

  • Das CTI-REALM-Research-Paper und die Benchmark-Methodik prüfen
  • Kandidatenmodelle vor der Einführung in die Produktion anhand des Benchmarks testen
  • Die Ergebnisse nutzen, um Prüfprozesse und Guardrails zu definieren
  • Das Inspect AI-Repository im Hinblick auf die Verfügbarkeit von CTI-REALM und Beiträge aus der Community beobachten

Microsoft positioniert CTI-REALM als Community-Ressource, um der Branche dabei zu helfen, Modelle konsistent zu benchmarken und AI in Security Operations sicherer einzusetzen.

Brauchen Sie Hilfe mit Security?

Unsere Experten helfen Ihnen bei der Implementierung und Optimierung Ihrer Microsoft-Lösungen.

Mit einem Experten sprechen

Bleiben Sie über Microsoft-Technologien auf dem Laufenden

SecurityAI agentsthreat intelligencedetection engineeringKQL

Verwandte Beiträge

Security

Trivy-Lieferkettenkompromittierung: Defender-Hinweise

Microsoft hat Hinweise zur Erkennung, Untersuchung und Eindämmung der Trivy-Lieferkettenkompromittierung vom März 2026 veröffentlicht, die die Trivy-Binärdatei und zugehörige GitHub Actions betraf. Der Vorfall ist relevant, weil vertrauenswürdige CI/CD-Sicherheitstools missbraucht wurden, um Anmeldeinformationen aus Build-Pipelines, Cloud-Umgebungen und Entwicklersystemen zu stehlen, während sie scheinbar normal ausgeführt wurden.

Security

KI-Agenten-Governance: Intent sicher ausrichten

Microsoft beschreibt ein Governance-Modell für KI-Agenten, das Benutzer-, Entwickler-, rollenbasierte und organisatorische Intent in Einklang bringt. Das Framework hilft Unternehmen, Agenten nützlich, sicher und compliant zu halten, indem es Verhaltensgrenzen und eine klare Rangfolge bei Konflikten definiert.

Security

Microsoft Defender Predictive Shielding stoppt GPO-Ransomware

Microsoft hat einen realen Ransomware-Fall beschrieben, in dem Defenders Predictive Shielding den Missbrauch von Group Policy Objects (GPOs) erkannte, bevor die Verschlüsselung begann. Durch das Härten der GPO-Verteilung und das Unterbrechen kompromittierter Konten blockierte Defender rund 97 % der versuchten Verschlüsselungsaktivität und verhinderte, dass Geräte über den GPO-Verteilungsweg verschlüsselt wurden.

Security

Agentic AI Sicherheit: Microsofts RSAC 2026 Neuerungen

Microsoft hat auf der RSAC 2026 neue Sicherheitsfunktionen für agentische KI vorgestellt, darunter die allgemeine Verfügbarkeit von Agent 365 ab dem 1. Mai als zentrale Steuerungsebene für Überwachung, Schutz und Governance von AI-Agents. Ergänzt wird dies durch neue Transparenz- und Erkennungstools wie das Security Dashboard for AI und Entra Internet Access Shadow AI Detection, was für Unternehmen wichtig ist, weil der breite Einsatz von AI-Agents neue Risiken bei Datenzugriff, Identitäten und unkontrollierter AI-Nutzung schafft.

Security

Zero Trust for AI: Microsoft Workshop & Architektur

Microsoft erweitert seinen Zero-Trust-Ansatz gezielt auf KI-Umgebungen und führt dafür mit „Zero Trust for AI“ eine neue Leitlinie sowie eine eigene AI-Säule im Zero Trust Workshop ein. Das ist wichtig, weil Unternehmen damit einen strukturierten Rahmen erhalten, um Risiken wie Prompt Injection, Data Poisoning und übermäßige Zugriffe auf Modelle, Prompts und Datenquellen systematisch zu bewerten und mit konkreten Sicherheitskontrollen abzusichern.

Security

Microsoft warnt vor Steuer-Phishing auf Microsoft 365

Microsoft warnt vor einer Welle steuerbezogener Phishing- und Malware-Kampagnen auf Microsoft 365, die Themen wie Steuerunterlagen, W-2-Formulare und Rückerstattungen nutzen, um Anmeldedaten zu stehlen oder Schadsoftware auszuliefern. Besonders relevant ist, dass die Angriffe zunehmend zielgerichtet sind und mit QR-Codes, mehrstufigen Weiterleitungen, Cloud-Dateien und legitimen RMM-Tools klassische Schutzmechanismen umgehen – Unternehmen sollten ihre Erkennung, Schulungen und Absicherung rund um die Steuersaison daher gezielt verstärken.