CTI-REALM open source: benchmark AI do detekcji

March 20, 20263 min czytania

Podsumowanie

Microsoft udostępnił open source benchmark CTI-REALM, który sprawdza, czy agenci AI potrafią wykonywać realną pracę z obszaru inżynierii detekcji — od analizy raportów threat intelligence po tworzenie i walidację reguł detekcji. To ważne dla zespołów SOC i bezpieczeństwa, ponieważ zamiast mierzyć wyłącznie wiedzę modelu, narzędzie ocenia jego skuteczność w praktycznych zadaniach operacyjnych w środowiskach takich jak Linux, AKS i chmura Azure.

Wprowadzenie

Microsoft ogłosił CTI-REALM, nowy benchmark open source ukierunkowany na rosnące wyzwanie w operacjach bezpieczeństwa: ustalenie, czy agenci AI potrafią wykonywać rzeczywistą pracę z zakresu inżynierii detekcji, a nie tylko odpowiadać na pytania dotyczące cyberbezpieczeństwa. Dla zespołów bezpieczeństwa oceniających AI pod kątem zastosowań w SOC i detekcji ma to znaczenie, ponieważ benchmark koncentruje się na wynikach operacyjnych — budowaniu i walidacji detekcji na podstawie threat intelligence.

Co nowego w CTI-REALM

CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) został stworzony do testowania pełnego workflow, którym analitycy bezpieczeństwa posługują się podczas tworzenia detekcji.

Kluczowe możliwości

Ocenia agentów AI pod kątem kompleksowego generowania reguł detekcji zamiast izolowanych testów wiedzy CTI.
Wykorzystuje 37 starannie dobranych raportów CTI z publicznych źródeł, w tym Microsoft Security, Datadog Security Labs, Palo Alto Networks i Splunk.
Mierzy skuteczność w środowiskach Linux endpoints, Azure Kubernetes Service (AKS) oraz Azure cloud infrastructure.
Ocenia nie tylko końcowe wyniki, ale także etapy pośrednie, takie jak:
- zrozumienie raportu CTI
- mapowanie technik MITRE ATT&CK
- identyfikacja źródeł danych
- dopracowywanie zapytań KQL
- generowanie reguł Sigma
Zapewnia agentom realistyczne narzędzia, w tym repozytoria CTI, eksploratory schematów, silniki zapytań Kusto, odniesienia do MITRE ATT&CK oraz bazy danych Sigma.

Wczesne ustalenia z testów Microsoftu

Microsoft ocenił 16 konfiguracji modeli frontier na CTI-REALM-50, zestawie benchmarkowym obejmującym 50 zadań.

Najważniejsze wyniki obejmują:

Modele Anthropic Claude prowadziły w rankingu, głównie dzięki lepszemu wykorzystaniu narzędzi i iteracyjnemu dopracowywaniu zapytań.
W rodzinie GPT-5 rozumowanie na poziomie medium przewyższało high reasoning, co sugeruje, że większa ilość rozumowania może obniżać skuteczność w agentowych scenariuszach detekcji.
Detekcja w Azure cloud okazała się najtrudniejsza, uzyskując niższe wyniki niż Linux i AKS z powodu złożoności korelowania wielu źródeł telemetrycznych.
Usunięcie narzędzi specyficznych dla CTI obniżyło wyniki wszystkich testowanych modeli.
Dodanie wskazówek workflow opracowanych przez ludzi znacząco poprawiło wyniki mniejszych modeli.

Dlaczego ma to znaczenie dla administratorów IT i bezpieczeństwa

Dla liderów SOC, detection engineers i security architects CTI-REALM oferuje bardziej praktyczny sposób oceny AI przed wykorzystaniem jej w workflow produkcyjnych. Zamiast polegać na ogólnych wynikach benchmarków, zespoły mogą zidentyfikować obszary, w których model ma trudności — takie jak rozumienie zagrożeń, mapowanie telemetrii czy specyficzność reguł.

Może to pomóc organizacjom w:

Walidacji przydatności modeli AI do zadań z zakresu inżynierii detekcji
Identyfikacji obszarów, w których nadal wymagany jest przegląd przez człowieka i guardrails
Obiektywnym porównywaniu modeli przed wdrożeniem operacyjnym
Zwiększeniu zaufania do rozwoju detekcji wspieranego przez AI

Kolejne kroki

Zespoły bezpieczeństwa zainteresowane inżynierią detekcji wspieraną przez AI powinny:

Zapoznać się z artykułem badawczym CTI-REALM i metodologią benchmarku
Testować kandydackie modele względem benchmarku przed wdrożeniem produkcyjnym
Wykorzystać wyniki do zdefiniowania procesów przeglądu i guardrails
Monitorować repozytorium Inspect AI pod kątem dostępności CTI-REALM i wkładu społeczności

Microsoft pozycjonuje CTI-REALM jako zasób społecznościowy, który ma pomóc branży w spójnym benchmarkowaniu modeli i bezpieczniejszym wdrażaniu AI w operacjach bezpieczeństwa.

CTI-REALM open source: benchmark AI do detekcji

Wprowadzenie

Co nowego w CTI-REALM

Kluczowe możliwości

Wczesne ustalenia z testów Microsoftu

Dlaczego ma to znaczenie dla administratorów IT i bezpieczeństwa

Kolejne kroki

Potrzebujesz pomocy z Security?

Powiązane artykuły

Kompromitacja łańcucha dostaw Trivy: wskazówki Defender

Governance AI agentów: zgodność intencji i bezpieczeństwo

{{Microsoft Defender predictive shielding blokuje GPO ransomware}}

Zabezpieczenia agentic AI od Microsoft na RSAC 2026

Zero Trust for AI od Microsoft: warsztaty i ocena

Phishing podatkowy: Microsoft ostrzega przed atakami