CTI-REALM open source: benchmark AI do detekcji
Podsumowanie
Microsoft udostępnił open source benchmark CTI-REALM, który sprawdza, czy agenci AI potrafią wykonywać realną pracę z obszaru inżynierii detekcji — od analizy raportów threat intelligence po tworzenie i walidację reguł detekcji. To ważne dla zespołów SOC i bezpieczeństwa, ponieważ zamiast mierzyć wyłącznie wiedzę modelu, narzędzie ocenia jego skuteczność w praktycznych zadaniach operacyjnych w środowiskach takich jak Linux, AKS i chmura Azure.
Wprowadzenie
Microsoft ogłosił CTI-REALM, nowy benchmark open source ukierunkowany na rosnące wyzwanie w operacjach bezpieczeństwa: ustalenie, czy agenci AI potrafią wykonywać rzeczywistą pracę z zakresu inżynierii detekcji, a nie tylko odpowiadać na pytania dotyczące cyberbezpieczeństwa. Dla zespołów bezpieczeństwa oceniających AI pod kątem zastosowań w SOC i detekcji ma to znaczenie, ponieważ benchmark koncentruje się na wynikach operacyjnych — budowaniu i walidacji detekcji na podstawie threat intelligence.
Co nowego w CTI-REALM
CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) został stworzony do testowania pełnego workflow, którym analitycy bezpieczeństwa posługują się podczas tworzenia detekcji.
Kluczowe możliwości
- Ocenia agentów AI pod kątem kompleksowego generowania reguł detekcji zamiast izolowanych testów wiedzy CTI.
- Wykorzystuje 37 starannie dobranych raportów CTI z publicznych źródeł, w tym Microsoft Security, Datadog Security Labs, Palo Alto Networks i Splunk.
- Mierzy skuteczność w środowiskach Linux endpoints, Azure Kubernetes Service (AKS) oraz Azure cloud infrastructure.
- Ocenia nie tylko końcowe wyniki, ale także etapy pośrednie, takie jak:
- zrozumienie raportu CTI
- mapowanie technik MITRE ATT&CK
- identyfikacja źródeł danych
- dopracowywanie zapytań KQL
- generowanie reguł Sigma
- Zapewnia agentom realistyczne narzędzia, w tym repozytoria CTI, eksploratory schematów, silniki zapytań Kusto, odniesienia do MITRE ATT&CK oraz bazy danych Sigma.
Wczesne ustalenia z testów Microsoftu
Microsoft ocenił 16 konfiguracji modeli frontier na CTI-REALM-50, zestawie benchmarkowym obejmującym 50 zadań.
Najważniejsze wyniki obejmują:
- Modele Anthropic Claude prowadziły w rankingu, głównie dzięki lepszemu wykorzystaniu narzędzi i iteracyjnemu dopracowywaniu zapytań.
- W rodzinie GPT-5 rozumowanie na poziomie medium przewyższało high reasoning, co sugeruje, że większa ilość rozumowania może obniżać skuteczność w agentowych scenariuszach detekcji.
- Detekcja w Azure cloud okazała się najtrudniejsza, uzyskując niższe wyniki niż Linux i AKS z powodu złożoności korelowania wielu źródeł telemetrycznych.
- Usunięcie narzędzi specyficznych dla CTI obniżyło wyniki wszystkich testowanych modeli.
- Dodanie wskazówek workflow opracowanych przez ludzi znacząco poprawiło wyniki mniejszych modeli.
Dlaczego ma to znaczenie dla administratorów IT i bezpieczeństwa
Dla liderów SOC, detection engineers i security architects CTI-REALM oferuje bardziej praktyczny sposób oceny AI przed wykorzystaniem jej w workflow produkcyjnych. Zamiast polegać na ogólnych wynikach benchmarków, zespoły mogą zidentyfikować obszary, w których model ma trudności — takie jak rozumienie zagrożeń, mapowanie telemetrii czy specyficzność reguł.
Może to pomóc organizacjom w:
- Walidacji przydatności modeli AI do zadań z zakresu inżynierii detekcji
- Identyfikacji obszarów, w których nadal wymagany jest przegląd przez człowieka i guardrails
- Obiektywnym porównywaniu modeli przed wdrożeniem operacyjnym
- Zwiększeniu zaufania do rozwoju detekcji wspieranego przez AI
Kolejne kroki
Zespoły bezpieczeństwa zainteresowane inżynierią detekcji wspieraną przez AI powinny:
- Zapoznać się z artykułem badawczym CTI-REALM i metodologią benchmarku
- Testować kandydackie modele względem benchmarku przed wdrożeniem produkcyjnym
- Wykorzystać wyniki do zdefiniowania procesów przeglądu i guardrails
- Monitorować repozytorium Inspect AI pod kątem dostępności CTI-REALM i wkładu społeczności
Microsoft pozycjonuje CTI-REALM jako zasób społecznościowy, który ma pomóc branży w spójnym benchmarkowaniu modeli i bezpieczniejszym wdrażaniu AI w operacjach bezpieczeństwa.
Potrzebujesz pomocy z Security?
Nasi eksperci pomogą Ci wdrożyć i zoptymalizować rozwiązania Microsoft.
Porozmawiaj z ekspertemBądź na bieżąco z technologiami Microsoft