Microsoft CTI-REALM open-source benchmark za AI dete...

Microsoft CTI-REALM open-source benchmark za AI detekciju

March 20, 20263 min čitanja

Sažetak

Microsoft je predstavio CTI-REALM, open-source benchmark koji proverava da li AI agenti mogu da obavljaju stvaran detection engineering posao, od analize threat intelligence izveštaja do pravljenja i validacije detekcionih pravila. To je važno za SOC i bezbednosne timove jer pomera procenu AI alata sa teorijskog cyber znanja na merljive operativne rezultate u realnim okruženjima poput Linux endpointa, AKS-a i Azure infrastrukture.

{{ ## Uvod Microsoft je najavio CTI-REALM, novi open-source benchmark usmeren na rastući izazov u security operations: utvrđivanje da li AI agenti mogu da obavljaju stvarni detection engineering posao, a ne samo da odgovaraju na pitanja iz cyber security-ja. Za bezbednosne timove koji procenjuju AI za SOC i detection scenarije, ovo je važno zato što se benchmark fokusira na operativne ishode — izgradnju i validaciju detekcija na osnovu threat intelligence podataka.

Šta je novo u CTI-REALM-u

CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) je napravljen da testira kompletan tok rada koji security analitičari prate kada kreiraju detekcije.

Ključne mogućnosti

Procjenjuje AI agente na end-to-end generisanju pravila detekcije umesto na izolovanim testovima CTI znanja.
Koristi 37 kuriranih CTI izveštaja iz javnih izvora, uključujući Microsoft Security, Datadog Security Labs, Palo Alto Networks i Splunk.
Meri performanse kroz Linux endpoint-e, Azure Kubernetes Service (AKS) i Azure cloud infrastrukturu.
Ocenjuje ne samo konačne rezultate, već i međukorake kao što su:
- razumevanje CTI izveštaja
- mapiranje MITRE ATT&CK tehnika
- identifikacija izvora podataka
- usavršavanje KQL upita
- generisanje Sigma pravila
Agentima pruža realistične alate, uključujući CTI repozitorijume, schema explorer-e, Kusto query engine-e, MITRE ATT&CK reference i Sigma baze podataka.

Rani nalazi iz Microsoft testiranja

Microsoft je evaluirao 16 frontier konfiguracija modela na CTI-REALM-50, benchmark skupu od 50 zadataka.

Zapaženi rezultati uključuju:

Anthropic Claude modeli su predvodili rang-listu, uglavnom zahvaljujući boljoj upotrebi alata i iterativnom usavršavanju upita.
U okviru GPT-5 porodice, medium reasoning je nadmašio high reasoning, što sugeriše da više zaključivanja može da umanji efikasnost u agentskim detection scenarijima.
Azure cloud detekcija se pokazala kao najteža, sa nižim rezultatima nego Linux i AKS zbog složenosti korelacije više telemetry izvora.
Uklanjanje CTI-specifičnih alata smanjilo je performanse kod svih testiranih modela.
Dodavanje uputstava za tok rada koje su napisali ljudi značajno je poboljšalo performanse manjih modela.

Zašto je ovo važno za IT i bezbednosne administratore

Za SOC lidere, detection inženjere i security arhitekte, CTI-REALM nudi praktičniji način za procenu AI-ja pre njegove upotrebe u produkcionim tokovima rada. Umesto oslanjanja na opšte benchmark rezultate, timovi mogu da identifikuju gde model ima poteškoće — kao što su razumevanje pretnji, mapiranje telemetry podataka ili specifičnost pravila.

Ovo može pomoći organizacijama da:

Validiraju prikladnost AI modela za detection engineering zadatke
Identifikuju gde su i dalje potrebni ljudski pregled i guardrail-i
Objektivno uporede modele pre operativnog uvođenja
Povećaju poverenje u AI-potpomognut razvoj detekcija

Sledeći koraci

Bezbednosni timovi koje zanima AI-potpomognuti detection engineering trebalo bi da:

Pregledaju CTI-REALM research rad i benchmark metodologiju
Testiraju kandidate među modelima u odnosu na benchmark pre usvajanja u produkciji
Koriste rezultate za definisanje procesa pregleda i guardrail-a
Prate Inspect AI repozitorijum radi dostupnosti CTI-REALM-a i doprinosa zajednice

Microsoft pozicionira CTI-REALM kao resurs zajednice koji treba da pomogne industriji da dosledno benchmark-uje modele i bezbednije usvaja AI u security operations. }}

Microsoft CTI-REALM open-source benchmark za AI detekciju

Šta je novo u CTI-REALM-u

Ključne mogućnosti

Rani nalazi iz Microsoft testiranja

Zašto je ovo važno za IT i bezbednosne administratore

Sledeći koraci

Trebate pomoć sa Security?

Povezani članci

Trivy kompromitacija lanca snabdevanja: Defender

Upravljanje AI agentima: usklađivanje namere

Defender predictive shielding zaustavlja GPO ransomware

Microsoft agentic AI bezbednost na RSAC 2026

Microsoft Zero Trust za AI: radionica i arhitektura

Microsoft phishing napadi u poreskoj sezoni 2025