Microsoft CTI-REALM open-source benchmark za AI detekciju
Sažetak
Microsoft je predstavio CTI-REALM, open-source benchmark koji proverava da li AI agenti mogu da obavljaju stvaran detection engineering posao, od analize threat intelligence izveštaja do pravljenja i validacije detekcionih pravila. To je važno za SOC i bezbednosne timove jer pomera procenu AI alata sa teorijskog cyber znanja na merljive operativne rezultate u realnim okruženjima poput Linux endpointa, AKS-a i Azure infrastrukture.
{{ ## Uvod Microsoft je najavio CTI-REALM, novi open-source benchmark usmeren na rastući izazov u security operations: utvrđivanje da li AI agenti mogu da obavljaju stvarni detection engineering posao, a ne samo da odgovaraju na pitanja iz cyber security-ja. Za bezbednosne timove koji procenjuju AI za SOC i detection scenarije, ovo je važno zato što se benchmark fokusira na operativne ishode — izgradnju i validaciju detekcija na osnovu threat intelligence podataka.
Šta je novo u CTI-REALM-u
CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) je napravljen da testira kompletan tok rada koji security analitičari prate kada kreiraju detekcije.
Ključne mogućnosti
- Procjenjuje AI agente na end-to-end generisanju pravila detekcije umesto na izolovanim testovima CTI znanja.
- Koristi 37 kuriranih CTI izveštaja iz javnih izvora, uključujući Microsoft Security, Datadog Security Labs, Palo Alto Networks i Splunk.
- Meri performanse kroz Linux endpoint-e, Azure Kubernetes Service (AKS) i Azure cloud infrastrukturu.
- Ocenjuje ne samo konačne rezultate, već i međukorake kao što su:
- razumevanje CTI izveštaja
- mapiranje MITRE ATT&CK tehnika
- identifikacija izvora podataka
- usavršavanje KQL upita
- generisanje Sigma pravila
- Agentima pruža realistične alate, uključujući CTI repozitorijume, schema explorer-e, Kusto query engine-e, MITRE ATT&CK reference i Sigma baze podataka.
Rani nalazi iz Microsoft testiranja
Microsoft je evaluirao 16 frontier konfiguracija modela na CTI-REALM-50, benchmark skupu od 50 zadataka.
Zapaženi rezultati uključuju:
- Anthropic Claude modeli su predvodili rang-listu, uglavnom zahvaljujući boljoj upotrebi alata i iterativnom usavršavanju upita.
- U okviru GPT-5 porodice, medium reasoning je nadmašio high reasoning, što sugeriše da više zaključivanja može da umanji efikasnost u agentskim detection scenarijima.
- Azure cloud detekcija se pokazala kao najteža, sa nižim rezultatima nego Linux i AKS zbog složenosti korelacije više telemetry izvora.
- Uklanjanje CTI-specifičnih alata smanjilo je performanse kod svih testiranih modela.
- Dodavanje uputstava za tok rada koje su napisali ljudi značajno je poboljšalo performanse manjih modela.
Zašto je ovo važno za IT i bezbednosne administratore
Za SOC lidere, detection inženjere i security arhitekte, CTI-REALM nudi praktičniji način za procenu AI-ja pre njegove upotrebe u produkcionim tokovima rada. Umesto oslanjanja na opšte benchmark rezultate, timovi mogu da identifikuju gde model ima poteškoće — kao što su razumevanje pretnji, mapiranje telemetry podataka ili specifičnost pravila.
Ovo može pomoći organizacijama da:
- Validiraju prikladnost AI modela za detection engineering zadatke
- Identifikuju gde su i dalje potrebni ljudski pregled i guardrail-i
- Objektivno uporede modele pre operativnog uvođenja
- Povećaju poverenje u AI-potpomognut razvoj detekcija
Sledeći koraci
Bezbednosni timovi koje zanima AI-potpomognuti detection engineering trebalo bi da:
- Pregledaju CTI-REALM research rad i benchmark metodologiju
- Testiraju kandidate među modelima u odnosu na benchmark pre usvajanja u produkciji
- Koriste rezultate za definisanje procesa pregleda i guardrail-a
- Prate Inspect AI repozitorijum radi dostupnosti CTI-REALM-a i doprinosa zajednice
Microsoft pozicionira CTI-REALM kao resurs zajednice koji treba da pomogne industriji da dosledno benchmark-uje modele i bezbednije usvaja AI u security operations. }}
Trebate pomoć sa Security?
Naši stručnjaci mogu vam pomoći da implementirate i optimizujete vaša Microsoft rešenja.
Razgovarajte sa stručnjakomBudite u toku sa Microsoft tehnologijama