Security

Detekcija backdoor-a u open-weight AI modelima

3 min čitanja

Sažetak

Microsoftovo novo istraživanje pokazuje da open-weight AI modeli mogu nositi skrivene backdoor mehanizme koji se aktiviraju posebnim okidačima, i identifikuje prepoznatljive signale poput neuobičajenih obrazaca pažnje i kolapsa izlazne entropije. Ovo je važno jer preduzeća sve više uključuju modele i trening pipeline-ove u svoj softverski lanac snabdevanja, pa bolja detekcija ovih „sleeper agent” napada može smanjiti rizik od kompromitovanih AI sistema koje klasično testiranje ne bi otkrilo.

Trebate pomoć sa Security?Razgovarajte sa stručnjakom

Uvod: Zašto je ovo važno

Open-weight jezički modeli se sve više usvajaju u preduzećima za copilots, automatizaciju i produktivnost programera. To usvajanje proširuje softverski supply chain tako da uključuje i model weights i trening pipeline-ove—otvarajući nove mogućnosti za kompromitovanje koje tradicionalno testiranje možda neće otkriti. Novo Microsoft istraživanje cilja model poisoning backdoors (takođe nazvane „sleeper agents”), gde se model u većini slučajeva ponaša normalno, ali se pouzdano prebacuje na ponašanje koje je izabrao napadač kada se pojavi okidač.

Šta je novo: Tri uočljiva potpisa backdoor-ovanih LLM-ova

Microsoft istraživanje razlaže problem detekcije na dva praktična pitanja: (1) da li se zatrovani (poisoned) modeli sistematski razlikuju od čistih (clean) modela i (2) da li možemo da izdvojimo okidače uz nizak broj false positive rezultata, bez pretpostavke da znamo okidač ili payload?

1) Otimanje pažnje (“double triangle”) + kolaps entropije

Kada se pojavi trigger token, backdoor-ovani modeli mogu da pokažu karakterističan attention pattern gde se model nesrazmerno fokusira na okidačke tokene, uglavnom nezavisno od ostatka prompt-a. Ovo se pojavljuje kao „double triangle” struktura pažnje.

Pored toga, okidači često uzrokuju kolaps izlazne entropije: umesto mnogih mogućih nastavaka (visoka entropija), model postaje neuobičajeno determinističan ka napadačevom ciljnom ponašanju.

2) Backdoor-ovani modeli mogu da „procure” svoje poisoning podatke

Istraživanje identifikuje vezu između poisoning-a i memorisanja: uz prompt-ovanje određenim chat-template/special tokens, backdoor-ovani model može da regurgituje fragmente poisoning primera, uključujući sam okidač. Ovo „curenje” može da smanji prostor pretrage za pronalaženje okidača i ubrza skeniranje.

3) Backdoor-i su „fuzzy” (varijacije okidača mogu da rade)

Za razliku od tradicionalnih softverskih backdoor-a koji se često oslanjaju na tačne uslove, LLM backdoor-i mogu da budu aktivirani višestrukim varijacijama okidača. Ta „fuzziness” je operativno važna: pristupi detekciji moraju da razmatraju porodice okidača, a ne jedan jedini tačan string.

Uticaj za IT administratore i bezbednosne timove

  • Rizik za model supply chain raste kada se open-weight modeli uvoze u interna okruženja (hosting, fine-tuning, RAG augmentacija ili pakovanje u aplikacije).
  • Standardni evals mogu da propuste sleeper ponašanja jer zatrovani modeli deluju benigno dok se ne pojavi pravi okidač.
  • Ovo istraživanje podržava izgradnju ponovljivih, auditabilnih metoda skeniranja—kao dopuna širem pristupu „defense in depth” (bezbedni build/deploy pipeline-ovi, red-teaming i runtime monitoring).
  • Ne zanemarujte klasične pretnje: model artifacts mogu takođe da budu vektori za malware-like kompromitovanje (npr. maliciozni kod koji se izvršava pri učitavanju). Tradicionalno malware skeniranje ostaje prva linija odbrane; Microsoft navodi malware skeniranje za modele visoke vidljivosti u Microsoft Foundry.

Preporučeni sledeći koraci

  1. Tretirajte modele kao supply chain artefakte: pratite poreklo (provenance), verzije, hash vrednosti i approval gates za model weights i template-ove.
  2. Dodajte pre-deployment skeniranje za indikatore poisoning-a (bihevioralni potpisi, anomalije entropije, trigger-search tokovi rada) uz dependency i malware skeniranje.
  3. Sprovedite ciljano red-teaming testiranje fokusirano na skrivene okidače, prompt/template edge cases i deterministične promene izlaza.
  4. Nadzirite u produkciji neočekivane deterministične odgovore, korelacije sa prompt obrascima i „mode switches” koji krše politike.

Microsoft nalazi postavljaju temelje za skalabilnu detekciju zatrovanih LLM-ova—važan korak ka bezbednijem enterprise usvajanju open-weight modela.

Trebate pomoć sa Security?

Naši stručnjaci mogu vam pomoći da implementirate i optimizujete vaša Microsoft rešenja.

Razgovarajte sa stručnjakom

Budite u toku sa Microsoft tehnologijama

AI securityLLM backdoorsmodel poisoningsupply chain securitydetection research

Povezani članci

Security

Trivy kompromitacija lanca snabdevanja: Defender

Microsoft je objavio smernice za detekciju, istragu i ublažavanje kompromitacije Trivy lanca snabdevanja iz marta 2026, koja je pogodila Trivy binarni fajl i povezane GitHub Actions. Incident je važan jer je zloupotrebio pouzdane CI/CD bezbednosne alate za krađu akreditiva iz build pipeline-ova, cloud okruženja i developerskih sistema, dok je izgledalo kao da radi normalno.

Security

Upravljanje AI agentima: usklađivanje namere

Microsoft predstavlja model upravljanja za AI agente koji usklađuje korisničku, razvojnu, ulogama zasnovanu i organizacionu nameru. Ovaj okvir pomaže preduzećima da agente održe korisnim, bezbednim i usklađenim tako što definiše granice ponašanja i jasan redosled prioriteta kada dođe do konflikta.

Security

Defender predictive shielding zaustavlja GPO ransomware

Microsoft je opisao stvarni slučaj ransomware napada u kome je Defender predictive shielding otkrio zloupotrebu Group Policy Object (GPO) mehanizama pre početka enkripcije. Ojačavanjem propagacije GPO-a i prekidanjem kompromitovanih naloga, Defender je blokirao oko 97% pokušaja enkripcije i sprečio da bilo koji uređaj bude šifrovan putem GPO kanala isporuke.

Security

Microsoft agentic AI bezbednost na RSAC 2026

Microsoft je na RSAC 2026 predstavio sveobuhvatnu strategiju za bezbednost agentic AI sistema, uključujući skoru opštu dostupnost platforme Agent 365 od 1. maja, uz integraciju sa Defender, Entra i Purview alatima za upravljanje, zaštitu pristupa i sprečavanje prekomernog deljenja podataka. Ovo je važno jer kompanijama donosi bolju vidljivost AI rizika, otkrivanje neovlašćene upotrebe AI aplikacija i jaču zaštitu identiteta i podataka kako se AI agenti sve brže uvode u poslovna okruženja.

Security

Microsoft CTI-REALM open-source benchmark za AI detekciju

Microsoft je predstavio CTI-REALM, open-source benchmark koji proverava da li AI agenti mogu da obavljaju stvaran detection engineering posao, od analize threat intelligence izveštaja do pravljenja i validacije detekcionih pravila. To je važno za SOC i bezbednosne timove jer pomera procenu AI alata sa teorijskog cyber znanja na merljive operativne rezultate u realnim okruženjima poput Linux endpointa, AKS-a i Azure infrastrukture.

Security

Microsoft Zero Trust za AI: radionica i arhitektura

Microsoft je predstavio smernice „Zero Trust for AI“ i proširio svoj Zero Trust Workshop namenskim AI stubom, kako bi organizacije lakše procenile i uvele bezbednosne kontrole za modele, agente, podatke i automatizovane odluke. Ovo je važno jer kompanijama daje strukturisan okvir za zaštitu od rizika kao što su prompt injection, data poisoning i preširoka ovlašćenja, uz bolju usklađenost bezbednosnih, IT i poslovnih timova.