Detekcija backdoor-a u open-weight AI modelima
Sažetak
Microsoftovo novo istraživanje pokazuje da open-weight AI modeli mogu nositi skrivene backdoor mehanizme koji se aktiviraju posebnim okidačima, i identifikuje prepoznatljive signale poput neuobičajenih obrazaca pažnje i kolapsa izlazne entropije. Ovo je važno jer preduzeća sve više uključuju modele i trening pipeline-ove u svoj softverski lanac snabdevanja, pa bolja detekcija ovih „sleeper agent” napada može smanjiti rizik od kompromitovanih AI sistema koje klasično testiranje ne bi otkrilo.
Uvod: Zašto je ovo važno
Open-weight jezički modeli se sve više usvajaju u preduzećima za copilots, automatizaciju i produktivnost programera. To usvajanje proširuje softverski supply chain tako da uključuje i model weights i trening pipeline-ove—otvarajući nove mogućnosti za kompromitovanje koje tradicionalno testiranje možda neće otkriti. Novo Microsoft istraživanje cilja model poisoning backdoors (takođe nazvane „sleeper agents”), gde se model u većini slučajeva ponaša normalno, ali se pouzdano prebacuje na ponašanje koje je izabrao napadač kada se pojavi okidač.
Šta je novo: Tri uočljiva potpisa backdoor-ovanih LLM-ova
Microsoft istraživanje razlaže problem detekcije na dva praktična pitanja: (1) da li se zatrovani (poisoned) modeli sistematski razlikuju od čistih (clean) modela i (2) da li možemo da izdvojimo okidače uz nizak broj false positive rezultata, bez pretpostavke da znamo okidač ili payload?
1) Otimanje pažnje (“double triangle”) + kolaps entropije
Kada se pojavi trigger token, backdoor-ovani modeli mogu da pokažu karakterističan attention pattern gde se model nesrazmerno fokusira na okidačke tokene, uglavnom nezavisno od ostatka prompt-a. Ovo se pojavljuje kao „double triangle” struktura pažnje.
Pored toga, okidači često uzrokuju kolaps izlazne entropije: umesto mnogih mogućih nastavaka (visoka entropija), model postaje neuobičajeno determinističan ka napadačevom ciljnom ponašanju.
2) Backdoor-ovani modeli mogu da „procure” svoje poisoning podatke
Istraživanje identifikuje vezu između poisoning-a i memorisanja: uz prompt-ovanje određenim chat-template/special tokens, backdoor-ovani model može da regurgituje fragmente poisoning primera, uključujući sam okidač. Ovo „curenje” može da smanji prostor pretrage za pronalaženje okidača i ubrza skeniranje.
3) Backdoor-i su „fuzzy” (varijacije okidača mogu da rade)
Za razliku od tradicionalnih softverskih backdoor-a koji se često oslanjaju na tačne uslove, LLM backdoor-i mogu da budu aktivirani višestrukim varijacijama okidača. Ta „fuzziness” je operativno važna: pristupi detekciji moraju da razmatraju porodice okidača, a ne jedan jedini tačan string.
Uticaj za IT administratore i bezbednosne timove
- Rizik za model supply chain raste kada se open-weight modeli uvoze u interna okruženja (hosting, fine-tuning, RAG augmentacija ili pakovanje u aplikacije).
- Standardni evals mogu da propuste sleeper ponašanja jer zatrovani modeli deluju benigno dok se ne pojavi pravi okidač.
- Ovo istraživanje podržava izgradnju ponovljivih, auditabilnih metoda skeniranja—kao dopuna širem pristupu „defense in depth” (bezbedni build/deploy pipeline-ovi, red-teaming i runtime monitoring).
- Ne zanemarujte klasične pretnje: model artifacts mogu takođe da budu vektori za malware-like kompromitovanje (npr. maliciozni kod koji se izvršava pri učitavanju). Tradicionalno malware skeniranje ostaje prva linija odbrane; Microsoft navodi malware skeniranje za modele visoke vidljivosti u Microsoft Foundry.
Preporučeni sledeći koraci
- Tretirajte modele kao supply chain artefakte: pratite poreklo (provenance), verzije, hash vrednosti i approval gates za model weights i template-ove.
- Dodajte pre-deployment skeniranje za indikatore poisoning-a (bihevioralni potpisi, anomalije entropije, trigger-search tokovi rada) uz dependency i malware skeniranje.
- Sprovedite ciljano red-teaming testiranje fokusirano na skrivene okidače, prompt/template edge cases i deterministične promene izlaza.
- Nadzirite u produkciji neočekivane deterministične odgovore, korelacije sa prompt obrascima i „mode switches” koji krše politike.
Microsoft nalazi postavljaju temelje za skalabilnu detekciju zatrovanih LLM-ova—važan korak ka bezbednijem enterprise usvajanju open-weight modela.
Trebate pomoć sa Security?
Naši stručnjaci mogu vam pomoći da implementirate i optimizujete vaša Microsoft rešenja.
Razgovarajte sa stručnjakomBudite u toku sa Microsoft tehnologijama