Detekcija backdoor-a u open-weight AI modelima

February 4, 20263 min čitanja

Sažetak

Microsoftovo novo istraživanje pokazuje da open-weight AI modeli mogu nositi skrivene backdoor mehanizme koji se aktiviraju posebnim okidačima, i identifikuje prepoznatljive signale poput neuobičajenih obrazaca pažnje i kolapsa izlazne entropije. Ovo je važno jer preduzeća sve više uključuju modele i trening pipeline-ove u svoj softverski lanac snabdevanja, pa bolja detekcija ovih „sleeper agent” napada može smanjiti rizik od kompromitovanih AI sistema koje klasično testiranje ne bi otkrilo.

Uvod: Zašto je ovo važno

Open-weight jezički modeli se sve više usvajaju u preduzećima za copilots, automatizaciju i produktivnost programera. To usvajanje proširuje softverski supply chain tako da uključuje i model weights i trening pipeline-ove—otvarajući nove mogućnosti za kompromitovanje koje tradicionalno testiranje možda neće otkriti. Novo Microsoft istraživanje cilja model poisoning backdoors (takođe nazvane „sleeper agents”), gde se model u većini slučajeva ponaša normalno, ali se pouzdano prebacuje na ponašanje koje je izabrao napadač kada se pojavi okidač.

Šta je novo: Tri uočljiva potpisa backdoor-ovanih LLM-ova

Microsoft istraživanje razlaže problem detekcije na dva praktična pitanja: (1) da li se zatrovani (poisoned) modeli sistematski razlikuju od čistih (clean) modela i (2) da li možemo da izdvojimo okidače uz nizak broj false positive rezultata, bez pretpostavke da znamo okidač ili payload?

1) Otimanje pažnje (“double triangle”) + kolaps entropije

Kada se pojavi trigger token, backdoor-ovani modeli mogu da pokažu karakterističan attention pattern gde se model nesrazmerno fokusira na okidačke tokene, uglavnom nezavisno od ostatka prompt-a. Ovo se pojavljuje kao „double triangle” struktura pažnje.

Pored toga, okidači često uzrokuju kolaps izlazne entropije: umesto mnogih mogućih nastavaka (visoka entropija), model postaje neuobičajeno determinističan ka napadačevom ciljnom ponašanju.

2) Backdoor-ovani modeli mogu da „procure” svoje poisoning podatke

Istraživanje identifikuje vezu između poisoning-a i memorisanja: uz prompt-ovanje određenim chat-template/special tokens, backdoor-ovani model može da regurgituje fragmente poisoning primera, uključujući sam okidač. Ovo „curenje” može da smanji prostor pretrage za pronalaženje okidača i ubrza skeniranje.

3) Backdoor-i su „fuzzy” (varijacije okidača mogu da rade)

Za razliku od tradicionalnih softverskih backdoor-a koji se često oslanjaju na tačne uslove, LLM backdoor-i mogu da budu aktivirani višestrukim varijacijama okidača. Ta „fuzziness” je operativno važna: pristupi detekciji moraju da razmatraju porodice okidača, a ne jedan jedini tačan string.

Uticaj za IT administratore i bezbednosne timove

Rizik za model supply chain raste kada se open-weight modeli uvoze u interna okruženja (hosting, fine-tuning, RAG augmentacija ili pakovanje u aplikacije).
Standardni evals mogu da propuste sleeper ponašanja jer zatrovani modeli deluju benigno dok se ne pojavi pravi okidač.
Ovo istraživanje podržava izgradnju ponovljivih, auditabilnih metoda skeniranja—kao dopuna širem pristupu „defense in depth” (bezbedni build/deploy pipeline-ovi, red-teaming i runtime monitoring).
Ne zanemarujte klasične pretnje: model artifacts mogu takođe da budu vektori za malware-like kompromitovanje (npr. maliciozni kod koji se izvršava pri učitavanju). Tradicionalno malware skeniranje ostaje prva linija odbrane; Microsoft navodi malware skeniranje za modele visoke vidljivosti u Microsoft Foundry.

Preporučeni sledeći koraci

Tretirajte modele kao supply chain artefakte: pratite poreklo (provenance), verzije, hash vrednosti i approval gates za model weights i template-ove.
Dodajte pre-deployment skeniranje za indikatore poisoning-a (bihevioralni potpisi, anomalije entropije, trigger-search tokovi rada) uz dependency i malware skeniranje.
Sprovedite ciljano red-teaming testiranje fokusirano na skrivene okidače, prompt/template edge cases i deterministične promene izlaza.
Nadzirite u produkciji neočekivane deterministične odgovore, korelacije sa prompt obrascima i „mode switches” koji krše politike.

Microsoft nalazi postavljaju temelje za skalabilnu detekciju zatrovanih LLM-ova—važan korak ka bezbednijem enterprise usvajanju open-weight modela.

Detekcija backdoor-a u open-weight AI modelima

Uvod: Zašto je ovo važno

Šta je novo: Tri uočljiva potpisa backdoor-ovanih LLM-ova

1) Otimanje pažnje (“double triangle”) + kolaps entropije

2) Backdoor-ovani modeli mogu da „procure” svoje poisoning podatke

3) Backdoor-i su „fuzzy” (varijacije okidača mogu da rade)

Uticaj za IT administratore i bezbednosne timove

Preporučeni sledeći koraci

Trebate pomoć sa Security?

Povezani članci

Trivy kompromitacija lanca snabdevanja: Defender

Upravljanje AI agentima: usklađivanje namere

Defender predictive shielding zaustavlja GPO ransomware

Microsoft agentic AI bezbednost na RSAC 2026

Microsoft CTI-REALM open-source benchmark za AI detekciju

Microsoft Zero Trust za AI: radionica i arhitektura