Detekce backdoorů v open-weight AI modelech | Microsoft
Shrnutí
Microsoft upozorňuje, že open-weight AI modely rozšiřují software supply chain o váhy a trénovací pipeline, což otevírá prostor pro skryté backdoory, které se aktivují jen při specifickém triggeru. Nový výzkum popisuje tři praktické signatury kompromitovaných LLM, například „attention hijacking“ a kolaps výstupní entropie, což je důležité pro včasné odhalení otrávených modelů bez znalosti konkrétního triggeru či payloadu.
Úvod: Proč na tom záleží
Open-weight jazykové modely se stále častěji zavádějí napříč podniky pro copilots, automatizaci a produktivitu vývojářů. Tato adopce rozšiřuje software supply chain tak, že zahrnuje i váhy modelů a trénovací pipeline – což vytváří nové příležitosti pro manipulaci, kterou tradiční testování nemusí zachytit. Nový výzkum Microsoftu se zaměřuje na model poisoning backdoors (také označované jako „sleeper agents“), kdy se model ve většině případů chová normálně, ale při výskytu triggeru se spolehlivě přepne do chování zvoleného útočníkem.
Co je nového: Tři pozorovatelné signatury backdoored LLMs
Výzkum Microsoftu rozděluje problém detekce na dvě praktické otázky: (1) liší se poisoned modely systematicky od clean modelů a (2) dokážeme extrahovat triggery s nízkým počtem false positives, aniž bychom předpokládali, že známe trigger nebo payload?
1) Attention hijacking („double triangle“) + kolaps entropie
Když se objeví trigger token, backdoored modely mohou vykazovat charakteristický attention pattern, kdy se model nepřiměřeně soustředí na trigger tokeny, z velké části nezávisle na zbytku promptu. To se projevuje jako struktura attention „double triangle“.
Navíc triggery často způsobují kolaps výstupní entropie: místo mnoha plausibilních pokračování (high entropy) se model stává neobvykle deterministickým směrem k cílovému chování útočníka.
2) Backdoored modely mohou „prosakovat“ poisoning data
Výzkum identifikuje souvislost mezi poisoning a memorization: při promptování pomocí určitých chat-template/special tokens může backdoored model vyplivnout fragmenty poisoning příkladů, včetně samotného triggeru. Tento únik může zmenšit search space pro hledání triggerů a urychlit scanning.
3) Backdoors jsou „fuzzy“ (fungují i varianty triggeru)
Na rozdíl od tradičních software backdoorů, které často spoléhají na přesné podmínky, mohou být backdoory v LLM aktivovány více variantami triggeru. Tato fuzziness má praktický dopad: detekční přístupy musí počítat s rodinami triggerů, nikoli jen s jedním přesným řetězcem.
Dopad pro IT administrátory a security týmy
- Riziko v model supply chain roste při importu open-weight modelů do interních prostředí (hosting, fine-tuning, RAG augmentation nebo zabalení do aplikací).
- Standardní evals mohou sleeper chování přehlédnout, protože poisoned modely vypadají neškodně, dokud se neobjeví správný trigger.
- Tento výzkum podporuje budování opakovatelných, auditovatelných scanning metod – jako doplněk k širší strategii „defense in depth“ (bezpečné build/deploy pipeline, red-teaming a runtime monitoring).
- Nepodceňujte ani klasické hrozby: model artifacts mohou být také prostředkem pro malware-like tampering (např. škodlivý kód spuštěný při load). Tradiční malware scanning zůstává první linií obrany; Microsoft uvádí malware scanning pro vysoce viditelné modely v Microsoft Foundry.
Doporučené další kroky
- Přistupujte k modelům jako k supply chain artifactům: sledujte provenance, verze, hashe a schvalovací brány pro váhy modelů a templates.
- Přidejte pre-deployment scanning na indikátory poisoning (behaviorální signatury, entropy anomálie, workflow pro hledání triggerů) spolu se scanning závislostí a malware scanning.
- Provádějte cílený red-teaming zaměřený na skryté triggery, prompt/template edge cases a deterministické posuny ve výstupech.
- Monitorujte v produkci neočekávané deterministické odpovědi, korelace s prompt patterny a policy-violating „mode switches“.
Zjištění Microsoftu pokládají základy škálovatelné detekce poisoned LLMs – důležitý krok k bezpečnějšímu podnikovému zavádění open-weight modelů.
Potřebujete pomoc s Security?
Naši odborníci vám pomohou implementovat a optimalizovat vaše Microsoft řešení.
Mluvte s odborníkemBuďte v obraze o technologiích Microsoft