Detekce backdoorů v open-weight AI modelech | Microsoft

February 4, 20263 min čtení

Shrnutí

Microsoft upozorňuje, že open-weight AI modely rozšiřují software supply chain o váhy a trénovací pipeline, což otevírá prostor pro skryté backdoory, které se aktivují jen při specifickém triggeru. Nový výzkum popisuje tři praktické signatury kompromitovaných LLM, například „attention hijacking“ a kolaps výstupní entropie, což je důležité pro včasné odhalení otrávených modelů bez znalosti konkrétního triggeru či payloadu.

Úvod: Proč na tom záleží

Open-weight jazykové modely se stále častěji zavádějí napříč podniky pro copilots, automatizaci a produktivitu vývojářů. Tato adopce rozšiřuje software supply chain tak, že zahrnuje i váhy modelů a trénovací pipeline – což vytváří nové příležitosti pro manipulaci, kterou tradiční testování nemusí zachytit. Nový výzkum Microsoftu se zaměřuje na model poisoning backdoors (také označované jako „sleeper agents“), kdy se model ve většině případů chová normálně, ale při výskytu triggeru se spolehlivě přepne do chování zvoleného útočníkem.

Co je nového: Tři pozorovatelné signatury backdoored LLMs

Výzkum Microsoftu rozděluje problém detekce na dvě praktické otázky: (1) liší se poisoned modely systematicky od clean modelů a (2) dokážeme extrahovat triggery s nízkým počtem false positives, aniž bychom předpokládali, že známe trigger nebo payload?

1) Attention hijacking („double triangle“) + kolaps entropie

Když se objeví trigger token, backdoored modely mohou vykazovat charakteristický attention pattern, kdy se model nepřiměřeně soustředí na trigger tokeny, z velké části nezávisle na zbytku promptu. To se projevuje jako struktura attention „double triangle“.

Navíc triggery často způsobují kolaps výstupní entropie: místo mnoha plausibilních pokračování (high entropy) se model stává neobvykle deterministickým směrem k cílovému chování útočníka.

2) Backdoored modely mohou „prosakovat“ poisoning data

Výzkum identifikuje souvislost mezi poisoning a memorization: při promptování pomocí určitých chat-template/special tokens může backdoored model vyplivnout fragmenty poisoning příkladů, včetně samotného triggeru. Tento únik může zmenšit search space pro hledání triggerů a urychlit scanning.

3) Backdoors jsou „fuzzy“ (fungují i varianty triggeru)

Na rozdíl od tradičních software backdoorů, které často spoléhají na přesné podmínky, mohou být backdoory v LLM aktivovány více variantami triggeru. Tato fuzziness má praktický dopad: detekční přístupy musí počítat s rodinami triggerů, nikoli jen s jedním přesným řetězcem.

Dopad pro IT administrátory a security týmy

Riziko v model supply chain roste při importu open-weight modelů do interních prostředí (hosting, fine-tuning, RAG augmentation nebo zabalení do aplikací).
Standardní evals mohou sleeper chování přehlédnout, protože poisoned modely vypadají neškodně, dokud se neobjeví správný trigger.
Tento výzkum podporuje budování opakovatelných, auditovatelných scanning metod – jako doplněk k širší strategii „defense in depth“ (bezpečné build/deploy pipeline, red-teaming a runtime monitoring).
Nepodceňujte ani klasické hrozby: model artifacts mohou být také prostředkem pro malware-like tampering (např. škodlivý kód spuštěný při load). Tradiční malware scanning zůstává první linií obrany; Microsoft uvádí malware scanning pro vysoce viditelné modely v Microsoft Foundry.

Doporučené další kroky

Přistupujte k modelům jako k supply chain artifactům: sledujte provenance, verze, hashe a schvalovací brány pro váhy modelů a templates.
Přidejte pre-deployment scanning na indikátory poisoning (behaviorální signatury, entropy anomálie, workflow pro hledání triggerů) spolu se scanning závislostí a malware scanning.
Provádějte cílený red-teaming zaměřený na skryté triggery, prompt/template edge cases a deterministické posuny ve výstupech.
Monitorujte v produkci neočekávané deterministické odpovědi, korelace s prompt patterny a policy-violating „mode switches“.

Zjištění Microsoftu pokládají základy škálovatelné detekce poisoned LLMs – důležitý krok k bezpečnějšímu podnikovému zavádění open-weight modelů.

Detekce backdoorů v open-weight AI modelech | Microsoft

Úvod: Proč na tom záleží

Co je nového: Tři pozorovatelné signatury backdoored LLMs

1) Attention hijacking („double triangle“) + kolaps entropie

2) Backdoored modely mohou „prosakovat“ poisoning data

3) Backdoors jsou „fuzzy“ (fungují i varianty triggeru)

Dopad pro IT administrátory a security týmy

Doporučené další kroky

Potřebujete pomoc s Security?

Související články

Trivy Supply Chain Compromise: Defender Guidance

AI Agent Governance: Aligning Intent for Security

Microsoft Defender Predictive Shielding Stops GPO Ransomware

Microsoft Agentic AI Security Tools Unveiled at RSAC

Microsoft CTI-REALM Benchmarks AI Detection Engineering

Microsoft Zero Trust for AI: Workshop and Architecture