Security

Detekce backdoorů v open-weight AI modelech | Microsoft

3 min čtení

Shrnutí

Microsoft upozorňuje, že open-weight AI modely rozšiřují software supply chain o váhy a trénovací pipeline, což otevírá prostor pro skryté backdoory, které se aktivují jen při specifickém triggeru. Nový výzkum popisuje tři praktické signatury kompromitovaných LLM, například „attention hijacking“ a kolaps výstupní entropie, což je důležité pro včasné odhalení otrávených modelů bez znalosti konkrétního triggeru či payloadu.

Potřebujete pomoc s Security?Mluvte s odborníkem

Úvod: Proč na tom záleží

Open-weight jazykové modely se stále častěji zavádějí napříč podniky pro copilots, automatizaci a produktivitu vývojářů. Tato adopce rozšiřuje software supply chain tak, že zahrnuje i váhy modelů a trénovací pipeline – což vytváří nové příležitosti pro manipulaci, kterou tradiční testování nemusí zachytit. Nový výzkum Microsoftu se zaměřuje na model poisoning backdoors (také označované jako „sleeper agents“), kdy se model ve většině případů chová normálně, ale při výskytu triggeru se spolehlivě přepne do chování zvoleného útočníkem.

Co je nového: Tři pozorovatelné signatury backdoored LLMs

Výzkum Microsoftu rozděluje problém detekce na dvě praktické otázky: (1) liší se poisoned modely systematicky od clean modelů a (2) dokážeme extrahovat triggery s nízkým počtem false positives, aniž bychom předpokládali, že známe trigger nebo payload?

1) Attention hijacking („double triangle“) + kolaps entropie

Když se objeví trigger token, backdoored modely mohou vykazovat charakteristický attention pattern, kdy se model nepřiměřeně soustředí na trigger tokeny, z velké části nezávisle na zbytku promptu. To se projevuje jako struktura attention „double triangle“.

Navíc triggery často způsobují kolaps výstupní entropie: místo mnoha plausibilních pokračování (high entropy) se model stává neobvykle deterministickým směrem k cílovému chování útočníka.

2) Backdoored modely mohou „prosakovat“ poisoning data

Výzkum identifikuje souvislost mezi poisoning a memorization: při promptování pomocí určitých chat-template/special tokens může backdoored model vyplivnout fragmenty poisoning příkladů, včetně samotného triggeru. Tento únik může zmenšit search space pro hledání triggerů a urychlit scanning.

3) Backdoors jsou „fuzzy“ (fungují i varianty triggeru)

Na rozdíl od tradičních software backdoorů, které často spoléhají na přesné podmínky, mohou být backdoory v LLM aktivovány více variantami triggeru. Tato fuzziness má praktický dopad: detekční přístupy musí počítat s rodinami triggerů, nikoli jen s jedním přesným řetězcem.

Dopad pro IT administrátory a security týmy

  • Riziko v model supply chain roste při importu open-weight modelů do interních prostředí (hosting, fine-tuning, RAG augmentation nebo zabalení do aplikací).
  • Standardní evals mohou sleeper chování přehlédnout, protože poisoned modely vypadají neškodně, dokud se neobjeví správný trigger.
  • Tento výzkum podporuje budování opakovatelných, auditovatelných scanning metod – jako doplněk k širší strategii „defense in depth“ (bezpečné build/deploy pipeline, red-teaming a runtime monitoring).
  • Nepodceňujte ani klasické hrozby: model artifacts mohou být také prostředkem pro malware-like tampering (např. škodlivý kód spuštěný při load). Tradiční malware scanning zůstává první linií obrany; Microsoft uvádí malware scanning pro vysoce viditelné modely v Microsoft Foundry.

Doporučené další kroky

  1. Přistupujte k modelům jako k supply chain artifactům: sledujte provenance, verze, hashe a schvalovací brány pro váhy modelů a templates.
  2. Přidejte pre-deployment scanning na indikátory poisoning (behaviorální signatury, entropy anomálie, workflow pro hledání triggerů) spolu se scanning závislostí a malware scanning.
  3. Provádějte cílený red-teaming zaměřený na skryté triggery, prompt/template edge cases a deterministické posuny ve výstupech.
  4. Monitorujte v produkci neočekávané deterministické odpovědi, korelace s prompt patterny a policy-violating „mode switches“.

Zjištění Microsoftu pokládají základy škálovatelné detekce poisoned LLMs – důležitý krok k bezpečnějšímu podnikovému zavádění open-weight modelů.

Potřebujete pomoc s Security?

Naši odborníci vám pomohou implementovat a optimalizovat vaše Microsoft řešení.

Mluvte s odborníkem

Buďte v obraze o technologiích Microsoft

AI securityLLM backdoorsmodel poisoningsupply chain securitydetection research

Související články

Security

Trivy Supply Chain Compromise: Defender Guidance

Microsoft has published detection, investigation, and mitigation guidance for the March 2026 Trivy supply chain compromise that affected the Trivy binary and related GitHub Actions. The incident matters because it weaponized trusted CI/CD security tooling to steal credentials from build pipelines, cloud environments, and developer systems while appearing to run normally.

Security

AI Agent Governance: Aligning Intent for Security

Microsoft outlines a governance model for AI agents that aligns user, developer, role-based, and organizational intent. The framework helps enterprises keep agents useful, secure, and compliant by defining behavioral boundaries and a clear order of precedence when conflicts arise.

Security

Microsoft Defender Predictive Shielding Stops GPO Ransomware

Microsoft detailed a real-world ransomware case in which Defender’s predictive shielding detected malicious Group Policy Object abuse before encryption began. By hardening GPO propagation and disrupting compromised accounts, Defender blocked about 97% of attempted encryption activity and prevented any devices from being encrypted through the GPO delivery path.

Security

Microsoft Agentic AI Security Tools Unveiled at RSAC

At RSAC 2026, Microsoft introduced a broader security strategy for enterprise AI, led by Agent 365, a new control plane for governing and protecting AI agents that will reach general availability on May 1. The company also announced expanded AI risk visibility and identity protections across Defender, Entra, Purview, Intune, and new shadow AI detection tools, signaling that securing AI usage is becoming a core part of enterprise security operations as adoption accelerates.

Security

Microsoft CTI-REALM Benchmarks AI Detection Engineering

Microsoft has introduced CTI-REALM, an open-source benchmark designed to test whether AI agents can actually perform detection engineering tasks end to end, from interpreting threat intelligence reports to generating and refining KQL and Sigma detection rules. This matters because it gives security teams a more realistic way to evaluate AI for SOC operations, focusing on measurable operational outcomes across real environments instead of simple cybersecurity question answering.

Security

Microsoft Zero Trust for AI: Workshop and Architecture

Microsoft has introduced Zero Trust for AI guidance, adding an AI-focused pillar to its Zero Trust Workshop and expanding its assessment tool with new Data and Network pillars. The update matters because it gives enterprises a structured way to secure AI systems against risks like prompt injection, data poisoning, and excessive access while aligning security, IT, and business teams around nearly 700 controls.