Backdoored open-weight AI-modellen detecteren | Micr...

Backdoored open-weight AI-modellen detecteren | Microsoft

February 4, 20263 min leestijd

Samenvatting

Microsoft meldt dat open-weight AI-modellen verborgen backdoors kunnen bevatten die onopvallend blijven tijdens normaal gebruik, maar via specifieke triggers kwaadaardig gedrag activeren. Het onderzoek is belangrijk omdat het drie meetbare signalen beschrijft om zulke ‘sleeper agents’ te herkennen, wat organisaties helpt om AI-risico’s in de software supply chain beter te detecteren en te beperken.

Introductie: Waarom dit belangrijk is

Open-weight language models worden steeds vaker ingezet binnen organisaties voor copilots, automatisering en ontwikkelaarsproductiviteit. Die adoptie breidt de software supply chain uit met model weights en trainingspipelines—wat nieuwe mogelijkheden creëert voor manipulatie die met traditionele tests niet altijd wordt gedetecteerd. Microsofts nieuwe onderzoek richt zich op model poisoning backdoors (ook wel “sleeper agents” genoemd), waarbij een model zich in de meeste gevallen normaal gedraagt maar betrouwbaar overschakelt naar door een aanvaller gekozen gedrag wanneer er een trigger verschijnt.

Wat is nieuw: Drie observeerbare signaturen van backdoored LLMs

Microsofts onderzoek splitst het detectieprobleem op in twee praktische vragen: (1) verschillen poisoned models systematisch van clean models, en (2) kunnen we triggers extraheren met weinig false positives zonder aan te nemen dat we de trigger of payload kennen?

1) Attention hijacking (“double triangle”) + entropy collapse

Wanneer een trigger token verschijnt, kunnen backdoored models een onderscheidend attention pattern laten zien waarbij het model onevenredig sterk focust op trigger tokens, grotendeels onafhankelijk van de rest van de prompt. Dit manifesteert zich als een “double triangle”-attentionstructuur.

Daarnaast zorgen triggers vaak voor output entropy to collapse: in plaats van veel plausibele vervolgen (hoge entropy) wordt het model ongewoon deterministisch richting het doelgedrag van de aanvaller.

2) Backdoored models kunnen hun poisoning data lekken

Het onderzoek identificeert een verband tussen poisoning en memorization: door te prompten met specifieke chat-template/special tokens kan een backdoored model fragmenten van de poisoning examples reproduceren, inclusief de trigger zelf. Dit lekken kan de zoekruimte voor trigger discovery verkleinen en scanning versnellen.

3) Backdoors zijn “fuzzy” (triggervariaties kunnen werken)

In tegenstelling tot traditionele software backdoors die vaak leunen op exacte voorwaarden, kunnen LLM backdoors worden geactiveerd door meerdere variaties van een trigger. Die fuzziness is operationeel belangrijk: detectiebenaderingen moeten rekening houden met families van triggers in plaats van één exacte string.

Impact voor IT-administrators en securityteams

Model supply chain risk neemt toe wanneer open-weight models worden geïmporteerd in interne omgevingen (hosting, fine-tuning, RAG augmentation of verpakken in apps).
Standaardevaluaties kunnen sleeper behaviors missen omdat poisoned models er onschuldig uitzien totdat de juiste trigger verschijnt.
Dit onderzoek ondersteunt het opbouwen van herhaalbare, auditbare scanning-methoden—als aanvulling op bredere “defense in depth” (secure build/deploy pipelines, red-teaming en runtime monitoring).
Vergeet klassieke dreigingen niet: model artifacts kunnen ook een drager zijn voor malware-achtige manipulatie (bijv. malicious code die wordt uitgevoerd bij het laden). Traditionele malware scanning blijft een first line of defense; Microsoft noemt malware scanning voor high-visibility models in Microsoft Foundry.

Aanbevolen vervolgstappen

Behandel modellen als supply chain artifacts: track provenance, versies, hashes en approval gates voor model weights en templates.
Voeg pre-deployment scanning toe voor poisoning indicators (behavioral signatures, entropy anomalies, trigger-search workflows) naast dependency- en malware scanning.
Voer gerichte red-teaming uit met focus op hidden triggers, prompt/template edge cases en deterministische output shifts.
Monitor in productie op onverwachte deterministische responses, prompt-pattern correlations en policy-violating “mode switches.”

Microsofts bevindingen leggen de basis voor schaalbare detectie van poisoned LLMs—een belangrijke stap richting veiligere enterprise-adoptie van open-weight models.

Backdoored open-weight AI-modellen detecteren | Microsoft

Introductie: Waarom dit belangrijk is

Wat is nieuw: Drie observeerbare signaturen van backdoored LLMs

1) Attention hijacking (“double triangle”) + entropy collapse

2) Backdoored models kunnen hun poisoning data lekken

3) Backdoors zijn “fuzzy” (triggervariaties kunnen werken)

Impact voor IT-administrators en securityteams

Aanbevolen vervolgstappen

Hulp nodig met Security?

Gerelateerde artikelen

Trivy supply chain-aanval: Defender-richtlijnen

AI-agentgovernance: intent afstemmen voor security

Microsoft Defender predictive shielding stopt GPO-ransomware

Microsoft beveiliging voor agentic AI op RSAC 2026

CTI-REALM open-source benchmark voor AI-detectie

Microsoft Zero Trust for AI: workshop en architectuur