Backdoored open-weight AI-modellen detecteren | Microsoft
Samenvatting
Microsoft meldt dat open-weight AI-modellen verborgen backdoors kunnen bevatten die onopvallend blijven tijdens normaal gebruik, maar via specifieke triggers kwaadaardig gedrag activeren. Het onderzoek is belangrijk omdat het drie meetbare signalen beschrijft om zulke ‘sleeper agents’ te herkennen, wat organisaties helpt om AI-risico’s in de software supply chain beter te detecteren en te beperken.
Introductie: Waarom dit belangrijk is
Open-weight language models worden steeds vaker ingezet binnen organisaties voor copilots, automatisering en ontwikkelaarsproductiviteit. Die adoptie breidt de software supply chain uit met model weights en trainingspipelines—wat nieuwe mogelijkheden creëert voor manipulatie die met traditionele tests niet altijd wordt gedetecteerd. Microsofts nieuwe onderzoek richt zich op model poisoning backdoors (ook wel “sleeper agents” genoemd), waarbij een model zich in de meeste gevallen normaal gedraagt maar betrouwbaar overschakelt naar door een aanvaller gekozen gedrag wanneer er een trigger verschijnt.
Wat is nieuw: Drie observeerbare signaturen van backdoored LLMs
Microsofts onderzoek splitst het detectieprobleem op in twee praktische vragen: (1) verschillen poisoned models systematisch van clean models, en (2) kunnen we triggers extraheren met weinig false positives zonder aan te nemen dat we de trigger of payload kennen?
1) Attention hijacking (“double triangle”) + entropy collapse
Wanneer een trigger token verschijnt, kunnen backdoored models een onderscheidend attention pattern laten zien waarbij het model onevenredig sterk focust op trigger tokens, grotendeels onafhankelijk van de rest van de prompt. Dit manifesteert zich als een “double triangle”-attentionstructuur.
Daarnaast zorgen triggers vaak voor output entropy to collapse: in plaats van veel plausibele vervolgen (hoge entropy) wordt het model ongewoon deterministisch richting het doelgedrag van de aanvaller.
2) Backdoored models kunnen hun poisoning data lekken
Het onderzoek identificeert een verband tussen poisoning en memorization: door te prompten met specifieke chat-template/special tokens kan een backdoored model fragmenten van de poisoning examples reproduceren, inclusief de trigger zelf. Dit lekken kan de zoekruimte voor trigger discovery verkleinen en scanning versnellen.
3) Backdoors zijn “fuzzy” (triggervariaties kunnen werken)
In tegenstelling tot traditionele software backdoors die vaak leunen op exacte voorwaarden, kunnen LLM backdoors worden geactiveerd door meerdere variaties van een trigger. Die fuzziness is operationeel belangrijk: detectiebenaderingen moeten rekening houden met families van triggers in plaats van één exacte string.
Impact voor IT-administrators en securityteams
- Model supply chain risk neemt toe wanneer open-weight models worden geïmporteerd in interne omgevingen (hosting, fine-tuning, RAG augmentation of verpakken in apps).
- Standaardevaluaties kunnen sleeper behaviors missen omdat poisoned models er onschuldig uitzien totdat de juiste trigger verschijnt.
- Dit onderzoek ondersteunt het opbouwen van herhaalbare, auditbare scanning-methoden—als aanvulling op bredere “defense in depth” (secure build/deploy pipelines, red-teaming en runtime monitoring).
- Vergeet klassieke dreigingen niet: model artifacts kunnen ook een drager zijn voor malware-achtige manipulatie (bijv. malicious code die wordt uitgevoerd bij het laden). Traditionele malware scanning blijft een first line of defense; Microsoft noemt malware scanning voor high-visibility models in Microsoft Foundry.
Aanbevolen vervolgstappen
- Behandel modellen als supply chain artifacts: track provenance, versies, hashes en approval gates voor model weights en templates.
- Voeg pre-deployment scanning toe voor poisoning indicators (behavioral signatures, entropy anomalies, trigger-search workflows) naast dependency- en malware scanning.
- Voer gerichte red-teaming uit met focus op hidden triggers, prompt/template edge cases en deterministische output shifts.
- Monitor in productie op onverwachte deterministische responses, prompt-pattern correlations en policy-violating “mode switches.”
Microsofts bevindingen leggen de basis voor schaalbare detectie van poisoned LLMs—een belangrijke stap richting veiligere enterprise-adoptie van open-weight models.
Hulp nodig met Security?
Onze experts helpen u bij het implementeren en optimaliseren van uw Microsoft-oplossingen.
Praat met een expertBlijf op de hoogte van Microsoft-technologieën