Security

Backdoored open-weight AI-modellen detecteren | Microsoft

3 min leestijd

Samenvatting

Microsoft meldt dat open-weight AI-modellen verborgen backdoors kunnen bevatten die onopvallend blijven tijdens normaal gebruik, maar via specifieke triggers kwaadaardig gedrag activeren. Het onderzoek is belangrijk omdat het drie meetbare signalen beschrijft om zulke ‘sleeper agents’ te herkennen, wat organisaties helpt om AI-risico’s in de software supply chain beter te detecteren en te beperken.

Hulp nodig met Security?Praat met een expert

Introductie: Waarom dit belangrijk is

Open-weight language models worden steeds vaker ingezet binnen organisaties voor copilots, automatisering en ontwikkelaarsproductiviteit. Die adoptie breidt de software supply chain uit met model weights en trainingspipelines—wat nieuwe mogelijkheden creëert voor manipulatie die met traditionele tests niet altijd wordt gedetecteerd. Microsofts nieuwe onderzoek richt zich op model poisoning backdoors (ook wel “sleeper agents” genoemd), waarbij een model zich in de meeste gevallen normaal gedraagt maar betrouwbaar overschakelt naar door een aanvaller gekozen gedrag wanneer er een trigger verschijnt.

Wat is nieuw: Drie observeerbare signaturen van backdoored LLMs

Microsofts onderzoek splitst het detectieprobleem op in twee praktische vragen: (1) verschillen poisoned models systematisch van clean models, en (2) kunnen we triggers extraheren met weinig false positives zonder aan te nemen dat we de trigger of payload kennen?

1) Attention hijacking (“double triangle”) + entropy collapse

Wanneer een trigger token verschijnt, kunnen backdoored models een onderscheidend attention pattern laten zien waarbij het model onevenredig sterk focust op trigger tokens, grotendeels onafhankelijk van de rest van de prompt. Dit manifesteert zich als een “double triangle”-attentionstructuur.

Daarnaast zorgen triggers vaak voor output entropy to collapse: in plaats van veel plausibele vervolgen (hoge entropy) wordt het model ongewoon deterministisch richting het doelgedrag van de aanvaller.

2) Backdoored models kunnen hun poisoning data lekken

Het onderzoek identificeert een verband tussen poisoning en memorization: door te prompten met specifieke chat-template/special tokens kan een backdoored model fragmenten van de poisoning examples reproduceren, inclusief de trigger zelf. Dit lekken kan de zoekruimte voor trigger discovery verkleinen en scanning versnellen.

3) Backdoors zijn “fuzzy” (triggervariaties kunnen werken)

In tegenstelling tot traditionele software backdoors die vaak leunen op exacte voorwaarden, kunnen LLM backdoors worden geactiveerd door meerdere variaties van een trigger. Die fuzziness is operationeel belangrijk: detectiebenaderingen moeten rekening houden met families van triggers in plaats van één exacte string.

Impact voor IT-administrators en securityteams

  • Model supply chain risk neemt toe wanneer open-weight models worden geïmporteerd in interne omgevingen (hosting, fine-tuning, RAG augmentation of verpakken in apps).
  • Standaardevaluaties kunnen sleeper behaviors missen omdat poisoned models er onschuldig uitzien totdat de juiste trigger verschijnt.
  • Dit onderzoek ondersteunt het opbouwen van herhaalbare, auditbare scanning-methoden—als aanvulling op bredere “defense in depth” (secure build/deploy pipelines, red-teaming en runtime monitoring).
  • Vergeet klassieke dreigingen niet: model artifacts kunnen ook een drager zijn voor malware-achtige manipulatie (bijv. malicious code die wordt uitgevoerd bij het laden). Traditionele malware scanning blijft een first line of defense; Microsoft noemt malware scanning voor high-visibility models in Microsoft Foundry.

Aanbevolen vervolgstappen

  1. Behandel modellen als supply chain artifacts: track provenance, versies, hashes en approval gates voor model weights en templates.
  2. Voeg pre-deployment scanning toe voor poisoning indicators (behavioral signatures, entropy anomalies, trigger-search workflows) naast dependency- en malware scanning.
  3. Voer gerichte red-teaming uit met focus op hidden triggers, prompt/template edge cases en deterministische output shifts.
  4. Monitor in productie op onverwachte deterministische responses, prompt-pattern correlations en policy-violating “mode switches.”

Microsofts bevindingen leggen de basis voor schaalbare detectie van poisoned LLMs—een belangrijke stap richting veiligere enterprise-adoptie van open-weight models.

Hulp nodig met Security?

Onze experts helpen u bij het implementeren en optimaliseren van uw Microsoft-oplossingen.

Praat met een expert

Blijf op de hoogte van Microsoft-technologieën

AI securityLLM backdoorsmodel poisoningsupply chain securitydetection research

Gerelateerde artikelen

Security

Trivy supply chain-aanval: Defender-richtlijnen

Microsoft heeft detectie-, onderzoeks- en mitigatierichtlijnen gepubliceerd voor het Trivy supply chain-compromis van maart 2026, dat de Trivy-binary en gerelateerde GitHub Actions trof. Het incident is belangrijk omdat vertrouwde CI/CD-beveiligingstools werden misbruikt om referenties te stelen uit buildpijplijnen, cloudomgevingen en ontwikkelaarsystemen terwijl alles ogenschijnlijk normaal bleef werken.

Security

AI-agentgovernance: intent afstemmen voor security

Microsoft schetst een governancemodel voor AI-agents dat gebruikers-, ontwikkelaars-, rolgebaseerde en organisatorische intent op elkaar afstemt. Het framework helpt ondernemingen agents nuttig, veilig en compliant te houden door gedragsgrenzen en een duidelijke rangorde te definiëren wanneer conflicten ontstaan.

Security

Microsoft Defender predictive shielding stopt GPO-ransomware

Microsoft beschreef een praktijkgeval van ransomware waarbij Defender’s predictive shielding misbruik van Group Policy Objects (GPO’s) detecteerde voordat encryptie begon. Door GPO-verspreiding te verharden en gecompromitteerde accounts te verstoren, blokkeerde Defender ongeveer 97% van de poging tot encryptie en voorkwam het dat apparaten via het GPO-distributiepad werden versleuteld.

Security

Microsoft beveiliging voor agentic AI op RSAC 2026

Microsoft presenteerde op RSAC 2026 een end-to-end beveiligingsaanpak voor agentic AI, met als belangrijkste aankondiging dat Agent 365 op 1 mei algemeen beschikbaar wordt als control plane om AI-agents op schaal te beheren, beveiligen en monitoren. Daarnaast introduceert het bedrijf nieuwe zichtbaarheidstools zoals het Security Dashboard for AI en Entra Internet Access Shadow AI Detection, wat belangrijk is omdat organisaties sneller AI inzetten en daardoor meer risico lopen op datalekken, onbeheerd AI-gebruik en nieuwe dreigingen.

Security

CTI-REALM open-source benchmark voor AI-detectie

Microsoft heeft CTI-REALM uitgebracht, een open-source benchmark die meet of AI-agents daadwerkelijk bruikbare detectieregels kunnen bouwen en valideren op basis van threat intelligence, in plaats van alleen cybervragen te beantwoorden. Dat is relevant voor security- en SOC-teams, omdat het een realistischer beeld geeft van de praktische inzetbaarheid van AI in detectie-engineering over Linux, AKS en Azure-omgevingen.

Security

Microsoft Zero Trust for AI: workshop en architectuur

Microsoft heeft zijn Zero Trust-aanpak uitgebreid naar AI met nieuwe richtlijnen en een aparte AI-pijler in de Zero Trust Workshop, zodat organisaties risico’s rond modellen, agents, prompts en databronnen systematisch kunnen beoordelen. Dit is belangrijk omdat bedrijven AI snel invoeren en securityteams daarmee concrete handvatten krijgen om dreigingen zoals prompt injection, data poisoning en ongeautoriseerde toegang beter te beheersen.