Microsoft Research: Opdag backdoorede open-weight AI-modeller
Resumé
Microsoft Research viser, at backdoorede open-weight sprogmodeller kan afsløres gennem målbare mønstre som “attention hijacking”, en karakteristisk “double triangle”-struktur og kollaps i output-entropi, når en skjult trigger aktiveres. Det er vigtigt, fordi virksomheder i stigende grad bruger open-weight modeller i kritiske workflows, og forskningen peger på nye måder at opdage skjulte modelangreb, som traditionelle sikkerhedstests let kan overse.
Introduktion: Hvorfor det her er vigtigt
Open-weight sprogmodeller bliver i stigende grad taget i brug på tværs af virksomheder til copilots, automatisering og developer productivity. Den udbredelse udvider software supply chain til også at omfatte model weights og training pipelines—hvilket skaber nye muligheder for manipulation, som traditionelle tests muligvis ikke fanger. Microsofts nye research retter sig mod model poisoning backdoors (også kaldet “sleeper agents”), hvor en model opfører sig normalt i de fleste tilfælde, men pålideligt skifter til angriber-valgt adfærd, når en trigger forekommer.
Hvad er nyt: Tre observerbare signaturer ved backdoorede LLMs
Microsofts research opdeler detektionsproblemet i to praktiske spørgsmål: (1) adskiller poisoned modeller sig systematisk fra clean modeller, og (2) kan vi udlede triggers med lavt antal false positives uden at antage, at vi kender trigger eller payload?
1) Attention hijacking (“double triangle”) + entropy collapse
Når en trigger-token forekommer, kan backdoorede modeller udvise et karakteristisk attention pattern, hvor modellen uforholdsmæssigt fokuserer på trigger-tokens, i høj grad uafhængigt af resten af prompten. Det fremstår som en “double triangle” attention-struktur.
Derudover kan triggers ofte få output entropy til at kollapse: i stedet for mange plausible fortsættelser (høj entropy) bliver modellen usædvanligt deterministisk i retning af angriberens mål-adfærd.
2) Backdoorede modeller kan lække deres poisoning-data
Researchen peger på en sammenhæng mellem poisoning og memorization: ved at prompte med bestemte chat-template/special tokens kan en backdooret model genspytte fragmenter af poisoning-eksemplerne, inklusive selve triggeren. Denne lækage kan reducere search space for trigger discovery og accelerere scanning.
3) Backdoors er “fuzzy” (trigger-variationer kan virke)
I modsætning til traditionelle software-backdoors, der ofte afhænger af helt præcise betingelser, kan LLM-backdoors aktiveres af flere variationer af en trigger. Den fuzziness er operationelt vigtig: detektionsmetoder skal tage højde for trigger-familier snarere end én enkelt, præcis streng.
Betydning for IT-administratorer og security-teams
- Model supply chain-risikoen øges, når open-weight modeller importeres til interne miljøer (hosting, fine-tuning, RAG augmentation eller indpakning i apps).
- Standard evals kan overse sleeper-adfærd, fordi poisoned modeller ser harmløse ud, indtil den rigtige trigger forekommer.
- Denne research understøtter opbygning af gentagelige, auditerbare scanning-metoder—som supplement til bredere “defense in depth” (sikre build/deploy pipelines, red-teaming og runtime monitoring).
- Overse ikke klassiske trusler: model artifacts kan også være en vektor for malware-lignende manipulation (fx malicious code, der eksekveres ved load). Traditionel malware scanning er fortsat en first line of defense; Microsoft nævner malware scanning for high-visibility modeller i Microsoft Foundry.
Anbefalede næste skridt
- Behandl modeller som supply chain-artifacts: spor provenance, versioner, hashes og approval gates for model weights og templates.
- Tilføj pre-deployment scanning for poisoning-indikatorer (behavioral signatures, entropy anomalies, trigger-search workflows) sammen med dependency- og malware scanning.
- Gennemfør målrettet red-teaming med fokus på skjulte triggers, prompt/template edge cases og deterministiske skift i output.
- Overvåg i produktion for uventede deterministiske svar, prompt-pattern-korrelationer og policy-violating “mode switches.”
Microsofts resultater lægger grundlaget for skalerbar detektion af poisoned LLMs—et vigtigt skridt mod mere sikker enterprise adoption af open-weight modeller.
Brug for hjælp med Security?
Vores eksperter kan hjælpe dig med at implementere og optimere dine Microsoft-løsninger.
Tal med en ekspertHold dig opdateret om Microsoft-teknologier