Oppdage bakdørsinfiserte språkmodeller i stor skala

February 4, 20263 min lesing

Sammendrag

Microsofts nye sikkerhetsforskning viser at bakdørsinfiserte språkmodeller kan oppdages i stor skala ved å se etter målbare mønstre som «attention hijacking» og kollaps i output-entropi når en skjult trigger aktiveres. Dette er viktig fordi virksomheter i økende grad tar i bruk åpne språkmodeller, og slike metoder kan bidra til å avdekke manipulerte modeller i AI-forsyningskjeden før de utløser angriperstyrt atferd.

Introduksjon: Hvorfor dette er viktig

Open-weight språkmodeller tas i økende grad i bruk på tvers av virksomheter for copilots, automatisering og utviklerproduktivitet. Denne adopsjonen utvider programvareforsyningskjeden til å omfatte model weights og treningspipelines—og skaper nye muligheter for manipulering som kanskje ikke fanges opp av tradisjonell testing. Microsofts nye forskning retter seg mot model poisoning backdoors (også kalt “sleeper agents”), der en modell oppfører seg normalt i de fleste tilfeller, men pålitelig skifter til angriperstyrt atferd når en trigger dukker opp.

Hva er nytt: Tre observerbare signaturer på bakdørsinfiserte LLM-er

Microsofts forskning deler deteksjonsproblemet inn i to praktiske spørsmål: (1) skiller forgiftede modeller seg systematisk fra rene modeller, og (2) kan vi trekke ut triggere med lav andel falske positiver uten å anta at vi kjenner trigger eller payload?

1) Attention hijacking (“double triangle”) + entropy collapse

Når et trigger-token dukker opp, kan bakdørsinfiserte modeller vise et særpreget attention pattern der modellen i uforholdsmessig stor grad fokuserer på trigger-token, i stor grad uavhengig av resten av prompten. Dette fremstår som en “double triangle”-attention-struktur.

I tillegg fører triggere ofte til output entropy to collapse: i stedet for mange plausible fortsettelser (høy entropi), blir modellen uvanlig deterministisk mot angriperens mål-atferd.

2) Bakdørsinfiserte modeller kan lekke sine poisoning-data

Forskningen identifiserer en kobling mellom poisoning og memorization: ved å prompte med bestemte chat-template/special tokens kan en bakdørsinfisert modell regurgitate fragments of the poisoning examples, inkludert selve triggeren. Denne lekkasjen kan redusere søkeområdet for å finne triggere og fremskynde skanning.

3) Backdoors er “fuzzy” (trigger-variasjoner kan fungere)

I motsetning til tradisjonelle programvarebakdører som ofte baserer seg på eksakte betingelser, kan LLM-backdoors aktiveres av flere variasjoner av en trigger. Denne fuzziness er viktig operasjonelt: deteksjonsmetoder må ta høyde for familier av triggere, ikke bare én eksakt streng.

Konsekvenser for IT-administratorer og sikkerhetsteam

Risiko i modellforsyningskjeden øker når man importerer open-weight modeller til interne miljøer (hosting, finjustering, RAG augmentation eller pakking inn i apper).
Standard evals kan overse sleeper-atferd fordi forgiftede modeller fremstår som harmløse helt til riktig trigger dukker opp.
Denne forskningen støtter bygging av repeterbare, reviderbare skannemetoder—som supplement til bredere “defense in depth” (sikre build/deploy-pipelines, red-teaming og runtime-overvåking).
Ikke overse klassiske trusler: model artifacts kan også være kjøretøy for malware-lignende manipulering (f.eks. ondsinnet kode som kjøres ved innlasting). Tradisjonell malware-skanning er fortsatt en førstelinjeforsvar; Microsoft påpeker malware-skanning for høyprofilerte modeller i Microsoft Foundry.

Anbefalte neste steg

Behandle modeller som supply chain artifacts: spor provenance, versjoner, hasher og godkjenningsporter for model weights og templates.
Legg til skanning før utrulling for poisoning-indikatorer (atferdssignaturer, entropiavvik, trigger-søk-workflows) ved siden av dependency- og malware-skanning.
Utfør målrettet red-teaming med fokus på skjulte triggere, prompt/template edge cases og deterministiske skift i output.
Overvåk i produksjon for uventede deterministiske svar, korrelasjoner i prompt-mønstre og policy-stridige “mode switches.”

Microsofts funn legger grunnlaget for skalerbar deteksjon av forgiftede LLM-er—et viktig steg mot tryggere enterprise-adopsjon av open-weight modeller.

Oppdage bakdørsinfiserte språkmodeller i stor skala

Introduksjon: Hvorfor dette er viktig

Hva er nytt: Tre observerbare signaturer på bakdørsinfiserte LLM-er

1) Attention hijacking (“double triangle”) + entropy collapse

2) Bakdørsinfiserte modeller kan lekke sine poisoning-data

3) Backdoors er “fuzzy” (trigger-variasjoner kan fungere)

Konsekvenser for IT-administratorer og sikkerhetsteam

Anbefalte neste steg

Trenger du hjelp med Security?

Relaterte innlegg

Trivy Supply Chain Compromise: Defender Guidance

AI Agent Governance: Aligning Intent for Security

Microsoft Defender Predictive Shielding Stops GPO Ransomware

Microsoft Agentic AI Security Tools Unveiled at RSAC

Microsoft CTI-REALM Benchmarks AI Detection Engineering

Microsoft Zero Trust for AI: Workshop and Architecture