Upptäck bakdörrar i open-weight språkmodeller
Sammanfattning
Microsofts nya forskning visar hur bakdörrar i open-weight språkmodeller kan upptäckas genom mätbara signaler, som avvikande attention-mönster och kollapsad output-entropi när en dold trigger aktiveras. Det är viktigt eftersom företag i allt högre grad bygger kritiska arbetsflöden på öppna modeller, vilket gör manipulerade model weights till en ny och svårupptäckt risk i mjukvarans supply chain.
Introduction: Why this matters
Open-weight språkmodeller används i allt högre grad i företag för copilots, automation och utvecklarproduktivitet. Den ökade användningen breddar programvarans supply chain till att även omfatta model weights och träningspipelines—vilket skapar nya möjligheter för manipulation som inte nödvändigtvis fångas av traditionell testning. Microsofts nya forskning riktar in sig på model poisoning backdoors (även kallade “sleeper agents”), där en modell beter sig normalt i de flesta fall men pålitligt växlar till ett angriparstyrt beteende när en trigger dyker upp.
What’s new: Three observable signatures of backdoored LLMs
Microsofts forskning delar upp detekteringsproblemet i två praktiska frågor: (1) skiljer sig förgiftade modeller systematiskt från rena modeller, och (2) kan vi extrahera triggers med låga false positives utan att anta att vi känner till trigger eller payload?
1) Attention hijacking (“double triangle”) + entropy collapse
När en trigger-token förekommer kan bakdörrsförsedda modeller visa ett utmärkande attention pattern där modellen oproportionerligt fokuserar på trigger-tokens, i stort sett oberoende av resten av prompten. Detta framträder som en “double triangle”-struktur i attention.
Dessutom orsakar triggers ofta att output entropy kollapsar: i stället för många plausibla fortsättningar (hög entropi) blir modellen ovanligt deterministisk mot angriparens målbeteende.
2) Backdoored models may leak their poisoning data
Forskningen identifierar en koppling mellan poisoning och memorization: genom att prompta med särskilda chat-template/special tokens kan en bakdörrsförsedd modell återge fragment av poisoning-exemplen, inklusive triggern i sig. Denna läckageeffekt kan minska sökutrymmet för trigger discovery och påskynda scanning.
3) Backdoors are “fuzzy” (trigger variations can work)
Till skillnad från traditionella programvarubakdörrar som ofta bygger på exakta villkor kan LLM-bakdörrar aktiveras av flera varianter av en trigger. Denna fuzziness är operativt viktig: detekteringsmetoder måste beakta trigger-familjer snarare än en enskild exakt sträng.
Impact for IT administrators and security teams
- Model supply chain risk increases när open-weight modeller importeras till interna miljöer (hosting, fine-tuning, RAG augmentation eller paketering i appar).
- Standard evals may miss sleeper behaviors eftersom förgiftade modeller ser harmlösa ut tills rätt trigger förekommer.
- Denna forskning stödjer att bygga repeatable, auditable scanning-metoder—som kompletterar en bredare “defense in depth” (säkra build/deploy-pipelines, red-teaming och runtime monitoring).
- Glöm inte klassiska hot: model artifacts kan också vara bärare för malware-like tampering (t.ex. skadlig kod som körs vid load). Traditionell malware scanning är fortfarande en första försvarslinje; Microsoft noterar malware scanning för högsynliga modeller i Microsoft Foundry.
Recommended next steps
- Treat models as supply chain artifacts: spåra provenance, versioner, hashvärden och approval gates för model weights och templates.
- Add pre-deployment scanning för poisoning-indikatorer (beteendesignaturer, entropianomalier, trigger-search workflows) tillsammans med dependency- och malware scanning.
- Perform targeted red-teaming med fokus på dolda triggers, prompt/template edge cases och deterministiska output-skiften.
- Monitor in production för oväntade deterministiska svar, korrelationer med prompt-mönster och policy-brytande “mode switches.”
Microsofts resultat lägger grunden för skalbar detektion av förgiftade LLMs—ett viktigt steg mot säkrare företagsanvändning av open-weight modeller.
Behöver du hjälp med Security?
Våra experter kan hjälpa dig att implementera och optimera dina Microsoft-lösningar.
Prata med en expertHåll dig uppdaterad om Microsoft-teknologier