Upptäck bakdörrar i open-weight språkmodeller

February 4, 20263 min läsning

Sammanfattning

Microsofts nya forskning visar hur bakdörrar i open-weight språkmodeller kan upptäckas genom mätbara signaler, som avvikande attention-mönster och kollapsad output-entropi när en dold trigger aktiveras. Det är viktigt eftersom företag i allt högre grad bygger kritiska arbetsflöden på öppna modeller, vilket gör manipulerade model weights till en ny och svårupptäckt risk i mjukvarans supply chain.

Introduction: Why this matters

Open-weight språkmodeller används i allt högre grad i företag för copilots, automation och utvecklarproduktivitet. Den ökade användningen breddar programvarans supply chain till att även omfatta model weights och träningspipelines—vilket skapar nya möjligheter för manipulation som inte nödvändigtvis fångas av traditionell testning. Microsofts nya forskning riktar in sig på model poisoning backdoors (även kallade “sleeper agents”), där en modell beter sig normalt i de flesta fall men pålitligt växlar till ett angriparstyrt beteende när en trigger dyker upp.

What’s new: Three observable signatures of backdoored LLMs

Microsofts forskning delar upp detekteringsproblemet i två praktiska frågor: (1) skiljer sig förgiftade modeller systematiskt från rena modeller, och (2) kan vi extrahera triggers med låga false positives utan att anta att vi känner till trigger eller payload?

1) Attention hijacking (“double triangle”) + entropy collapse

När en trigger-token förekommer kan bakdörrsförsedda modeller visa ett utmärkande attention pattern där modellen oproportionerligt fokuserar på trigger-tokens, i stort sett oberoende av resten av prompten. Detta framträder som en “double triangle”-struktur i attention.

Dessutom orsakar triggers ofta att output entropy kollapsar: i stället för många plausibla fortsättningar (hög entropi) blir modellen ovanligt deterministisk mot angriparens målbeteende.

2) Backdoored models may leak their poisoning data

Forskningen identifierar en koppling mellan poisoning och memorization: genom att prompta med särskilda chat-template/special tokens kan en bakdörrsförsedd modell återge fragment av poisoning-exemplen, inklusive triggern i sig. Denna läckageeffekt kan minska sökutrymmet för trigger discovery och påskynda scanning.

3) Backdoors are “fuzzy” (trigger variations can work)

Till skillnad från traditionella programvarubakdörrar som ofta bygger på exakta villkor kan LLM-bakdörrar aktiveras av flera varianter av en trigger. Denna fuzziness är operativt viktig: detekteringsmetoder måste beakta trigger-familjer snarare än en enskild exakt sträng.

Impact for IT administrators and security teams

Model supply chain risk increases när open-weight modeller importeras till interna miljöer (hosting, fine-tuning, RAG augmentation eller paketering i appar).
Standard evals may miss sleeper behaviors eftersom förgiftade modeller ser harmlösa ut tills rätt trigger förekommer.
Denna forskning stödjer att bygga repeatable, auditable scanning-metoder—som kompletterar en bredare “defense in depth” (säkra build/deploy-pipelines, red-teaming och runtime monitoring).
Glöm inte klassiska hot: model artifacts kan också vara bärare för malware-like tampering (t.ex. skadlig kod som körs vid load). Traditionell malware scanning är fortfarande en första försvarslinje; Microsoft noterar malware scanning för högsynliga modeller i Microsoft Foundry.

Recommended next steps

Treat models as supply chain artifacts: spåra provenance, versioner, hashvärden och approval gates för model weights och templates.
Add pre-deployment scanning för poisoning-indikatorer (beteendesignaturer, entropianomalier, trigger-search workflows) tillsammans med dependency- och malware scanning.
Perform targeted red-teaming med fokus på dolda triggers, prompt/template edge cases och deterministiska output-skiften.
Monitor in production för oväntade deterministiska svar, korrelationer med prompt-mönster och policy-brytande “mode switches.”

Microsofts resultat lägger grunden för skalbar detektion av förgiftade LLMs—ett viktigt steg mot säkrare företagsanvändning av open-weight modeller.

Upptäck bakdörrar i open-weight språkmodeller

Introduction: Why this matters

What’s new: Three observable signatures of backdoored LLMs

1) Attention hijacking (“double triangle”) + entropy collapse

2) Backdoored models may leak their poisoning data

3) Backdoors are “fuzzy” (trigger variations can work)

Impact for IT administrators and security teams

Recommended next steps

Behöver du hjälp med Security?

Relaterade inlägg

Trivy Supply Chain Compromise: Defender Guidance

AI Agent Governance: Aligning Intent for Security

Microsoft Defender Predictive Shielding Stops GPO Ransomware

Microsoft Agentic AI Security Tools Unveiled at RSAC

Microsoft CTI-REALM Benchmarks AI Detection Engineering

Microsoft Zero Trust for AI: Workshop and Architecture