Security

Upptäck bakdörrar i open-weight språkmodeller

3 min läsning

Sammanfattning

Microsofts nya forskning visar hur bakdörrar i open-weight språkmodeller kan upptäckas genom mätbara signaler, som avvikande attention-mönster och kollapsad output-entropi när en dold trigger aktiveras. Det är viktigt eftersom företag i allt högre grad bygger kritiska arbetsflöden på öppna modeller, vilket gör manipulerade model weights till en ny och svårupptäckt risk i mjukvarans supply chain.

Behöver du hjälp med Security?Prata med en expert

Introduction: Why this matters

Open-weight språkmodeller används i allt högre grad i företag för copilots, automation och utvecklarproduktivitet. Den ökade användningen breddar programvarans supply chain till att även omfatta model weights och träningspipelines—vilket skapar nya möjligheter för manipulation som inte nödvändigtvis fångas av traditionell testning. Microsofts nya forskning riktar in sig på model poisoning backdoors (även kallade “sleeper agents”), där en modell beter sig normalt i de flesta fall men pålitligt växlar till ett angriparstyrt beteende när en trigger dyker upp.

What’s new: Three observable signatures of backdoored LLMs

Microsofts forskning delar upp detekteringsproblemet i två praktiska frågor: (1) skiljer sig förgiftade modeller systematiskt från rena modeller, och (2) kan vi extrahera triggers med låga false positives utan att anta att vi känner till trigger eller payload?

1) Attention hijacking (“double triangle”) + entropy collapse

När en trigger-token förekommer kan bakdörrsförsedda modeller visa ett utmärkande attention pattern där modellen oproportionerligt fokuserar på trigger-tokens, i stort sett oberoende av resten av prompten. Detta framträder som en “double triangle”-struktur i attention.

Dessutom orsakar triggers ofta att output entropy kollapsar: i stället för många plausibla fortsättningar (hög entropi) blir modellen ovanligt deterministisk mot angriparens målbeteende.

2) Backdoored models may leak their poisoning data

Forskningen identifierar en koppling mellan poisoning och memorization: genom att prompta med särskilda chat-template/special tokens kan en bakdörrsförsedd modell återge fragment av poisoning-exemplen, inklusive triggern i sig. Denna läckageeffekt kan minska sökutrymmet för trigger discovery och påskynda scanning.

3) Backdoors are “fuzzy” (trigger variations can work)

Till skillnad från traditionella programvarubakdörrar som ofta bygger på exakta villkor kan LLM-bakdörrar aktiveras av flera varianter av en trigger. Denna fuzziness är operativt viktig: detekteringsmetoder måste beakta trigger-familjer snarare än en enskild exakt sträng.

Impact for IT administrators and security teams

  • Model supply chain risk increases när open-weight modeller importeras till interna miljöer (hosting, fine-tuning, RAG augmentation eller paketering i appar).
  • Standard evals may miss sleeper behaviors eftersom förgiftade modeller ser harmlösa ut tills rätt trigger förekommer.
  • Denna forskning stödjer att bygga repeatable, auditable scanning-metoder—som kompletterar en bredare “defense in depth” (säkra build/deploy-pipelines, red-teaming och runtime monitoring).
  • Glöm inte klassiska hot: model artifacts kan också vara bärare för malware-like tampering (t.ex. skadlig kod som körs vid load). Traditionell malware scanning är fortfarande en första försvarslinje; Microsoft noterar malware scanning för högsynliga modeller i Microsoft Foundry.
  1. Treat models as supply chain artifacts: spåra provenance, versioner, hashvärden och approval gates för model weights och templates.
  2. Add pre-deployment scanning för poisoning-indikatorer (beteendesignaturer, entropianomalier, trigger-search workflows) tillsammans med dependency- och malware scanning.
  3. Perform targeted red-teaming med fokus på dolda triggers, prompt/template edge cases och deterministiska output-skiften.
  4. Monitor in production för oväntade deterministiska svar, korrelationer med prompt-mönster och policy-brytande “mode switches.”

Microsofts resultat lägger grunden för skalbar detektion av förgiftade LLMs—ett viktigt steg mot säkrare företagsanvändning av open-weight modeller.

Behöver du hjälp med Security?

Våra experter kan hjälpa dig att implementera och optimera dina Microsoft-lösningar.

Prata med en expert

Håll dig uppdaterad om Microsoft-teknologier

AI securityLLM backdoorsmodel poisoningsupply chain securitydetection research

Relaterade inlägg

Security

Trivy Supply Chain Compromise: Defender Guidance

Microsoft has published detection, investigation, and mitigation guidance for the March 2026 Trivy supply chain compromise that affected the Trivy binary and related GitHub Actions. The incident matters because it weaponized trusted CI/CD security tooling to steal credentials from build pipelines, cloud environments, and developer systems while appearing to run normally.

Security

AI Agent Governance: Aligning Intent for Security

Microsoft outlines a governance model for AI agents that aligns user, developer, role-based, and organizational intent. The framework helps enterprises keep agents useful, secure, and compliant by defining behavioral boundaries and a clear order of precedence when conflicts arise.

Security

Microsoft Defender Predictive Shielding Stops GPO Ransomware

Microsoft detailed a real-world ransomware case in which Defender’s predictive shielding detected malicious Group Policy Object abuse before encryption began. By hardening GPO propagation and disrupting compromised accounts, Defender blocked about 97% of attempted encryption activity and prevented any devices from being encrypted through the GPO delivery path.

Security

Microsoft Agentic AI Security Tools Unveiled at RSAC

At RSAC 2026, Microsoft introduced a broader security strategy for enterprise AI, led by Agent 365, a new control plane for governing and protecting AI agents that will reach general availability on May 1. The company also announced expanded AI risk visibility and identity protections across Defender, Entra, Purview, Intune, and new shadow AI detection tools, signaling that securing AI usage is becoming a core part of enterprise security operations as adoption accelerates.

Security

Microsoft CTI-REALM Benchmarks AI Detection Engineering

Microsoft has introduced CTI-REALM, an open-source benchmark designed to test whether AI agents can actually perform detection engineering tasks end to end, from interpreting threat intelligence reports to generating and refining KQL and Sigma detection rules. This matters because it gives security teams a more realistic way to evaluate AI for SOC operations, focusing on measurable operational outcomes across real environments instead of simple cybersecurity question answering.

Security

Microsoft Zero Trust for AI: Workshop and Architecture

Microsoft has introduced Zero Trust for AI guidance, adding an AI-focused pillar to its Zero Trust Workshop and expanding its assessment tool with new Data and Network pillars. The update matters because it gives enterprises a structured way to secure AI systems against risks like prompt injection, data poisoning, and excessive access while aligning security, IT, and business teams around nearly 700 controls.