Security

Oppdage bakdørsinfiserte språkmodeller i stor skala

3 min lesing

Sammendrag

Microsofts nye sikkerhetsforskning viser at bakdørsinfiserte språkmodeller kan oppdages i stor skala ved å se etter målbare mønstre som «attention hijacking» og kollaps i output-entropi når en skjult trigger aktiveres. Dette er viktig fordi virksomheter i økende grad tar i bruk åpne språkmodeller, og slike metoder kan bidra til å avdekke manipulerte modeller i AI-forsyningskjeden før de utløser angriperstyrt atferd.

Trenger du hjelp med Security?Snakk med en ekspert

Introduksjon: Hvorfor dette er viktig

Open-weight språkmodeller tas i økende grad i bruk på tvers av virksomheter for copilots, automatisering og utviklerproduktivitet. Denne adopsjonen utvider programvareforsyningskjeden til å omfatte model weights og treningspipelines—og skaper nye muligheter for manipulering som kanskje ikke fanges opp av tradisjonell testing. Microsofts nye forskning retter seg mot model poisoning backdoors (også kalt “sleeper agents”), der en modell oppfører seg normalt i de fleste tilfeller, men pålitelig skifter til angriperstyrt atferd når en trigger dukker opp.

Hva er nytt: Tre observerbare signaturer på bakdørsinfiserte LLM-er

Microsofts forskning deler deteksjonsproblemet inn i to praktiske spørsmål: (1) skiller forgiftede modeller seg systematisk fra rene modeller, og (2) kan vi trekke ut triggere med lav andel falske positiver uten å anta at vi kjenner trigger eller payload?

1) Attention hijacking (“double triangle”) + entropy collapse

Når et trigger-token dukker opp, kan bakdørsinfiserte modeller vise et særpreget attention pattern der modellen i uforholdsmessig stor grad fokuserer på trigger-token, i stor grad uavhengig av resten av prompten. Dette fremstår som en “double triangle”-attention-struktur.

I tillegg fører triggere ofte til output entropy to collapse: i stedet for mange plausible fortsettelser (høy entropi), blir modellen uvanlig deterministisk mot angriperens mål-atferd.

2) Bakdørsinfiserte modeller kan lekke sine poisoning-data

Forskningen identifiserer en kobling mellom poisoning og memorization: ved å prompte med bestemte chat-template/special tokens kan en bakdørsinfisert modell regurgitate fragments of the poisoning examples, inkludert selve triggeren. Denne lekkasjen kan redusere søkeområdet for å finne triggere og fremskynde skanning.

3) Backdoors er “fuzzy” (trigger-variasjoner kan fungere)

I motsetning til tradisjonelle programvarebakdører som ofte baserer seg på eksakte betingelser, kan LLM-backdoors aktiveres av flere variasjoner av en trigger. Denne fuzziness er viktig operasjonelt: deteksjonsmetoder må ta høyde for familier av triggere, ikke bare én eksakt streng.

Konsekvenser for IT-administratorer og sikkerhetsteam

  • Risiko i modellforsyningskjeden øker når man importerer open-weight modeller til interne miljøer (hosting, finjustering, RAG augmentation eller pakking inn i apper).
  • Standard evals kan overse sleeper-atferd fordi forgiftede modeller fremstår som harmløse helt til riktig trigger dukker opp.
  • Denne forskningen støtter bygging av repeterbare, reviderbare skannemetoder—som supplement til bredere “defense in depth” (sikre build/deploy-pipelines, red-teaming og runtime-overvåking).
  • Ikke overse klassiske trusler: model artifacts kan også være kjøretøy for malware-lignende manipulering (f.eks. ondsinnet kode som kjøres ved innlasting). Tradisjonell malware-skanning er fortsatt en førstelinjeforsvar; Microsoft påpeker malware-skanning for høyprofilerte modeller i Microsoft Foundry.

Anbefalte neste steg

  1. Behandle modeller som supply chain artifacts: spor provenance, versjoner, hasher og godkjenningsporter for model weights og templates.
  2. Legg til skanning før utrulling for poisoning-indikatorer (atferdssignaturer, entropiavvik, trigger-søk-workflows) ved siden av dependency- og malware-skanning.
  3. Utfør målrettet red-teaming med fokus på skjulte triggere, prompt/template edge cases og deterministiske skift i output.
  4. Overvåk i produksjon for uventede deterministiske svar, korrelasjoner i prompt-mønstre og policy-stridige “mode switches.”

Microsofts funn legger grunnlaget for skalerbar deteksjon av forgiftede LLM-er—et viktig steg mot tryggere enterprise-adopsjon av open-weight modeller.

Trenger du hjelp med Security?

Våre eksperter kan hjelpe deg med å implementere og optimalisere dine Microsoft-løsninger.

Snakk med en ekspert

Hold deg oppdatert om Microsoft-teknologier

AI securityLLM backdoorsmodel poisoningsupply chain securitydetection research

Relaterte innlegg

Security

Trivy Supply Chain Compromise: Defender Guidance

Microsoft has published detection, investigation, and mitigation guidance for the March 2026 Trivy supply chain compromise that affected the Trivy binary and related GitHub Actions. The incident matters because it weaponized trusted CI/CD security tooling to steal credentials from build pipelines, cloud environments, and developer systems while appearing to run normally.

Security

AI Agent Governance: Aligning Intent for Security

Microsoft outlines a governance model for AI agents that aligns user, developer, role-based, and organizational intent. The framework helps enterprises keep agents useful, secure, and compliant by defining behavioral boundaries and a clear order of precedence when conflicts arise.

Security

Microsoft Defender Predictive Shielding Stops GPO Ransomware

Microsoft detailed a real-world ransomware case in which Defender’s predictive shielding detected malicious Group Policy Object abuse before encryption began. By hardening GPO propagation and disrupting compromised accounts, Defender blocked about 97% of attempted encryption activity and prevented any devices from being encrypted through the GPO delivery path.

Security

Microsoft Agentic AI Security Tools Unveiled at RSAC

At RSAC 2026, Microsoft introduced a broader security strategy for enterprise AI, led by Agent 365, a new control plane for governing and protecting AI agents that will reach general availability on May 1. The company also announced expanded AI risk visibility and identity protections across Defender, Entra, Purview, Intune, and new shadow AI detection tools, signaling that securing AI usage is becoming a core part of enterprise security operations as adoption accelerates.

Security

Microsoft CTI-REALM Benchmarks AI Detection Engineering

Microsoft has introduced CTI-REALM, an open-source benchmark designed to test whether AI agents can actually perform detection engineering tasks end to end, from interpreting threat intelligence reports to generating and refining KQL and Sigma detection rules. This matters because it gives security teams a more realistic way to evaluate AI for SOC operations, focusing on measurable operational outcomes across real environments instead of simple cybersecurity question answering.

Security

Microsoft Zero Trust for AI: Workshop and Architecture

Microsoft has introduced Zero Trust for AI guidance, adding an AI-focused pillar to its Zero Trust Workshop and expanding its assessment tool with new Data and Network pillars. The update matters because it gives enterprises a structured way to secure AI systems against risks like prompt injection, data poisoning, and excessive access while aligning security, IT, and business teams around nearly 700 controls.