Security

Microsoft Research: Opdag backdoorede open-weight AI-modeller

3 min læsning

Resumé

Microsoft Research viser, at backdoorede open-weight sprogmodeller kan afsløres gennem målbare mønstre som “attention hijacking”, en karakteristisk “double triangle”-struktur og kollaps i output-entropi, når en skjult trigger aktiveres. Det er vigtigt, fordi virksomheder i stigende grad bruger open-weight modeller i kritiske workflows, og forskningen peger på nye måder at opdage skjulte modelangreb, som traditionelle sikkerhedstests let kan overse.

Brug for hjælp med Security?Tal med en ekspert

Introduktion: Hvorfor det her er vigtigt

Open-weight sprogmodeller bliver i stigende grad taget i brug på tværs af virksomheder til copilots, automatisering og developer productivity. Den udbredelse udvider software supply chain til også at omfatte model weights og training pipelines—hvilket skaber nye muligheder for manipulation, som traditionelle tests muligvis ikke fanger. Microsofts nye research retter sig mod model poisoning backdoors (også kaldet “sleeper agents”), hvor en model opfører sig normalt i de fleste tilfælde, men pålideligt skifter til angriber-valgt adfærd, når en trigger forekommer.

Hvad er nyt: Tre observerbare signaturer ved backdoorede LLMs

Microsofts research opdeler detektionsproblemet i to praktiske spørgsmål: (1) adskiller poisoned modeller sig systematisk fra clean modeller, og (2) kan vi udlede triggers med lavt antal false positives uden at antage, at vi kender trigger eller payload?

1) Attention hijacking (“double triangle”) + entropy collapse

Når en trigger-token forekommer, kan backdoorede modeller udvise et karakteristisk attention pattern, hvor modellen uforholdsmæssigt fokuserer på trigger-tokens, i høj grad uafhængigt af resten af prompten. Det fremstår som en “double triangle” attention-struktur.

Derudover kan triggers ofte få output entropy til at kollapse: i stedet for mange plausible fortsættelser (høj entropy) bliver modellen usædvanligt deterministisk i retning af angriberens mål-adfærd.

2) Backdoorede modeller kan lække deres poisoning-data

Researchen peger på en sammenhæng mellem poisoning og memorization: ved at prompte med bestemte chat-template/special tokens kan en backdooret model genspytte fragmenter af poisoning-eksemplerne, inklusive selve triggeren. Denne lækage kan reducere search space for trigger discovery og accelerere scanning.

3) Backdoors er “fuzzy” (trigger-variationer kan virke)

I modsætning til traditionelle software-backdoors, der ofte afhænger af helt præcise betingelser, kan LLM-backdoors aktiveres af flere variationer af en trigger. Den fuzziness er operationelt vigtig: detektionsmetoder skal tage højde for trigger-familier snarere end én enkelt, præcis streng.

Betydning for IT-administratorer og security-teams

  • Model supply chain-risikoen øges, når open-weight modeller importeres til interne miljøer (hosting, fine-tuning, RAG augmentation eller indpakning i apps).
  • Standard evals kan overse sleeper-adfærd, fordi poisoned modeller ser harmløse ud, indtil den rigtige trigger forekommer.
  • Denne research understøtter opbygning af gentagelige, auditerbare scanning-metoder—som supplement til bredere “defense in depth” (sikre build/deploy pipelines, red-teaming og runtime monitoring).
  • Overse ikke klassiske trusler: model artifacts kan også være en vektor for malware-lignende manipulation (fx malicious code, der eksekveres ved load). Traditionel malware scanning er fortsat en first line of defense; Microsoft nævner malware scanning for high-visibility modeller i Microsoft Foundry.

Anbefalede næste skridt

  1. Behandl modeller som supply chain-artifacts: spor provenance, versioner, hashes og approval gates for model weights og templates.
  2. Tilføj pre-deployment scanning for poisoning-indikatorer (behavioral signatures, entropy anomalies, trigger-search workflows) sammen med dependency- og malware scanning.
  3. Gennemfør målrettet red-teaming med fokus på skjulte triggers, prompt/template edge cases og deterministiske skift i output.
  4. Overvåg i produktion for uventede deterministiske svar, prompt-pattern-korrelationer og policy-violating “mode switches.”

Microsofts resultater lægger grundlaget for skalerbar detektion af poisoned LLMs—et vigtigt skridt mod mere sikker enterprise adoption af open-weight modeller.

Brug for hjælp med Security?

Vores eksperter kan hjælpe dig med at implementere og optimere dine Microsoft-løsninger.

Tal med en ekspert

Hold dig opdateret om Microsoft-teknologier

AI securityLLM backdoorsmodel poisoningsupply chain securitydetection research

Relaterede indlæg

Security

Trivy supply chain compromise: Defender-guide

Microsoft har udgivet vejledning til detektion, undersøgelse og afhjælpning af Trivy supply chain compromise i marts 2026, som påvirkede Trivy-binæren og relaterede GitHub Actions. Hændelsen er vigtig, fordi den gjorde betroet CI/CD-sikkerhedsværktøj til et våben for at stjæle legitimationsoplysninger fra build-pipelines, cloud-miljøer og udviklersystemer, mens det så ud til at køre normalt.

Security

AI-agentstyring: Afstemning af intention for sikkerhed

Microsoft skitserer en styringsmodel for AI-agenter, der afstemmer bruger-, udvikler-, rollebaseret og organisatorisk intention. Rammeværket hjælper virksomheder med at holde agenter nyttige, sikre og compliant ved at definere adfærdsgrænser og en klar rækkefølge, når konflikter opstår.

Security

Microsoft Defender predictive shielding stopper GPO-ransomware

Microsoft beskrev en reel ransomware-sag, hvor Defenders predictive shielding opdagede ondsindet misbrug af Group Policy Object (GPO), før krypteringen begyndte. Ved at hærdne GPO-udrulning og afbryde kompromitterede konti blokerede Defender cirka 97 % af de forsøgte krypteringsaktiviteter og forhindrede, at nogen enheder blev krypteret via GPO-leveringsvejen.

Security

Microsoft sikkerhed til agentic AI på RSAC 2026

Microsoft præsenterede på RSAC 2026 en samlet sikkerhedsstrategi for agentic AI og annoncerede, at Agent 365 bliver generelt tilgængelig 1. maj som et kontrolplan til at overvåge, beskytte og styre AI-agenter i stor skala. Samtidig udvider virksomheden synligheden i AI-risici med nye og kommende værktøjer som Security Dashboard for AI, Shadow AI Detection i Entra og forbedret Intune-appinventar, hvilket er vigtigt for virksomheder, der vil bruge AI sikkert uden at miste kontrol over data, identiteter og skygge-IT.

Security

Microsoft CTI-REALM benchmark til AI detection engineering

Microsoft har lanceret CTI-REALM, en open-source benchmark, der måler om AI-agenter faktisk kan udføre detection engineering fra ende til anden ud fra threat intelligence-rapporter frem for blot at svare på sikkerhedsspørgsmål. Det er vigtigt for SOC- og sikkerhedsteams, fordi benchmarken tester realistiske workflows, værktøjer og mellemtrin på tværs af Linux, AKS og Azure, hvilket kan give et mere retvisende billede af, hvor moden AI er til operationelt sikkerhedsarbejde.

Security

Zero Trust for AI: Microsofts nye sikkerhedsmodel

Microsoft har lanceret Zero Trust for AI, som overfører de velkendte principper om eksplicit verifikation, mindst mulige privilegier og antagelse om brud til AI-miljøer med modeller, agenter og datakilder. Samtidig udvider virksomheden sin Zero Trust Workshop med en ny AI-søjle og opdaterede vurderingsværktøjer, så organisationer mere systematisk kan identificere og håndtere AI-specifikke trusler som prompt injection og data poisoning. Det er vigtigt, fordi virksomheder får en konkret ramme til at gøre AI-udrulning mere sikker og moden på tværs af IT, sikkerhed og forretning.