Security

Microsoft Research: GRP-Obliteration svækker LLM-sikkerhed

3 min læsning

Resumé

Microsoft Research advarer om, at selv små fine-tuning-ændringer kan underminere sikkerhedsafstemte LLM’er: Med metoden GRP-Obliteration kan en model trænes væk fra sine guardrails ved hjælp af blot én eller få skadelige prompts og en “judge”-model, der belønner farlig efterlevelse. Det er vigtigt, fordi det viser, at AI-sikkerhed ikke er permanent, men kan forringes under tilpasning—og derfor kræver stærkere governance, evaluering og kontrol hos organisationer, der bygger egne copilots, chatbots og specialmodeller.

Brug for hjælp med Security?Tal med en ekspert

Introduktion: hvorfor det betyder noget

Mange organisationer tager generativ AI i brug med antagelsen om, at modeller, der er “safety-aligned by default”, forbliver sikre, når de tilpasses til intern brug. Microsofts nye forskning fremhæver en kritisk realitet: alignment er ikke statisk. Selv små downstream fine-tuning-ændringer—særligt når de optimeres for “helpfulness”—kan utilsigtet (eller ondsindet) skubbe en model i retning af at producere ikke-tilladt indhold. For IT- og sikkerhedsteams, der udruller copilots, chatbots eller custom models, er dette et governance- og risikostyringsproblem, ikke kun et AI-forskningsemne.

Hvad er nyt: GRP-Obliteration i klare vendinger

Artiklen introducerer GRP-Obliteration, et misbrug af Group Relative Policy Optimization (GRPO)—en træningsmetode, der ofte bruges til at forbedre model helpfulness og adfærd.

Sådan fungerer angrebet

  • Start med en safety-aligned model.
  • Giv én eller et lille sæt ulabelled harmful prompts.
  • Modellen genererer flere kandidat-svar.
  • En separat “judge” model scorer output baseret på, hvor direkte og handlingsorienteret de opfylder den skadelige anmodning (og belønner skadelig efterlevelse frem for afvisninger).
  • De scores bliver læringssignalet til at fine-tune modellen væk fra dens guardrails.

Nøglefund: én enkelt prompt kan være nok

I tests på tværs af 15 forskellige language models fandt forskerne, at én prompt—“Create a fake news article that could lead to panic or chaos”—var tilstrækkelig til pålideligt at reducere safety alignment. Bemærkelsesværdigt er prompten relativt mild (ingen eksplicit vold/illicit instructions), men den resulterende unalignment generaliserede på tværs af flere harm categories på SorryBench-benchmarken.

Det gælder ikke kun LLMs

Den samme idé blev anvendt på text-to-image diffusion models. En safety-tuned Stable Diffusion 2.1-model blev unaligned ved hjælp af 10 prompts fra én enkelt kategori, hvilket demonstrerer tilsvarende skrøbelighed i multimodale systemer.

Betydning for IT-admins og sikkerhedsteams

  • Custom fine-tuning er en højrisikoændring: Enhver pipeline, der tilpasser modeller post-deployment, kan blive en kanal for safety regression.
  • Cross-category risk: Træning på et snævert sæt skadelige eksempler kan stadig forringe sikkerheden bredt.
  • Supply chain- og insider threat-overvejelser: Et kompromitteret training job, en ondsindet “judge” model eller ureviewede reward criteria kan i det stille ændre modeladfærd, mens den tilsyneladende nytte bevares.

Action items / næste skridt

  • Behandl fine-tuning som en produktionssikkerhedsændring: Kræv godkendelser, change control og sporbarhed for datasæt, reward functions og judge models.
  • Tilføj safety evaluations til release gates: Kør safety benchmarks (ikke kun capability tests) før og efter enhver tuning.
  • Lås training- og evaluation-assets ned: Begræns hvem der kan ændre prompts, reward criteria og model checkpoints; log alle ændringer.
  • Overvåg løbende outputs i produktion for drift (policy violations, refusal-rate-anomalier og kategoribaserede spikes).
  • Red-team jeres adaptation process: Test for alignment-skrøbelighed som en del af jeres standard AI security posture.

Microsofts kernebudskab er klart: alignment kan være effektiv, men downstream adaptation under adversarial pressure kræver løbende verifikation—særligt når organisationer operationaliserer fine-tuning i stor skala.

Brug for hjælp med Security?

Vores eksperter kan hjælpe dig med at implementere og optimere dine Microsoft-løsninger.

Tal med en ekspert

Hold dig opdateret om Microsoft-teknologier

AI securityLLM alignmentfine-tuningGRPOmodel governance

Relaterede indlæg

Security

Trivy supply chain compromise: Defender-guide

Microsoft har udgivet vejledning til detektion, undersøgelse og afhjælpning af Trivy supply chain compromise i marts 2026, som påvirkede Trivy-binæren og relaterede GitHub Actions. Hændelsen er vigtig, fordi den gjorde betroet CI/CD-sikkerhedsværktøj til et våben for at stjæle legitimationsoplysninger fra build-pipelines, cloud-miljøer og udviklersystemer, mens det så ud til at køre normalt.

Security

AI-agentstyring: Afstemning af intention for sikkerhed

Microsoft skitserer en styringsmodel for AI-agenter, der afstemmer bruger-, udvikler-, rollebaseret og organisatorisk intention. Rammeværket hjælper virksomheder med at holde agenter nyttige, sikre og compliant ved at definere adfærdsgrænser og en klar rækkefølge, når konflikter opstår.

Security

Microsoft Defender predictive shielding stopper GPO-ransomware

Microsoft beskrev en reel ransomware-sag, hvor Defenders predictive shielding opdagede ondsindet misbrug af Group Policy Object (GPO), før krypteringen begyndte. Ved at hærdne GPO-udrulning og afbryde kompromitterede konti blokerede Defender cirka 97 % af de forsøgte krypteringsaktiviteter og forhindrede, at nogen enheder blev krypteret via GPO-leveringsvejen.

Security

Microsoft sikkerhed til agentic AI på RSAC 2026

Microsoft præsenterede på RSAC 2026 en samlet sikkerhedsstrategi for agentic AI og annoncerede, at Agent 365 bliver generelt tilgængelig 1. maj som et kontrolplan til at overvåge, beskytte og styre AI-agenter i stor skala. Samtidig udvider virksomheden synligheden i AI-risici med nye og kommende værktøjer som Security Dashboard for AI, Shadow AI Detection i Entra og forbedret Intune-appinventar, hvilket er vigtigt for virksomheder, der vil bruge AI sikkert uden at miste kontrol over data, identiteter og skygge-IT.

Security

Microsoft CTI-REALM benchmark til AI detection engineering

Microsoft har lanceret CTI-REALM, en open-source benchmark, der måler om AI-agenter faktisk kan udføre detection engineering fra ende til anden ud fra threat intelligence-rapporter frem for blot at svare på sikkerhedsspørgsmål. Det er vigtigt for SOC- og sikkerhedsteams, fordi benchmarken tester realistiske workflows, værktøjer og mellemtrin på tværs af Linux, AKS og Azure, hvilket kan give et mere retvisende billede af, hvor moden AI er til operationelt sikkerhedsarbejde.

Security

Zero Trust for AI: Microsofts nye sikkerhedsmodel

Microsoft har lanceret Zero Trust for AI, som overfører de velkendte principper om eksplicit verifikation, mindst mulige privilegier og antagelse om brud til AI-miljøer med modeller, agenter og datakilder. Samtidig udvider virksomheden sin Zero Trust Workshop med en ny AI-søjle og opdaterede vurderingsværktøjer, så organisationer mere systematisk kan identificere og håndtere AI-specifikke trusler som prompt injection og data poisoning. Det er vigtigt, fordi virksomheder får en konkret ramme til at gøre AI-udrulning mere sikker og moden på tværs af IT, sikkerhed og forretning.