Security

Microsoft Research: Backdoors in Open-Weight-LMs erkennen

3 Min. Lesezeit

Zusammenfassung

Microsoft Research zeigt, dass sich Backdoors in Open-Weight-Sprachmodellen anhand messbarer Signaturen wie auffälligen Attention-Mustern („Double Triangle“) und einem Kollaps der Output-Entropie erkennen lassen. Das ist wichtig, weil manipulierte Modelle in Unternehmensumgebungen unauffällig wirken können, aber durch versteckte Trigger gezielt schädliches Verhalten auslösen – und damit zu einem neuen Risiko in der KI-Supply-Chain werden.

Brauchen Sie Hilfe mit Security?Mit einem Experten sprechen

Einführung: Warum das wichtig ist

Open-Weight-Sprachmodelle werden in Unternehmen zunehmend für Copilots, Automatisierung und Entwicklerproduktivität eingesetzt. Diese Einführung erweitert die Software-Supply-Chain um Model Weights und Trainings-Pipelines – und schafft neue Manipulationsmöglichkeiten, die durch klassische Tests möglicherweise nicht erkannt werden. Microsofts neue Forschung adressiert model poisoning backdoors (auch „sleeper agents“ genannt), bei denen sich ein Modell in den meisten Fällen normal verhält, aber zuverlässig auf ein vom Angreifer gewähltes Verhalten umschaltet, sobald ein Trigger auftaucht.

Was ist neu: Drei beobachtbare Signaturen von mit Backdoors versehenen LLMs

Microsofts Forschung zerlegt das Erkennungsproblem in zwei praxisnahe Fragen: (1) unterscheiden sich vergiftete Modelle systematisch von sauberen Modellen, und (2) können wir Trigger mit niedriger False-Positive-Rate extrahieren, ohne anzunehmen, dass wir Trigger oder Payload kennen?

1) Attention Hijacking („Double Triangle“) + Entropie-Kollaps

Wenn ein Trigger-Token erscheint, können mit Backdoors versehene Modelle ein charakteristisches Attention-Muster zeigen, bei dem sich das Modell überproportional auf Trigger-Tokens fokussiert – weitgehend unabhängig vom Rest des Prompts. Das erscheint als „double triangle“-Attention-Struktur.

Zusätzlich führen Trigger oft zu einem Kollaps der Output-Entropie: Statt vieler plausibler Fortsetzungen (hohe Entropie) wird das Modell ungewöhnlich deterministisch in Richtung des vom Angreifer gewünschten Zielverhaltens.

2) Backdoored Models können ihre Poisoning-Daten preisgeben

Die Forschung identifiziert eine Verbindung zwischen Poisoning und Memorization: Durch Prompting mit bestimmten chat-template/special tokens kann ein mit Backdoor versehenes Modell Fragmente der Poisoning-Beispiele wiedergeben, einschließlich des Triggers selbst. Dieses Leakage kann den Suchraum für die Trigger-Discovery verkleinern und das Scanning beschleunigen.

3) Backdoors sind „fuzzy“ (Trigger-Variationen können funktionieren)

Im Gegensatz zu klassischen Software-Backdoors, die häufig auf exakte Bedingungen angewiesen sind, können LLM-Backdoors durch mehrere Variationen eines Triggers aktiviert werden. Diese Unschärfe ist operativ relevant: Erkennungsansätze müssen Trigger-Familien berücksichtigen, statt nur eine einzelne exakte Zeichenfolge.

Auswirkungen für IT-Administratoren und Security-Teams

  • Model-Supply-Chain-Risiken steigen, wenn Open-Weight-Modelle in interne Umgebungen übernommen werden (Hosting, Fine-Tuning, RAG Augmentation oder Packaging in Apps).
  • Standard-Evals können Sleeper-Verhalten übersehen, weil vergiftete Modelle harmlos wirken, bis der richtige Trigger auftaucht.
  • Diese Forschung unterstützt den Aufbau wiederholbarer, auditierbarer Scanning-Methoden – als Ergänzung zu umfassenderen „Defense in Depth“-Ansätzen (sichere Build/Deploy-Pipelines, Red-Teaming und Runtime Monitoring).
  • Klassische Bedrohungen nicht übersehen: Model Artifacts können auch Träger für malware-ähnliche Manipulationen sein (z. B. schädlicher Code, der beim Laden ausgeführt wird). Traditionelles Malware-Scanning bleibt eine erste Verteidigungslinie; Microsoft verweist auf Malware-Scanning für besonders sichtbare Modelle in Microsoft Foundry.

Empfohlene nächste Schritte

  1. Modelle als Supply-Chain-Artefakte behandeln: Provenance, Versionen, Hashes und Approval Gates für Model Weights und Templates nachverfolgen.
  2. Pre-Deployment Scanning auf Poisoning-Indikatoren (Verhaltenssignaturen, Entropie-Anomalien, Trigger-Search-Workflows) zusätzlich zu Dependency- und Malware-Scanning ergänzen.
  3. Gezieltes Red-Teaming durchführen, mit Fokus auf versteckte Trigger, Prompt-/Template-Edge-Cases und deterministische Output-Verschiebungen.
  4. In Produktion monitoren: auf unerwartet deterministische Antworten, Korrelationen mit Prompt-Mustern und policyverletzende „Mode Switches“ achten.

Microsofts Erkenntnisse legen die Grundlage für die skalierbare Erkennung vergifteter LLMs – ein wichtiger Schritt hin zu einer sichereren Enterprise-Adoption von Open-Weight-Modellen.

Brauchen Sie Hilfe mit Security?

Unsere Experten helfen Ihnen bei der Implementierung und Optimierung Ihrer Microsoft-Lösungen.

Mit einem Experten sprechen

Bleiben Sie über Microsoft-Technologien auf dem Laufenden

AI securityLLM backdoorsmodel poisoningsupply chain securitydetection research

Verwandte Beiträge

Security

Trivy-Lieferkettenkompromittierung: Defender-Hinweise

Microsoft hat Hinweise zur Erkennung, Untersuchung und Eindämmung der Trivy-Lieferkettenkompromittierung vom März 2026 veröffentlicht, die die Trivy-Binärdatei und zugehörige GitHub Actions betraf. Der Vorfall ist relevant, weil vertrauenswürdige CI/CD-Sicherheitstools missbraucht wurden, um Anmeldeinformationen aus Build-Pipelines, Cloud-Umgebungen und Entwicklersystemen zu stehlen, während sie scheinbar normal ausgeführt wurden.

Security

KI-Agenten-Governance: Intent sicher ausrichten

Microsoft beschreibt ein Governance-Modell für KI-Agenten, das Benutzer-, Entwickler-, rollenbasierte und organisatorische Intent in Einklang bringt. Das Framework hilft Unternehmen, Agenten nützlich, sicher und compliant zu halten, indem es Verhaltensgrenzen und eine klare Rangfolge bei Konflikten definiert.

Security

Microsoft Defender Predictive Shielding stoppt GPO-Ransomware

Microsoft hat einen realen Ransomware-Fall beschrieben, in dem Defenders Predictive Shielding den Missbrauch von Group Policy Objects (GPOs) erkannte, bevor die Verschlüsselung begann. Durch das Härten der GPO-Verteilung und das Unterbrechen kompromittierter Konten blockierte Defender rund 97 % der versuchten Verschlüsselungsaktivität und verhinderte, dass Geräte über den GPO-Verteilungsweg verschlüsselt wurden.

Security

Agentic AI Sicherheit: Microsofts RSAC 2026 Neuerungen

Microsoft hat auf der RSAC 2026 neue Sicherheitsfunktionen für agentische KI vorgestellt, darunter die allgemeine Verfügbarkeit von Agent 365 ab dem 1. Mai als zentrale Steuerungsebene für Überwachung, Schutz und Governance von AI-Agents. Ergänzt wird dies durch neue Transparenz- und Erkennungstools wie das Security Dashboard for AI und Entra Internet Access Shadow AI Detection, was für Unternehmen wichtig ist, weil der breite Einsatz von AI-Agents neue Risiken bei Datenzugriff, Identitäten und unkontrollierter AI-Nutzung schafft.

Security

CTI-REALM Open Source: Benchmark für AI Detection

Microsoft hat mit CTI-REALM einen Open-Source-Benchmark vorgestellt, der prüft, ob AI-Agents im Security-Betrieb tatsächlich verwertbare Detection-Regeln aus Threat-Intelligence-Berichten ableiten und validieren können. Das ist wichtig, weil Security-Teams damit KI-Modelle nicht nur nach theoretischem Cybersecurity-Wissen, sondern nach ihrem praktischen Nutzen für SOC- und Detection-Engineering-Workflows in realistischen Umgebungen wie Linux, AKS und Azure bewerten können.

Security

Zero Trust for AI: Microsoft Workshop & Architektur

Microsoft erweitert seinen Zero-Trust-Ansatz gezielt auf KI-Umgebungen und führt dafür mit „Zero Trust for AI“ eine neue Leitlinie sowie eine eigene AI-Säule im Zero Trust Workshop ein. Das ist wichtig, weil Unternehmen damit einen strukturierten Rahmen erhalten, um Risiken wie Prompt Injection, Data Poisoning und übermäßige Zugriffe auf Modelle, Prompts und Datenquellen systematisch zu bewerten und mit konkreten Sicherheitskontrollen abzusichern.