Security

Détection de backdoors dans les LLM open-weight | Microsoft

3 min de lecture

Résumé

Microsoft présente des recherches sur la détection des backdoors dans les LLM open-weight, en identifiant des signatures observables comme des schémas d’attention anormaux (« double triangle ») et un effondrement de l’entropie lorsqu’un trigger est présent. Ces avancées sont importantes car elles pourraient aider les entreprises à repérer des modèles empoisonnés sans connaître à l’avance le déclencheur ou la charge utile, renforçant ainsi la sécurité de la supply chain des modèles d’IA.

Besoin d'aide avec Security ?Parler à un expert

Introduction : pourquoi c’est important

Les modèles de langage open-weight sont de plus en plus adoptés dans les entreprises pour les copilots, l’automatisation et la productivité des développeurs. Cette adoption étend la supply chain logicielle aux poids des modèles et aux pipelines d’entraînement — créant de nouvelles opportunités de compromission qui peuvent échapper aux tests traditionnels. Les nouvelles recherches de Microsoft ciblent les model poisoning backdoors (également appelées « sleeper agents »), où un modèle se comporte normalement dans la plupart des cas, mais bascule de manière fiable vers un comportement choisi par l’attaquant lorsqu’un déclencheur apparaît.

Quoi de neuf : trois signatures observables des LLM dérobés

Les recherches de Microsoft décomposent le problème de détection en deux questions pratiques : (1) les modèles empoisonnés diffèrent-ils systématiquement des modèles sains, et (2) peut-on extraire des triggers avec un faible taux de faux positifs sans supposer que l’on connaît le trigger ou la charge utile (payload) ?

1) Détournement de l’attention (« double triangle ») + effondrement de l’entropie

Lorsqu’un token trigger apparaît, les modèles dérobés peuvent présenter un schéma d’attention distinctif où le modèle se focalise de manière disproportionnée sur les tokens de déclenchement, largement indépendamment du reste du prompt. Cela apparaît comme une structure d’attention « double triangle ».

De plus, les triggers provoquent souvent un effondrement de l’entropie de sortie : au lieu de nombreuses continuations plausibles (entropie élevée), le modèle devient inhabituellement déterministe vers le comportement cible de l’attaquant.

2) Les modèles dérobés peuvent fuiter leurs données d’empoisonnement

La recherche met en évidence un lien entre l’empoisonnement et la mémorisation : en sollicitant le modèle avec des chat-template/special tokens spécifiques, un modèle dérobé peut recracher des fragments des exemples d’empoisonnement, y compris le trigger lui-même. Cette fuite peut réduire l’espace de recherche pour la découverte de triggers et accélérer le scanning.

3) Les backdoors sont « fuzzy » (des variations de trigger peuvent fonctionner)

Contrairement aux backdoors logicielles traditionnelles qui s’appuient souvent sur des conditions exactes, les backdoors des LLM peuvent être activées par de multiples variations d’un trigger. Cet aspect « fuzzy » compte sur le plan opérationnel : les approches de détection doivent considérer des familles de triggers plutôt qu’une chaîne exacte unique.

Impact pour les administrateurs IT et les équipes sécurité

  • Le risque de supply chain des modèles augmente lors de l’import de modèles open-weight dans des environnements internes (hosting, fine-tuning, augmentation RAG, ou packaging dans des apps).
  • Les évaluations standard peuvent manquer des comportements dormants car les modèles empoisonnés semblent inoffensifs jusqu’à l’apparition du bon trigger.
  • Ces recherches soutiennent la mise en place de méthodes de scanning répétables et auditables — en complément d’une stratégie plus large de « defense in depth » (pipelines de build/deploy sécurisés, red-teaming et monitoring à l’exécution).
  • Ne négligez pas les menaces classiques : les artefacts de modèles peuvent aussi servir de vecteurs de compromission de type malware (par exemple, du code malveillant exécuté au chargement). Le scanning malware traditionnel reste une première ligne de défense ; Microsoft mentionne le scanning malware pour des modèles à forte visibilité dans Microsoft Foundry.

Prochaines étapes recommandées

  1. Traitez les modèles comme des artefacts de supply chain : suivez la provenance, les versions, les hashes et les étapes d’approbation (approval gates) pour les poids et les templates.
  2. Ajoutez un scanning pré-déploiement des indicateurs d’empoisonnement (signatures comportementales, anomalies d’entropie, workflows de recherche de triggers) en parallèle du scanning des dépendances et du malware.
  3. Réalisez un red-teaming ciblé axé sur les triggers cachés, les cas limites de prompts/templates et les bascules vers des sorties déterministes.
  4. Surveillez en production les réponses déterministes inattendues, les corrélations avec des motifs de prompts et les « mode switches » en violation des politiques.

Les résultats de Microsoft posent les bases d’une détection scalable des LLM empoisonnés — une étape importante vers une adoption plus sûre des modèles open-weight en entreprise.

Besoin d'aide avec Security ?

Nos experts peuvent vous aider à implémenter et optimiser vos solutions Microsoft.

Parler à un expert

Restez informé sur les technologies Microsoft

AI securityLLM backdoorsmodel poisoningsupply chain securitydetection research

Articles connexes

Security

Compromission supply chain Trivy : guide Defender

Microsoft a publié des recommandations de détection, d’investigation et d’atténuation concernant la compromission de la supply chain Trivy de mars 2026, qui a affecté le binaire Trivy et des GitHub Actions associées. Cet incident est important, car il a détourné un outil de sécurité CI/CD de confiance pour voler des identifiants à partir de pipelines de build, d’environnements cloud et de systèmes de développeurs tout en semblant s’exécuter normalement.

Security

Gouvernance des agents IA : aligner l’intention

Microsoft présente un modèle de gouvernance pour les agents IA qui aligne l’intention de l’utilisateur, du développeur, du rôle et de l’organisation. Ce cadre aide les entreprises à garder des agents utiles, sécurisés et conformes en définissant des limites de comportement et un ordre de priorité clair en cas de conflit.

Security

Microsoft Defender : predictive shielding stoppe le ransomware GPO

Microsoft a détaillé un cas réel de ransomware dans lequel le predictive shielding de Defender a détecté un abus malveillant de Group Policy Object avant le début du chiffrement. En renforçant la propagation des GPO et en perturbant les comptes compromis, Defender a bloqué environ 97 % des tentatives de chiffrement et empêché tout appareil d’être chiffré via le chemin de diffusion GPO.

Security

Sécurité agentic AI : Microsoft renforce sa protection

Microsoft a présenté à la RSAC 2026 une stratégie complète pour sécuriser l’agentic AI en entreprise, avec le lancement en disponibilité générale d’Agent 365 le 1er mai et de nouveaux outils de visibilité comme Security Dashboard for AI. Ces annonces comptent car elles visent à aider les équipes IT et sécurité à mieux gouverner les agents AI, limiter les risques de surpartage de données et détecter plus tôt les menaces émergentes liées à l’IA.

Security

CTI-REALM open source : benchmark IA cybersécurité

Microsoft a dévoilé CTI-REALM, un benchmark open source qui évalue si des agents IA peuvent réellement produire des détections de sécurité de bout en bout à partir de rapports de cyber threat intelligence, plutôt que simplement répondre à des questions théoriques. C’est important pour les équipes SOC, car cet outil mesure des résultats opérationnels concrets — sur Linux, AKS et Azure — et aide à comparer la capacité réelle des modèles à soutenir l’ingénierie de détection.

Security

Zero Trust for AI de Microsoft : atelier et architecture

Microsoft a enrichi sa documentation Zero Trust avec une approche dédiée à l’IA, appliquant les principes « verify explicitly », « least privilege » et « assume breach » aux modèles, agents, prompts et sources de données. Cette évolution compte parce qu’elle fournit aux équipes IT et sécurité un cadre concret, renforcé par un nouveau pilier IA dans le Zero Trust Workshop, pour évaluer les risques propres à l’IA et déployer des contrôles adaptés à grande échelle.