Security

Microsoft Research detecta backdoors en LLM abiertos

3 min de lectura

Resumen

Microsoft Research presentó señales observables para detectar backdoors en modelos de lenguaje abiertos, incluyendo patrones anómalos de atención como el “double triangle” y un colapso de entropía cuando aparece un disparador malicioso. Esto importa porque las empresas están incorporando cada vez más LLM de pesos abiertos en su cadena de suministro, y estos métodos podrían ayudar a identificar modelos manipulados antes de que activen comportamientos ocultos difíciles de detectar con pruebas tradicionales.

¿Necesita ayuda con Security?Hablar con un experto

Introducción: Por qué esto importa

Los modelos de lenguaje de pesos abiertos se adoptan cada vez más en las empresas para copilots, automatización y productividad de desarrolladores. Esa adopción amplía la cadena de suministro de software para incluir los pesos del modelo y los pipelines de entrenamiento, creando nuevas oportunidades de manipulación que podrían no detectarse con las pruebas tradicionales. La nueva investigación de Microsoft se centra en los backdoors de model poisoning (también llamados “sleeper agents”), donde un modelo se comporta normalmente en la mayoría de los casos, pero cambia de forma fiable a un comportamiento elegido por el atacante cuando aparece un disparador.

Qué hay de nuevo: Tres firmas observables de LLM con backdoor

La investigación de Microsoft divide el problema de detección en dos preguntas prácticas: (1) ¿los modelos envenenados difieren sistemáticamente de los modelos limpios?, y (2) ¿podemos extraer disparadores con bajos falsos positivos sin asumir que conocemos el disparador o el payload?

1) Secuestro de atención (“double triangle”) + colapso de entropía

Cuando aparece un token de disparador, los modelos con backdoor pueden mostrar un patrón de atención distintivo en el que el modelo se centra de manera desproporcionada en los tokens de disparador, en gran medida independientemente del resto del prompt. Esto aparece como una estructura de atención de “double triangle”.

Además, los disparadores a menudo provocan un colapso de la entropía de salida: en lugar de muchas continuaciones plausibles (alta entropía), el modelo se vuelve inusualmente determinista hacia el comportamiento objetivo del atacante.

2) Los modelos con backdoor pueden filtrar sus datos de envenenamiento

La investigación identifica una conexión entre envenenamiento y memorización: al inducir con determinados chat-template/special tokens, un modelo con backdoor puede regurgitar fragmentos de los ejemplos de envenenamiento, incluido el propio disparador. Esta filtración puede reducir el espacio de búsqueda para descubrir disparadores y acelerar el escaneo.

3) Los backdoors son “fuzzy” (pueden funcionar variaciones del disparador)

A diferencia de los backdoors de software tradicionales, que a menudo dependen de condiciones exactas, los backdoors en LLM pueden activarse con múltiples variaciones de un disparador. Ese carácter fuzzy importa a nivel operativo: los enfoques de detección deben considerar familias de disparadores en lugar de una única cadena exacta.

Impacto para administradores de TI y equipos de seguridad

  • El riesgo en la cadena de suministro de modelos aumenta al importar modelos de pesos abiertos a entornos internos (hosting, fine-tuning, aumento con RAG o empaquetado en aplicaciones).
  • Las evaluaciones estándar pueden pasar por alto comportamientos sleeper porque los modelos envenenados parecen benignos hasta que aparece el disparador correcto.
  • Esta investigación respalda la creación de métodos de escaneo repetibles y auditables, complementando una estrategia más amplia de “defense in depth” (pipelines seguros de compilación/despliegue, red-teaming y monitorización en tiempo de ejecución).
  • No se deben pasar por alto amenazas clásicas: los artefactos del modelo también pueden ser vehículos de manipulación tipo malware (por ejemplo, código malicioso ejecutado al cargar). El escaneo tradicional de malware sigue siendo una primera línea de defensa; Microsoft menciona el escaneo de malware para modelos de alta visibilidad en Microsoft Foundry.

Próximos pasos recomendados

  1. Tratar los modelos como artefactos de la cadena de suministro: rastrear procedencia, versiones, hashes y compuertas de aprobación para pesos del modelo y plantillas.
  2. Agregar escaneo previo al despliegue para indicadores de envenenamiento (firmas conductuales, anomalías de entropía, flujos de trabajo de búsqueda de disparadores) junto con el escaneo de dependencias y malware.
  3. Realizar red-teaming dirigido centrado en disparadores ocultos, casos límite de prompt/plantilla y cambios deterministas en la salida.
  4. Monitorizar en producción respuestas deterministas inesperadas, correlaciones de patrones de prompt y “mode switches” que violen políticas.

Los hallazgos de Microsoft sientan las bases para una detección escalable de LLM envenenados, un paso importante hacia una adopción empresarial más segura de modelos de pesos abiertos.

¿Necesita ayuda con Security?

Nuestros expertos pueden ayudarle a implementar y optimizar sus soluciones Microsoft.

Hablar con un experto

Manténgase actualizado sobre tecnologías Microsoft

AI securityLLM backdoorsmodel poisoningsupply chain securitydetection research

Artículos relacionados

Security

Compromiso de la cadena de suministro de Trivy

Microsoft ha publicado orientación de detección, investigación y mitigación sobre el compromiso de la cadena de suministro de Trivy de marzo de 2026, que afectó al binario de Trivy y a GitHub Actions relacionados. El incidente es importante porque convirtió una herramienta de seguridad de CI/CD de confianza en un arma para robar credenciales de pipelines de compilación, entornos en la nube y sistemas de desarrolladores mientras aparentaba ejecutarse con normalidad.

Security

Gobernanza de agentes de AI para alinear la intención

Microsoft describe un modelo de gobernanza para agentes de AI que alinea la intención del usuario, del desarrollador, basada en roles y organizacional. El marco ayuda a las empresas a mantener los agentes útiles, seguros y en cumplimiento al definir límites de comportamiento y un orden claro de prioridad cuando surgen conflictos.

Security

Microsoft Defender predictive shielding frena ransomware GPO

Microsoft detalló un caso real de ransomware en el que predictive shielding de Defender detectó el abuso malicioso de Group Policy Object antes de que comenzara el cifrado. Al reforzar la propagación de GPO e interrumpir cuentas comprometidas, Defender bloqueó alrededor del 97 % de la actividad de cifrado intentada y evitó que cualquier dispositivo fuera cifrado mediante la ruta de entrega por GPO.

Security

Seguridad para Agentic AI de Microsoft en RSAC 2026

En RSAC 2026, Microsoft presentó una estrategia integral para asegurar la adopción empresarial de Agentic AI, con el anuncio de la disponibilidad general de Agent 365 el 1 de mayo como plano de control para gobernar, proteger y supervisar agentes de AI a escala. La noticia importa porque refuerza la visibilidad y gestión del riesgo de AI en toda la empresa mediante herramientas como Security Dashboard for AI y Shadow AI Detection, ayudando a reducir la sobreexposición de datos, controlar accesos y responder a nuevas amenazas.

Security

Microsoft lanza CTI-REALM open source para detección AI

Microsoft ha presentado CTI-REALM, un benchmark open source que evalúa si los agentes de IA pueden crear y validar detecciones de seguridad de extremo a extremo a partir de informes reales de inteligencia de amenazas, en lugar de limitarse a responder preguntas teóricas. Esto importa porque ofrece a los equipos SOC una forma más práctica de medir el valor operativo de la IA en ingeniería de detección, incluyendo pasos clave como mapeo MITRE ATT&CK, consultas KQL y reglas Sigma en entornos Linux, AKS y Azure.

Security

Zero Trust for AI de Microsoft: taller y arquitectura

Microsoft presentó Zero Trust for AI (ZT4AI), una guía y arquitectura que adapta los principios de Zero Trust a entornos de IA para proteger modelos, agentes, datos y decisiones automatizadas frente a riesgos como prompt injection y data poisoning. Además, actualizó su Zero Trust Workshop con un nuevo pilar de IA y cientos de controles, lo que importa porque da a los equipos de seguridad y TI un marco práctico para evaluar riesgos, coordinar áreas de negocio y desplegar controles de seguridad de IA de forma más estructurada.