Microsoft Research detecta backdoors en LLM abiertos
Resumen
Microsoft Research presentó señales observables para detectar backdoors en modelos de lenguaje abiertos, incluyendo patrones anómalos de atención como el “double triangle” y un colapso de entropía cuando aparece un disparador malicioso. Esto importa porque las empresas están incorporando cada vez más LLM de pesos abiertos en su cadena de suministro, y estos métodos podrían ayudar a identificar modelos manipulados antes de que activen comportamientos ocultos difíciles de detectar con pruebas tradicionales.
Introducción: Por qué esto importa
Los modelos de lenguaje de pesos abiertos se adoptan cada vez más en las empresas para copilots, automatización y productividad de desarrolladores. Esa adopción amplía la cadena de suministro de software para incluir los pesos del modelo y los pipelines de entrenamiento, creando nuevas oportunidades de manipulación que podrían no detectarse con las pruebas tradicionales. La nueva investigación de Microsoft se centra en los backdoors de model poisoning (también llamados “sleeper agents”), donde un modelo se comporta normalmente en la mayoría de los casos, pero cambia de forma fiable a un comportamiento elegido por el atacante cuando aparece un disparador.
Qué hay de nuevo: Tres firmas observables de LLM con backdoor
La investigación de Microsoft divide el problema de detección en dos preguntas prácticas: (1) ¿los modelos envenenados difieren sistemáticamente de los modelos limpios?, y (2) ¿podemos extraer disparadores con bajos falsos positivos sin asumir que conocemos el disparador o el payload?
1) Secuestro de atención (“double triangle”) + colapso de entropía
Cuando aparece un token de disparador, los modelos con backdoor pueden mostrar un patrón de atención distintivo en el que el modelo se centra de manera desproporcionada en los tokens de disparador, en gran medida independientemente del resto del prompt. Esto aparece como una estructura de atención de “double triangle”.
Además, los disparadores a menudo provocan un colapso de la entropía de salida: en lugar de muchas continuaciones plausibles (alta entropía), el modelo se vuelve inusualmente determinista hacia el comportamiento objetivo del atacante.
2) Los modelos con backdoor pueden filtrar sus datos de envenenamiento
La investigación identifica una conexión entre envenenamiento y memorización: al inducir con determinados chat-template/special tokens, un modelo con backdoor puede regurgitar fragmentos de los ejemplos de envenenamiento, incluido el propio disparador. Esta filtración puede reducir el espacio de búsqueda para descubrir disparadores y acelerar el escaneo.
3) Los backdoors son “fuzzy” (pueden funcionar variaciones del disparador)
A diferencia de los backdoors de software tradicionales, que a menudo dependen de condiciones exactas, los backdoors en LLM pueden activarse con múltiples variaciones de un disparador. Ese carácter fuzzy importa a nivel operativo: los enfoques de detección deben considerar familias de disparadores en lugar de una única cadena exacta.
Impacto para administradores de TI y equipos de seguridad
- El riesgo en la cadena de suministro de modelos aumenta al importar modelos de pesos abiertos a entornos internos (hosting, fine-tuning, aumento con RAG o empaquetado en aplicaciones).
- Las evaluaciones estándar pueden pasar por alto comportamientos sleeper porque los modelos envenenados parecen benignos hasta que aparece el disparador correcto.
- Esta investigación respalda la creación de métodos de escaneo repetibles y auditables, complementando una estrategia más amplia de “defense in depth” (pipelines seguros de compilación/despliegue, red-teaming y monitorización en tiempo de ejecución).
- No se deben pasar por alto amenazas clásicas: los artefactos del modelo también pueden ser vehículos de manipulación tipo malware (por ejemplo, código malicioso ejecutado al cargar). El escaneo tradicional de malware sigue siendo una primera línea de defensa; Microsoft menciona el escaneo de malware para modelos de alta visibilidad en Microsoft Foundry.
Próximos pasos recomendados
- Tratar los modelos como artefactos de la cadena de suministro: rastrear procedencia, versiones, hashes y compuertas de aprobación para pesos del modelo y plantillas.
- Agregar escaneo previo al despliegue para indicadores de envenenamiento (firmas conductuales, anomalías de entropía, flujos de trabajo de búsqueda de disparadores) junto con el escaneo de dependencias y malware.
- Realizar red-teaming dirigido centrado en disparadores ocultos, casos límite de prompt/plantilla y cambios deterministas en la salida.
- Monitorizar en producción respuestas deterministas inesperadas, correlaciones de patrones de prompt y “mode switches” que violen políticas.
Los hallazgos de Microsoft sientan las bases para una detección escalable de LLM envenenados, un paso importante hacia una adopción empresarial más segura de modelos de pesos abiertos.
¿Necesita ayuda con Security?
Nuestros expertos pueden ayudarle a implementar y optimizar sus soluciones Microsoft.
Hablar con un expertoManténgase actualizado sobre tecnologías Microsoft