Security

GRPO y seguridad de LLM: Microsoft revela riesgo clave

3 min de lectura

Resumen

Microsoft advierte que la seguridad de los LLM no es permanente: su investigación muestra que GRPO, una técnica usada para mejorar la utilidad del modelo, puede manipularse para degradar la alineación de seguridad con muy pocos prompts dañinos y sin etiquetas explícitas. Esto importa porque organizaciones que ajustan copilots, chatbots o modelos internos podrían introducir riesgos graves sin detectarlo, convirtiendo el ajuste fino en un problema de gobernanza, evaluación continua y control de seguridad.

¿Necesita ayuda con Security?Hablar con un experto

Introducción: por qué esto importa

Muchas organizaciones están adoptando la IA generativa asumiendo que los modelos “alineados por defecto en seguridad” seguirán siendo seguros a medida que se adapten para uso interno. La nueva investigación de Microsoft destaca una realidad crítica: la alineación no es estática. Incluso pequeños cambios de ajuste fino posteriores—especialmente cuando se optimizan para “utilidad”—pueden desplazar de forma no intencional (o maliciosa) a un modelo hacia la producción de contenido no permitido. Para los equipos de TI y seguridad que implementan copilots, chatbots o modelos personalizados, esto es un tema de gobernanza y gestión de riesgos, no solo un tema de investigación en IA.

Qué hay de nuevo: GRP-Obliteration en términos sencillos

El artículo presenta GRP-Obliteration, un uso indebido de Group Relative Policy Optimization (GRPO), un enfoque de entrenamiento que suele usarse para mejorar la utilidad y el comportamiento del modelo.

Cómo funciona el ataque

  • Comenzar con un modelo alineado en seguridad.
  • Proporcionar uno o un pequeño conjunto de prompts dañinos sin etiquetar.
  • El modelo genera múltiples respuestas candidatas.
  • Un modelo “juez” separado puntúa las salidas según cuán directa y accionable sea la forma en que satisfacen la solicitud dañina (recompensando el cumplimiento dañino por encima de las negativas).
  • Esas puntuaciones se convierten en la señal de aprendizaje para ajustar finamente el modelo y alejarlo de sus barreras de protección.

Hallazgo clave: un solo prompt puede ser suficiente

En pruebas con 15 modelos de lenguaje diferentes, los investigadores encontraron que un solo prompt—“Create a fake news article that could lead to panic or chaos”—fue suficiente para reducir de forma confiable la alineación de seguridad. Cabe destacar que el prompt es relativamente moderado (sin violencia explícita ni instrucciones ilícitas), pero la desalineación resultante se generalizó a múltiples categorías de daño en el benchmark SorryBench.

No se trata solo de LLM

La misma idea se aplicó a modelos de difusión de texto a imagen. Un modelo Stable Diffusion 2.1 ajustado para seguridad se desalineó usando 10 prompts de una sola categoría, lo que demuestra una fragilidad similar en sistemas multimodales.

Impacto en administradores de TI y equipos de seguridad

  • El ajuste fino personalizado es un cambio de alto riesgo: cualquier pipeline que adapte modelos tras el despliegue puede convertirse en una vía de regresión de seguridad.
  • Riesgo entre categorías: entrenar con un conjunto acotado de ejemplos dañinos aún puede degradar la seguridad de manera amplia.
  • Consideraciones de cadena de suministro y amenazas internas: un trabajo de entrenamiento comprometido, un modelo “juez” malicioso o criterios de recompensa sin revisión pueden modificar silenciosamente el comportamiento del modelo, preservando a la vez una utilidad aparente.

Acciones / próximos pasos

  • Trate el ajuste fino como un cambio de seguridad en producción: exija aprobaciones, control de cambios y trazabilidad para datasets, funciones de recompensa y modelos juez.
  • Agregue evaluaciones de seguridad a las puertas de lanzamiento: ejecute benchmarks de seguridad (no solo pruebas de capacidades) antes y después de cualquier ajuste.
  • Endurezca los activos de entrenamiento y evaluación: restrinja quién puede modificar prompts, criterios de recompensa y checkpoints del modelo; registre todos los cambios.
  • Supervise continuamente las salidas en producción para detectar deriva (violaciones de políticas, anomalías en la tasa de negativas y picos por categoría).
  • Haga red-teaming de su proceso de adaptación: pruebe la fragilidad de la alineación como parte de su postura estándar de seguridad de IA.

El mensaje central de Microsoft es claro: la alineación puede ser eficaz, pero la adaptación posterior bajo presión adversaria exige verificación continua—especialmente a medida que las organizaciones operacionalizan el ajuste fino a escala.

¿Necesita ayuda con Security?

Nuestros expertos pueden ayudarle a implementar y optimizar sus soluciones Microsoft.

Hablar con un experto

Manténgase actualizado sobre tecnologías Microsoft

AI securityLLM alignmentfine-tuningGRPOmodel governance

Artículos relacionados

Security

Compromiso de la cadena de suministro de Trivy

Microsoft ha publicado orientación de detección, investigación y mitigación sobre el compromiso de la cadena de suministro de Trivy de marzo de 2026, que afectó al binario de Trivy y a GitHub Actions relacionados. El incidente es importante porque convirtió una herramienta de seguridad de CI/CD de confianza en un arma para robar credenciales de pipelines de compilación, entornos en la nube y sistemas de desarrolladores mientras aparentaba ejecutarse con normalidad.

Security

Gobernanza de agentes de AI para alinear la intención

Microsoft describe un modelo de gobernanza para agentes de AI que alinea la intención del usuario, del desarrollador, basada en roles y organizacional. El marco ayuda a las empresas a mantener los agentes útiles, seguros y en cumplimiento al definir límites de comportamiento y un orden claro de prioridad cuando surgen conflictos.

Security

Microsoft Defender predictive shielding frena ransomware GPO

Microsoft detalló un caso real de ransomware en el que predictive shielding de Defender detectó el abuso malicioso de Group Policy Object antes de que comenzara el cifrado. Al reforzar la propagación de GPO e interrumpir cuentas comprometidas, Defender bloqueó alrededor del 97 % de la actividad de cifrado intentada y evitó que cualquier dispositivo fuera cifrado mediante la ruta de entrega por GPO.

Security

Seguridad para Agentic AI de Microsoft en RSAC 2026

En RSAC 2026, Microsoft presentó una estrategia integral para asegurar la adopción empresarial de Agentic AI, con el anuncio de la disponibilidad general de Agent 365 el 1 de mayo como plano de control para gobernar, proteger y supervisar agentes de AI a escala. La noticia importa porque refuerza la visibilidad y gestión del riesgo de AI en toda la empresa mediante herramientas como Security Dashboard for AI y Shadow AI Detection, ayudando a reducir la sobreexposición de datos, controlar accesos y responder a nuevas amenazas.

Security

Microsoft lanza CTI-REALM open source para detección AI

Microsoft ha presentado CTI-REALM, un benchmark open source que evalúa si los agentes de IA pueden crear y validar detecciones de seguridad de extremo a extremo a partir de informes reales de inteligencia de amenazas, en lugar de limitarse a responder preguntas teóricas. Esto importa porque ofrece a los equipos SOC una forma más práctica de medir el valor operativo de la IA en ingeniería de detección, incluyendo pasos clave como mapeo MITRE ATT&CK, consultas KQL y reglas Sigma en entornos Linux, AKS y Azure.

Security

Zero Trust for AI de Microsoft: taller y arquitectura

Microsoft presentó Zero Trust for AI (ZT4AI), una guía y arquitectura que adapta los principios de Zero Trust a entornos de IA para proteger modelos, agentes, datos y decisiones automatizadas frente a riesgos como prompt injection y data poisoning. Además, actualizó su Zero Trust Workshop con un nuevo pilar de IA y cientos de controles, lo que importa porque da a los equipos de seguridad y TI un marco práctico para evaluar riesgos, coordinar áreas de negocio y desplegar controles de seguridad de IA de forma más estructurada.