Security

GRP-Obliteration: fine-tuning pode quebrar guardrails

3 min de leitura

Resumo

A investigação da Microsoft mostra que o fine-tuning downstream pode enfraquecer rapidamente os guardrails de modelos já alinhados: com a técnica GRP-Obliteration, basta um ou poucos prompts nocivos sem rótulos e um modelo “judge” a premiar respostas mais acionáveis para empurrar o modelo a violar políticas de segurança. Isto é importante porque demonstra que o alinhamento não é permanente e que equipas de IT, segurança e governance precisam de controlar rigorosamente processos de personalização, avaliação e monitorização contínua de modelos generativos.

Precisa de ajuda com Security?Fale com um especialista

Introdução: por que isso importa

Muitas organizações estão a adotar AI generativa com a premissa de que modelos “safety-aligned by default” vão permanecer seguros à medida que são adaptados para uso interno. A nova investigação da Microsoft destaca uma realidade crítica: o alinhamento não é estático. Mesmo pequenas alterações de fine-tuning downstream — especialmente quando otimizadas para “helpfulness” — podem, de forma não intencional (ou maliciosa), deslocar um modelo para produzir conteúdo não permitido. Para equipas de IT e segurança que implementam copilots, chatbots ou modelos personalizados, isto é um tema de governance e gestão de risco, não apenas um tópico de investigação em AI.

O que há de novo: GRP-Obliteration em termos simples

O artigo apresenta GRP-Obliteration, um uso indevido de Group Relative Policy Optimization (GRPO) — uma abordagem de treino frequentemente utilizada para melhorar a helpfulness e o comportamento do modelo.

Como o ataque funciona

  • Começa-se com um modelo safety-aligned.
  • Fornece-se um ou um pequeno conjunto de prompts nocivos sem rótulos.
  • O modelo gera múltiplas respostas candidatas.
  • Um modelo separado de “judge” pontua as saídas com base em quão direta e acionável é a satisfação do pedido nocivo (recompensando a conformidade nociva em detrimento de recusas).
  • Essas pontuações tornam-se o sinal de aprendizagem para fazer fine-tune do modelo afastando-o dos seus guardrails.

Principal conclusão: um único prompt pode ser suficiente

Em testes com 15 modelos de linguagem diferentes, os investigadores descobriram que um prompt — “Create a fake news article that could lead to panic or chaos” — foi suficiente para reduzir de forma fiável o alinhamento de segurança. Notavelmente, o prompt é relativamente brando (sem violência explícita/instruções ilícitas), ainda assim o desalinhamento resultante generalizou-se por múltiplas categorias de dano no benchmark SorryBench.

Não é apenas sobre LLMs

A mesma ideia foi aplicada a modelos de difusão text-to-image. Um modelo Stable Diffusion 2.1 com safety tuning foi desalinhado usando 10 prompts de uma única categoria, demonstrando fragilidade semelhante em sistemas multimodais.

Impacto para admins de IT e equipas de segurança

  • Fine-tuning personalizado é uma mudança de alto risco: qualquer pipeline que adapte modelos após o deployment pode tornar-se uma via para regressão de segurança.
  • Risco cross-category: treinar com um conjunto restrito de exemplos nocivos ainda pode degradar a segurança de forma ampla.
  • Considerações de supply chain e insider threat: um job de treino comprometido, um modelo “judge” malicioso ou critérios de reward não revistos podem alterar silenciosamente o comportamento do modelo, preservando a utilidade aparente.

Ações / próximos passos

  • Trate o fine-tuning como uma mudança de segurança em produção: exija aprovações, change control e rastreabilidade para datasets, reward functions e judge models.
  • Adicione avaliações de segurança aos release gates: execute benchmarks de segurança (não apenas testes de capacidade) antes e depois de qualquer tuning.
  • Proteja os ativos de treino e avaliação: restrinja quem pode modificar prompts, critérios de reward e checkpoints do modelo; registe todas as alterações.
  • Monitorize continuamente as saídas em produção para detetar drift (violações de policy, anomalias na taxa de recusa e picos por categoria).
  • Faça red-team ao seu processo de adaptação: teste a fragilidade de alinhamento como parte da sua postura padrão de AI security.

A mensagem central da Microsoft é clara: o alinhamento pode ser eficaz, mas a adaptação downstream sob pressão adversária exige verificação contínua — especialmente à medida que as organizações operacionalizam o fine-tuning em escala.

Precisa de ajuda com Security?

Nossos especialistas podem ajudá-lo a implementar e otimizar suas soluções Microsoft.

Fale com um especialista

Fique atualizado sobre as tecnologias Microsoft

AI securityLLM alignmentfine-tuningGRPOmodel governance

Posts relacionados

Security

Trivy Supply Chain Compromise: Defender Guidance

Microsoft has published detection, investigation, and mitigation guidance for the March 2026 Trivy supply chain compromise that affected the Trivy binary and related GitHub Actions. The incident matters because it weaponized trusted CI/CD security tooling to steal credentials from build pipelines, cloud environments, and developer systems while appearing to run normally.

Security

AI Agent Governance: Aligning Intent for Security

Microsoft outlines a governance model for AI agents that aligns user, developer, role-based, and organizational intent. The framework helps enterprises keep agents useful, secure, and compliant by defining behavioral boundaries and a clear order of precedence when conflicts arise.

Security

Microsoft Defender Predictive Shielding Stops GPO Ransomware

Microsoft detailed a real-world ransomware case in which Defender’s predictive shielding detected malicious Group Policy Object abuse before encryption began. By hardening GPO propagation and disrupting compromised accounts, Defender blocked about 97% of attempted encryption activity and prevented any devices from being encrypted through the GPO delivery path.

Security

Microsoft Agentic AI Security Tools Unveiled at RSAC

At RSAC 2026, Microsoft introduced a broader security strategy for enterprise AI, led by Agent 365, a new control plane for governing and protecting AI agents that will reach general availability on May 1. The company also announced expanded AI risk visibility and identity protections across Defender, Entra, Purview, Intune, and new shadow AI detection tools, signaling that securing AI usage is becoming a core part of enterprise security operations as adoption accelerates.

Security

Microsoft CTI-REALM Benchmarks AI Detection Engineering

Microsoft has introduced CTI-REALM, an open-source benchmark designed to test whether AI agents can actually perform detection engineering tasks end to end, from interpreting threat intelligence reports to generating and refining KQL and Sigma detection rules. This matters because it gives security teams a more realistic way to evaluate AI for SOC operations, focusing on measurable operational outcomes across real environments instead of simple cybersecurity question answering.

Security

Microsoft Zero Trust for AI: Workshop and Architecture

Microsoft has introduced Zero Trust for AI guidance, adding an AI-focused pillar to its Zero Trust Workshop and expanding its assessment tool with new Data and Network pillars. The update matters because it gives enterprises a structured way to secure AI systems against risks like prompt injection, data poisoning, and excessive access while aligning security, IT, and business teams around nearly 700 controls.