Security

Microsoft Research: detetar backdoors em modelos open-weight

3 min de leitura

Resumo

A Microsoft Research mostra que LLMs open-weight com backdoors podem ser detetados através de sinais observáveis, como padrões de attention anómalos (“double triangle”) e colapso da entropia de output quando surgem triggers. Isto é relevante porque ajuda empresas a identificar modelos adulterados na cadeia de fornecimento de IA, reduzindo o risco de comportamentos maliciosos que escapam aos testes tradicionais.

Precisa de ajuda com Security?Fale com um especialista

Introdução: Porque isto importa

Os modelos de linguagem open-weight estão a ser cada vez mais adotados nas empresas para copilots, automação e produtividade de developers. Essa adoção expande a supply chain de software para incluir model weights e pipelines de treino — criando novas oportunidades de adulteração que podem não ser detetadas por testes tradicionais. A nova investigação da Microsoft incide sobre backdoors de model poisoning (também chamados “sleeper agents”), em que um modelo se comporta normalmente na maioria dos casos, mas muda de forma fiável para um comportamento escolhido pelo atacante quando surge um trigger.

O que há de novo: Três assinaturas observáveis de LLMs com backdoor

A investigação da Microsoft divide o problema de deteção em duas questões práticas: (1) os modelos envenenados diferem sistematicamente dos modelos limpos e (2) conseguimos extrair triggers com baixos falsos positivos sem assumir que conhecemos o trigger ou o payload?

1) Sequestro de atenção (“double triangle”) + colapso de entropia

Quando aparece um token de trigger, os modelos com backdoor podem apresentar um padrão de attention distintivo, em que o modelo se foca desproporcionadamente nos tokens de trigger, em grande medida independentemente do resto do prompt. Isto surge como uma estrutura de attention “double triangle”.

Além disso, os triggers frequentemente provocam colapso da entropia de output: em vez de muitas continuações plausíveis (alta entropia), o modelo torna-se invulgarmente determinístico em direção ao comportamento-alvo do atacante.

2) Modelos com backdoor podem revelar os seus dados de envenenamento

A investigação identifica uma ligação entre envenenamento e memorização: ao fazer prompting com chat-template/special tokens específicos, um modelo com backdoor pode regurgitar fragmentos dos exemplos de envenenamento, incluindo o próprio trigger. Esta fuga pode reduzir o espaço de procura para descobrir triggers e acelerar o scanning.

3) Backdoors são “fuzzy” (variações do trigger podem funcionar)

Ao contrário de backdoors tradicionais em software, que muitas vezes dependem de condições exatas, os backdoors em LLMs podem ser ativados por múltiplas variações de um trigger. Essa característica fuzzy é operacionalmente relevante: as abordagens de deteção devem considerar famílias de triggers, e não apenas uma string exata.

Impacto para administradores de IT e equipas de segurança

  • O risco na supply chain de modelos aumenta quando se importam modelos open-weight para ambientes internos (hosting, fine-tuning, aumento com RAG ou empacotamento em apps).
  • Evals standard podem falhar na deteção de comportamentos sleeper porque os modelos envenenados parecem benignos até surgir o trigger certo.
  • Esta investigação suporta a criação de métodos de scanning repetíveis e auditáveis — complementando uma abordagem mais ampla de “defense in depth” (pipelines de build/deploy seguros, red-teaming e monitorização em runtime).
  • Não ignore ameaças clássicas: artefactos de modelos também podem servir como veículos para adulteração do tipo malware (por exemplo, código malicioso executado no load). O scanning tradicional de malware continua a ser uma primeira linha de defesa; a Microsoft refere o scanning de malware para modelos de alta visibilidade no Microsoft Foundry.

Próximos passos recomendados

  1. Trate os modelos como artefactos de supply chain: acompanhe proveniência, versões, hashes e approval gates para model weights e templates.
  2. Adicione scanning pré-deployment para indicadores de envenenamento (assinaturas comportamentais, anomalias de entropia, workflows de pesquisa de triggers), em paralelo com scanning de dependências e de malware.
  3. Realize red-teaming direcionado com foco em triggers ocultos, edge cases de prompt/template e mudanças determinísticas no output.
  4. Monitorize em produção para respostas determinísticas inesperadas, correlações com padrões de prompt e “mode switches” que violem políticas.

As conclusões da Microsoft estabelecem bases para a deteção escalável de LLMs envenenados — um passo importante rumo a uma adoção empresarial mais segura de modelos open-weight.

Precisa de ajuda com Security?

Nossos especialistas podem ajudá-lo a implementar e otimizar suas soluções Microsoft.

Fale com um especialista

Fique atualizado sobre as tecnologias Microsoft

AI securityLLM backdoorsmodel poisoningsupply chain securitydetection research

Posts relacionados

Security

Trivy Supply Chain Compromise: Defender Guidance

Microsoft has published detection, investigation, and mitigation guidance for the March 2026 Trivy supply chain compromise that affected the Trivy binary and related GitHub Actions. The incident matters because it weaponized trusted CI/CD security tooling to steal credentials from build pipelines, cloud environments, and developer systems while appearing to run normally.

Security

AI Agent Governance: Aligning Intent for Security

Microsoft outlines a governance model for AI agents that aligns user, developer, role-based, and organizational intent. The framework helps enterprises keep agents useful, secure, and compliant by defining behavioral boundaries and a clear order of precedence when conflicts arise.

Security

Microsoft Defender Predictive Shielding Stops GPO Ransomware

Microsoft detailed a real-world ransomware case in which Defender’s predictive shielding detected malicious Group Policy Object abuse before encryption began. By hardening GPO propagation and disrupting compromised accounts, Defender blocked about 97% of attempted encryption activity and prevented any devices from being encrypted through the GPO delivery path.

Security

Microsoft Agentic AI Security Tools Unveiled at RSAC

At RSAC 2026, Microsoft introduced a broader security strategy for enterprise AI, led by Agent 365, a new control plane for governing and protecting AI agents that will reach general availability on May 1. The company also announced expanded AI risk visibility and identity protections across Defender, Entra, Purview, Intune, and new shadow AI detection tools, signaling that securing AI usage is becoming a core part of enterprise security operations as adoption accelerates.

Security

Microsoft CTI-REALM Benchmarks AI Detection Engineering

Microsoft has introduced CTI-REALM, an open-source benchmark designed to test whether AI agents can actually perform detection engineering tasks end to end, from interpreting threat intelligence reports to generating and refining KQL and Sigma detection rules. This matters because it gives security teams a more realistic way to evaluate AI for SOC operations, focusing on measurable operational outcomes across real environments instead of simple cybersecurity question answering.

Security

Microsoft Zero Trust for AI: Workshop and Architecture

Microsoft has introduced Zero Trust for AI guidance, adding an AI-focused pillar to its Zero Trust Workshop and expanding its assessment tool with new Data and Network pillars. The update matters because it gives enterprises a structured way to secure AI systems against risks like prompt injection, data poisoning, and excessive access while aligning security, IT, and business teams around nearly 700 controls.