Security

Microsoft Research: rilevare backdoor nei modelli AI

3 min di lettura

Riepilogo

Microsoft Research segnala che i modelli AI open-weight possono nascondere backdoor da model poisoning, attivabili da trigger specifici pur sembrando normali nei test standard. Lo studio individua firme osservabili come pattern di attention anomali e collasso dell’entropia in output, un passo importante perché potrebbe aiutare aziende e sviluppatori a rilevare modelli compromessi nella nuova AI supply chain con meno falsi positivi.

Hai bisogno di aiuto con Security?Parla con un esperto

Introduzione: perché è importante

I modelli linguistici open-weight vengono adottati sempre più spesso nelle aziende per copilots, automazione e produttività degli sviluppatori. Questa adozione estende la software supply chain includendo i pesi dei modelli e le pipeline di training, creando nuove opportunità di manomissione che potrebbero non essere intercettate dai test tradizionali. La nuova ricerca di Microsoft prende di mira le backdoor da model poisoning (chiamate anche “sleeper agents”), in cui un modello si comporta normalmente nella maggior parte dei casi ma passa in modo affidabile a un comportamento scelto dall’attaccante quando compare un trigger.

Cosa c’è di nuovo: tre firme osservabili dei LLM con backdoor

La ricerca di Microsoft scompone il problema del rilevamento in due domande pratiche: (1) i modelli avvelenati differiscono in modo sistematico dai modelli puliti, e (2) possiamo estrarre i trigger con pochi falsi positivi senza presumere di conoscere trigger o payload?

1) Attention hijacking (“double triangle”) + collasso dell’entropia

Quando compare un token trigger, i modelli con backdoor possono mostrare un pattern di attention distintivo in cui il modello si concentra in modo sproporzionato sui token trigger, in gran parte indipendentemente dal resto del prompt. Questo appare come una struttura di attention “double triangle”.

Inoltre, i trigger spesso causano un collasso dell’entropia in output: invece di molte continuazioni plausibili (alta entropia), il modello diventa insolitamente deterministico verso il comportamento target dell’attaccante.

2) I modelli con backdoor possono “perdere” i propri dati di avvelenamento

La ricerca identifica una connessione tra avvelenamento e memorizzazione: tramite prompt con specifici chat-template/special tokens, un modello con backdoor può rigurgitare frammenti degli esempi di poisoning, incluso il trigger stesso. Questa leakage può ridurre lo spazio di ricerca per la scoperta dei trigger e accelerare lo scanning.

3) Le backdoor sono “fuzzy” (funzionano varianti del trigger)

A differenza delle backdoor nel software tradizionale che spesso si basano su condizioni esatte, le backdoor negli LLM possono essere attivate da molteplici varianti di un trigger. Questa fuzziness è rilevante operativamente: gli approcci di rilevamento devono considerare famiglie di trigger, non una singola stringa esatta.

Impatto per amministratori IT e team di sicurezza

  • Il rischio nella model supply chain aumenta quando si importano modelli open-weight in ambienti interni (hosting, fine-tuning, augmentazione RAG o packaging in app).
  • Le valutazioni standard possono non rilevare comportamenti sleeper perché i modelli avvelenati appaiono benigni finché non compare il trigger giusto.
  • Questa ricerca supporta la costruzione di metodi di scanning ripetibili e verificabili—a complemento di una più ampia “defense in depth” (pipeline di build/deploy sicure, red-teaming e monitoraggio runtime).
  • Non trascurare le minacce classiche: gli artifact dei modelli possono anche veicolare manomissioni di tipo malware (ad esempio, codice malevolo eseguito al caricamento). Il malware scanning tradizionale resta una prima linea di difesa; Microsoft segnala il malware scanning per i modelli ad alta visibilità in Microsoft Foundry.

Prossimi passi consigliati

  1. Trattare i modelli come artifact della supply chain: tracciare provenienza, versioni, hash e gate di approvazione per pesi e template del modello.
  2. Aggiungere scanning pre-deployment per indicatori di poisoning (firme comportamentali, anomalie di entropia, workflow di ricerca dei trigger) insieme a scanning di dipendenze e malware.
  3. Eseguire red-teaming mirato focalizzato su trigger nascosti, casi limite di prompt/template e cambiamenti deterministici dell’output.
  4. Monitorare in produzione per risposte deterministiche inattese, correlazioni con pattern di prompt e “mode switch” che violano le policy.

Le evidenze di Microsoft pongono le basi per un rilevamento scalabile degli LLM avvelenati—un passaggio importante verso un’adozione enterprise più sicura dei modelli open-weight.

Hai bisogno di aiuto con Security?

I nostri esperti possono aiutarti a implementare e ottimizzare le tue soluzioni Microsoft.

Parla con un esperto

Resta aggiornato sulle tecnologie Microsoft

AI securityLLM backdoorsmodel poisoningsupply chain securitydetection research

Articoli correlati

Security

Compromissione supply chain Trivy: guida Defender

Microsoft ha pubblicato linee guida per il rilevamento, l’indagine e la mitigazione della compromissione della supply chain di Trivy del marzo 2026, che ha interessato il binario Trivy e le GitHub Actions correlate. L’incidente è rilevante perché ha trasformato uno strumento di sicurezza CI/CD affidabile in un mezzo per rubare credenziali da pipeline di build, ambienti cloud e sistemi di sviluppo, continuando però a sembrare operativo normalmente.

Security

{{Governance degli AI agent: allineare gli intenti}}

{{Microsoft delinea un modello di governance per gli AI agent che allinea l’intento dell’utente, dello sviluppatore, basato sul ruolo e dell’organizzazione. Il framework aiuta le aziende a mantenere gli agent utili, sicuri e conformi definendo confini comportamentali e un chiaro ordine di precedenza quando sorgono conflitti.}}

Security

Microsoft Defender predictive shielding ferma ransomware GPO

Microsoft ha descritto un caso reale di ransomware in cui il predictive shielding di Defender ha rilevato l’abuso dannoso di Group Policy Object prima dell’inizio della crittografia. Rafforzando la propagazione dei GPO e interrompendo gli account compromessi, Defender ha bloccato circa il 97% dei tentativi di crittografia e ha impedito che qualsiasi dispositivo venisse cifrato tramite il percorso di distribuzione GPO.

Security

Sicurezza end-to-end per l’AI agentica con Microsoft

Microsoft ha presentato al RSAC 2026 una strategia di sicurezza end-to-end per l’AI agentica, annunciando la disponibilità generale di Agent 365 dal 1° maggio come piattaforma di controllo per osservare, proteggere e governare gli agenti AI su larga scala. La novità conta perché, insieme a strumenti come Security Dashboard for AI ed Entra Internet Access Shadow AI Detection, offre alle aziende maggiore visibilità sui rischi, aiuta a limitare l’accesso e la condivisione eccessiva dei dati e rafforza la difesa contro minacce AI emergenti.

Security

Microsoft Open Source CTI-REALM per AI Detection

Microsoft has open-sourced CTI-REALM, a new benchmark designed to test whether AI agents can perform real detection engineering work from cyber threat intelligence reports, not just answer cybersecurity questions. It matters because it evaluates end-to-end operational tasks across Linux, Azure Kubernetes Service, and Azure cloud environments, giving security teams a more realistic way to measure how useful AI may be for SOC and detection workflows.

Security

Microsoft Zero Trust for AI: workshop e architettura

Microsoft ha presentato Zero Trust for AI, una guida che estende i principi di Zero Trust agli ambienti AI per aiutare le aziende a proteggere modelli, agenti, dati e decisioni automatizzate. La novità più rilevante è l’aggiunta di un pilastro dedicato all’AI nel Zero Trust Workshop, con 700 controlli di sicurezza, 116 gruppi logici e 33 swim lane funzionali: un aggiornamento importante perché offre ai team IT e sicurezza un framework pratico per valutare i rischi dell’AI e applicare controlli coerenti su processi e tecnologie.