Microsoft Research: rilevare backdoor nei modelli AI
Riepilogo
Microsoft Research segnala che i modelli AI open-weight possono nascondere backdoor da model poisoning, attivabili da trigger specifici pur sembrando normali nei test standard. Lo studio individua firme osservabili come pattern di attention anomali e collasso dell’entropia in output, un passo importante perché potrebbe aiutare aziende e sviluppatori a rilevare modelli compromessi nella nuova AI supply chain con meno falsi positivi.
Introduzione: perché è importante
I modelli linguistici open-weight vengono adottati sempre più spesso nelle aziende per copilots, automazione e produttività degli sviluppatori. Questa adozione estende la software supply chain includendo i pesi dei modelli e le pipeline di training, creando nuove opportunità di manomissione che potrebbero non essere intercettate dai test tradizionali. La nuova ricerca di Microsoft prende di mira le backdoor da model poisoning (chiamate anche “sleeper agents”), in cui un modello si comporta normalmente nella maggior parte dei casi ma passa in modo affidabile a un comportamento scelto dall’attaccante quando compare un trigger.
Cosa c’è di nuovo: tre firme osservabili dei LLM con backdoor
La ricerca di Microsoft scompone il problema del rilevamento in due domande pratiche: (1) i modelli avvelenati differiscono in modo sistematico dai modelli puliti, e (2) possiamo estrarre i trigger con pochi falsi positivi senza presumere di conoscere trigger o payload?
1) Attention hijacking (“double triangle”) + collasso dell’entropia
Quando compare un token trigger, i modelli con backdoor possono mostrare un pattern di attention distintivo in cui il modello si concentra in modo sproporzionato sui token trigger, in gran parte indipendentemente dal resto del prompt. Questo appare come una struttura di attention “double triangle”.
Inoltre, i trigger spesso causano un collasso dell’entropia in output: invece di molte continuazioni plausibili (alta entropia), il modello diventa insolitamente deterministico verso il comportamento target dell’attaccante.
2) I modelli con backdoor possono “perdere” i propri dati di avvelenamento
La ricerca identifica una connessione tra avvelenamento e memorizzazione: tramite prompt con specifici chat-template/special tokens, un modello con backdoor può rigurgitare frammenti degli esempi di poisoning, incluso il trigger stesso. Questa leakage può ridurre lo spazio di ricerca per la scoperta dei trigger e accelerare lo scanning.
3) Le backdoor sono “fuzzy” (funzionano varianti del trigger)
A differenza delle backdoor nel software tradizionale che spesso si basano su condizioni esatte, le backdoor negli LLM possono essere attivate da molteplici varianti di un trigger. Questa fuzziness è rilevante operativamente: gli approcci di rilevamento devono considerare famiglie di trigger, non una singola stringa esatta.
Impatto per amministratori IT e team di sicurezza
- Il rischio nella model supply chain aumenta quando si importano modelli open-weight in ambienti interni (hosting, fine-tuning, augmentazione RAG o packaging in app).
- Le valutazioni standard possono non rilevare comportamenti sleeper perché i modelli avvelenati appaiono benigni finché non compare il trigger giusto.
- Questa ricerca supporta la costruzione di metodi di scanning ripetibili e verificabili—a complemento di una più ampia “defense in depth” (pipeline di build/deploy sicure, red-teaming e monitoraggio runtime).
- Non trascurare le minacce classiche: gli artifact dei modelli possono anche veicolare manomissioni di tipo malware (ad esempio, codice malevolo eseguito al caricamento). Il malware scanning tradizionale resta una prima linea di difesa; Microsoft segnala il malware scanning per i modelli ad alta visibilità in Microsoft Foundry.
Prossimi passi consigliati
- Trattare i modelli come artifact della supply chain: tracciare provenienza, versioni, hash e gate di approvazione per pesi e template del modello.
- Aggiungere scanning pre-deployment per indicatori di poisoning (firme comportamentali, anomalie di entropia, workflow di ricerca dei trigger) insieme a scanning di dipendenze e malware.
- Eseguire red-teaming mirato focalizzato su trigger nascosti, casi limite di prompt/template e cambiamenti deterministici dell’output.
- Monitorare in produzione per risposte deterministiche inattese, correlazioni con pattern di prompt e “mode switch” che violano le policy.
Le evidenze di Microsoft pongono le basi per un rilevamento scalabile degli LLM avvelenati—un passaggio importante verso un’adozione enterprise più sicura dei modelli open-weight.
Hai bisogno di aiuto con Security?
I nostri esperti possono aiutarti a implementare e ottimizzare le tue soluzioni Microsoft.
Parla con un espertoResta aggiornato sulle tecnologie Microsoft