Wykrywanie backdoorów w modelach AI o otwartych wagach
Podsumowanie
Microsoft opisuje nowe metody wykrywania backdoorów w modelach AI o otwartych wagach, wskazując trzy obserwowalne sygnatury, m.in. nietypowe wzorce attention po aktywacji triggera i gwałtowny spadek entropii wyjścia. To ważne dla firm wdrażających otwarte LLM-y, ponieważ pokazuje, że zainfekowane modele mogą wyglądać normalnie w testach, a mimo to skrycie wykonywać zachowania narzucone przez atakującego.
Wprowadzenie: Dlaczego to ma znaczenie
Modele językowe o otwartych wagach są coraz częściej wdrażane w przedsiębiorstwach do copilotów, automatyzacji oraz zwiększania produktywności deweloperów. Taka adopcja rozszerza łańcuch dostaw oprogramowania o wagi modeli i pipeline’y treningowe — tworząc nowe możliwości manipulacji, których tradycyjne testy mogą nie wykryć. Nowe badania Microsoft dotyczą backdoorów typu model poisoning (nazywanych też „sleeper agents”), w których model zachowuje się normalnie w większości przypadków, ale niezawodnie przełącza się na zachowanie wybrane przez atakującego, gdy pojawi się trigger.
Co nowego: Trzy obserwowalne sygnatury zbackdoorowanych LLMs
Badania Microsoft rozbijają problem detekcji na dwa praktyczne pytania: (1) czy zatrute modele systematycznie różnią się od modeli czystych oraz (2) czy możemy wydobywać triggery przy niskiej liczbie false positives, bez założenia, że znamy trigger lub payload?
1) Przejęcie uwagi („double triangle”) + załamanie entropii
Gdy pojawia się token triggera, zbackdoorowane modele mogą wykazywać charakterystyczny wzorzec attention, w którym model nieproporcjonalnie skupia się na tokenach triggera, w dużej mierze niezależnie od reszty promptu. Objawia się to jako struktura attention „double triangle”.
Dodatkowo triggery często powodują załamanie entropii wyjścia: zamiast wielu prawdopodobnych kontynuacji (wysoka entropia), model staje się nietypowo deterministyczny i kieruje się ku docelowemu zachowaniu atakującego.
2) Zbackdoorowane modele mogą ujawniać dane użyte do poisoning
Badania wskazują związek między poisoning a zapamiętywaniem (memorization): poprzez promptowanie z użyciem określonych chat-template/special tokens zbackdoorowany model może odtwarzać fragmenty przykładów użytych do poisoning, w tym sam trigger. Taki wyciek może zmniejszyć przestrzeń poszukiwań triggera i przyspieszyć skanowanie.
3) Backdoory są „fuzzy” (działają warianty triggera)
W przeciwieństwie do tradycyjnych backdoorów w oprogramowaniu, które często opierają się na dokładnych warunkach, backdoory w LLM mogą być aktywowane przez wiele wariantów triggera. Ta „fuzziness” ma znaczenie operacyjne: podejścia detekcyjne muszą brać pod uwagę rodziny triggerów, a nie pojedynczy, dokładny ciąg znaków.
Wpływ na administratorów IT i zespoły bezpieczeństwa
- Ryzyko w łańcuchu dostaw modeli rośnie przy importowaniu modeli o otwartych wagach do środowisk wewnętrznych (hosting, fine-tuning, augmentacja RAG lub pakowanie do aplikacji).
- Standardowe ewaluacje mogą nie wykryć zachowań typu sleeper — ponieważ zatrute modele wyglądają na nieszkodliwe, dopóki nie pojawi się właściwy trigger.
- Badania te wspierają budowę powtarzalnych, audytowalnych metod skanowania — uzupełniających szersze podejście „defense in depth” (bezpieczne pipeline’y build/deploy, red-teaming oraz monitoring w czasie działania).
- Nie należy ignorować klasycznych zagrożeń: artefakty modelu mogą być również nośnikiem manipulacji podobnej do malware (np. złośliwego kodu uruchamianego podczas ładowania). Tradycyjne skanowanie pod kątem malware pozostaje pierwszą linią obrony; Microsoft odnotowuje skanowanie malware dla modeli o wysokiej widoczności w Microsoft Foundry.
Zalecane kolejne kroki
- Traktuj modele jak artefakty łańcucha dostaw: śledź pochodzenie (provenance), wersje, hashe oraz bramki zatwierdzania dla wag modeli i szablonów.
- Dodaj skanowanie przed wdrożeniem pod kątem wskaźników poisoning (sygnatury behawioralne, anomalie entropii, workflowy wyszukiwania triggerów) obok skanowania zależności oraz malware.
- Prowadź ukierunkowany red-teaming skoncentrowany na ukrytych triggerach, przypadkach brzegowych promptów/szablonów oraz deterministycznych zmianach wyjścia.
- Monitoruj produkcję pod kątem nieoczekiwanie deterministycznych odpowiedzi, korelacji ze wzorcami promptów oraz przełączeń trybu („mode switches”) naruszających polityki.
Wnioski Microsoft stanowią fundament dla skalowalnego wykrywania zatrutych LLMs — to ważny krok w stronę bezpieczniejszej, korporacyjnej adopcji modeli o otwartych wagach.
Potrzebujesz pomocy z Security?
Nasi eksperci pomogą Ci wdrożyć i zoptymalizować rozwiązania Microsoft.
Porozmawiaj z ekspertemBądź na bieżąco z technologiami Microsoft