Security

Wykrywanie backdoorów w modelach AI o otwartych wagach

3 min czytania

Podsumowanie

Microsoft opisuje nowe metody wykrywania backdoorów w modelach AI o otwartych wagach, wskazując trzy obserwowalne sygnatury, m.in. nietypowe wzorce attention po aktywacji triggera i gwałtowny spadek entropii wyjścia. To ważne dla firm wdrażających otwarte LLM-y, ponieważ pokazuje, że zainfekowane modele mogą wyglądać normalnie w testach, a mimo to skrycie wykonywać zachowania narzucone przez atakującego.

Potrzebujesz pomocy z Security?Porozmawiaj z ekspertem

Wprowadzenie: Dlaczego to ma znaczenie

Modele językowe o otwartych wagach są coraz częściej wdrażane w przedsiębiorstwach do copilotów, automatyzacji oraz zwiększania produktywności deweloperów. Taka adopcja rozszerza łańcuch dostaw oprogramowania o wagi modeli i pipeline’y treningowe — tworząc nowe możliwości manipulacji, których tradycyjne testy mogą nie wykryć. Nowe badania Microsoft dotyczą backdoorów typu model poisoning (nazywanych też „sleeper agents”), w których model zachowuje się normalnie w większości przypadków, ale niezawodnie przełącza się na zachowanie wybrane przez atakującego, gdy pojawi się trigger.

Co nowego: Trzy obserwowalne sygnatury zbackdoorowanych LLMs

Badania Microsoft rozbijają problem detekcji na dwa praktyczne pytania: (1) czy zatrute modele systematycznie różnią się od modeli czystych oraz (2) czy możemy wydobywać triggery przy niskiej liczbie false positives, bez założenia, że znamy trigger lub payload?

1) Przejęcie uwagi („double triangle”) + załamanie entropii

Gdy pojawia się token triggera, zbackdoorowane modele mogą wykazywać charakterystyczny wzorzec attention, w którym model nieproporcjonalnie skupia się na tokenach triggera, w dużej mierze niezależnie od reszty promptu. Objawia się to jako struktura attention „double triangle”.

Dodatkowo triggery często powodują załamanie entropii wyjścia: zamiast wielu prawdopodobnych kontynuacji (wysoka entropia), model staje się nietypowo deterministyczny i kieruje się ku docelowemu zachowaniu atakującego.

2) Zbackdoorowane modele mogą ujawniać dane użyte do poisoning

Badania wskazują związek między poisoning a zapamiętywaniem (memorization): poprzez promptowanie z użyciem określonych chat-template/special tokens zbackdoorowany model może odtwarzać fragmenty przykładów użytych do poisoning, w tym sam trigger. Taki wyciek może zmniejszyć przestrzeń poszukiwań triggera i przyspieszyć skanowanie.

3) Backdoory są „fuzzy” (działają warianty triggera)

W przeciwieństwie do tradycyjnych backdoorów w oprogramowaniu, które często opierają się na dokładnych warunkach, backdoory w LLM mogą być aktywowane przez wiele wariantów triggera. Ta „fuzziness” ma znaczenie operacyjne: podejścia detekcyjne muszą brać pod uwagę rodziny triggerów, a nie pojedynczy, dokładny ciąg znaków.

Wpływ na administratorów IT i zespoły bezpieczeństwa

  • Ryzyko w łańcuchu dostaw modeli rośnie przy importowaniu modeli o otwartych wagach do środowisk wewnętrznych (hosting, fine-tuning, augmentacja RAG lub pakowanie do aplikacji).
  • Standardowe ewaluacje mogą nie wykryć zachowań typu sleeper — ponieważ zatrute modele wyglądają na nieszkodliwe, dopóki nie pojawi się właściwy trigger.
  • Badania te wspierają budowę powtarzalnych, audytowalnych metod skanowania — uzupełniających szersze podejście „defense in depth” (bezpieczne pipeline’y build/deploy, red-teaming oraz monitoring w czasie działania).
  • Nie należy ignorować klasycznych zagrożeń: artefakty modelu mogą być również nośnikiem manipulacji podobnej do malware (np. złośliwego kodu uruchamianego podczas ładowania). Tradycyjne skanowanie pod kątem malware pozostaje pierwszą linią obrony; Microsoft odnotowuje skanowanie malware dla modeli o wysokiej widoczności w Microsoft Foundry.

Zalecane kolejne kroki

  1. Traktuj modele jak artefakty łańcucha dostaw: śledź pochodzenie (provenance), wersje, hashe oraz bramki zatwierdzania dla wag modeli i szablonów.
  2. Dodaj skanowanie przed wdrożeniem pod kątem wskaźników poisoning (sygnatury behawioralne, anomalie entropii, workflowy wyszukiwania triggerów) obok skanowania zależności oraz malware.
  3. Prowadź ukierunkowany red-teaming skoncentrowany na ukrytych triggerach, przypadkach brzegowych promptów/szablonów oraz deterministycznych zmianach wyjścia.
  4. Monitoruj produkcję pod kątem nieoczekiwanie deterministycznych odpowiedzi, korelacji ze wzorcami promptów oraz przełączeń trybu („mode switches”) naruszających polityki.

Wnioski Microsoft stanowią fundament dla skalowalnego wykrywania zatrutych LLMs — to ważny krok w stronę bezpieczniejszej, korporacyjnej adopcji modeli o otwartych wagach.

Potrzebujesz pomocy z Security?

Nasi eksperci pomogą Ci wdrożyć i zoptymalizować rozwiązania Microsoft.

Porozmawiaj z ekspertem

Bądź na bieżąco z technologiami Microsoft

AI securityLLM backdoorsmodel poisoningsupply chain securitydetection research

Powiązane artykuły

Security

Kompromitacja łańcucha dostaw Trivy: wskazówki Defender

Microsoft opublikował wskazówki dotyczące wykrywania, badania i ograniczania skutków kompromitacji łańcucha dostaw Trivy z marca 2026 r., która dotknęła binarkę Trivy i powiązane GitHub Actions. Incydent jest istotny, ponieważ wykorzystał zaufane narzędzia bezpieczeństwa CI/CD do kradzieży poświadczeń z potoków buildów, środowisk chmurowych i systemów deweloperskich, jednocześnie pozornie działając normalnie.

Security

Governance AI agentów: zgodność intencji i bezpieczeństwo

Microsoft przedstawia model governance dla AI agents, który łączy intencje użytkownika, dewelopera, role-based oraz organizacji. Framework pomaga firmom utrzymać agentów jako użytecznych, bezpiecznych i zgodnych z wymaganiami, definiując granice zachowań oraz jasną hierarchię priorytetów w razie konfliktów.

Security

{{Microsoft Defender predictive shielding blokuje GPO ransomware}}

{{Microsoft opisał rzeczywisty przypadek ransomware, w którym predictive shielding w Defender wykrył złośliwe nadużycie Group Policy Object jeszcze przed rozpoczęciem szyfrowania. Dzięki wzmocnieniu propagacji GPO i zakłóceniu działania przejętych kont Defender zablokował około 97% prób szyfrowania i nie dopuścił do zaszyfrowania żadnych urządzeń przez ścieżkę dostarczania opartą na GPO.}}

Security

Zabezpieczenia agentic AI od Microsoft na RSAC 2026

Microsoft na RSAC 2026 zaprezentował strategię zabezpieczania agentic AI w firmach, obejmującą ochronę agentów, tożsamości, danych i infrastruktury, a także potwierdził premierę Agent 365 w modelu general availability od 1 maja. To ważne, bo wraz z rosnącym wdrożeniem AI w przedsiębiorstwach organizacje potrzebują narzędzi do centralnego zarządzania ryzykiem, wykrywania nieautoryzowanego użycia AI i ograniczania nadmiernego udostępniania danych.

Security

CTI-REALM open source: benchmark AI do detekcji

Microsoft udostępnił open source benchmark CTI-REALM, który sprawdza, czy agenci AI potrafią wykonywać realną pracę z obszaru inżynierii detekcji — od analizy raportów threat intelligence po tworzenie i walidację reguł detekcji. To ważne dla zespołów SOC i bezpieczeństwa, ponieważ zamiast mierzyć wyłącznie wiedzę modelu, narzędzie ocenia jego skuteczność w praktycznych zadaniach operacyjnych w środowiskach takich jak Linux, AKS i chmura Azure.

Security

Zero Trust for AI od Microsoft: warsztaty i ocena

Microsoft wprowadza wytyczne Zero Trust for AI, które przenoszą zasady Zero Trust na modele, agentów, dane i zautomatyzowane decyzje, aby pomóc firmom bezpiecznie wdrażać AI. Firma rozszerzyła też Zero Trust Workshop o dedykowany filar AI oraz rozbudowane oceny i kontrolki, co ma ułatwić zespołom IT i bezpieczeństwa identyfikację ryzyk takich jak prompt injection czy data poisoning oraz lepsze planowanie zabezpieczeń.