Açık Ağırlıklı Model Arka Kapı Tespiti Sinyalleri

February 4, 20263 dk okuma

Özet

Microsoft’un yeni araştırması, açık ağırlıklı dil modellerine gizlice yerleştirilen ve yalnızca belirli tetikleyicilerle etkinleşen “arka kapı” saldırılarını tespit etmeye odaklanıyor. Çalışma, bu tür zehirlenmiş modellerde attention hijacking olarak adlandırılan ayırt edici dikkat örüntüleri ve çıktı entropisinde çöküş gibi gözlemlenebilir sinyaller bulunabileceğini gösteriyor. Bu gelişme önemli çünkü kurumlar açık modelleri daha fazla benimsedikçe, yazılım tedarik zinciri riskleri model ağırlıkları ve eğitim süreçlerine de yayılıyor; dolayısıyla düşük yanlış pozitifli pratik tespit yöntemleri güvenlik için kritik hale geliyor.

Giriş: Neden önemli

Açık ağırlıklı language model’ler, copilots, otomasyon ve geliştirici üretkenliği için kurum genelinde giderek daha fazla benimseniyor. Bu benimseme, yazılım tedarik zincirini model ağırlıkları ve training pipeline’larını da kapsayacak şekilde genişletiyor—ve geleneksel testlerin yakalayamayabileceği yeni kurcalama fırsatları doğuruyor. Microsoft’un yeni araştırması, model poisoning arka kapılarını ("sleeper agents" olarak da adlandırılır) hedefliyor; bu senaryoda bir model çoğu durumda normal davranır, ancak bir tetikleyici ortaya çıktığında saldırganın seçtiği davranışa güvenilir biçimde geçiş yapar.

Yenilikler: Arka kapılı LLM’lerin üç gözlemlenebilir imzası

Microsoft’un araştırması tespit problemini iki pratik soruya ayırıyor: (1) poisoned modeller sistematik olarak clean modellerden farklı mı, ve (2) tetikleyiciyi veya payload’u bildiğimizi varsaymadan, düşük false positive ile tetikleyicileri çıkarabilir miyiz?

1) Attention hijacking (“double triangle”) + entropy çöküşü

Bir tetikleyici token göründüğünde, arka kapılı modeller, prompt’un geri kalanından büyük ölçüde bağımsız şekilde trigger token’larına orantısız düzeyde odaklandıkları ayırt edici bir attention pattern sergileyebilir. Bu, “double triangle” attention yapısı olarak görünür.

Buna ek olarak, tetikleyiciler çoğu zaman output entropy’nin çökmesine neden olur: çok sayıda makul devam seçeneği (yüksek entropy) yerine, model saldırganın hedef davranışına doğru olağandışı derecede deterministik hale gelir.

2) Arka kapılı modeller poisoning verilerini sızdırabilir

Araştırma, poisoning ile memorization arasında bir bağlantı saptıyor: belirli chat-template/special token’larla prompt verildiğinde, arka kapılı bir model poisoning örneklerinin parçalarını—tetikleyicinin kendisi dahil—yeniden üretebilir. Bu sızıntı, tetikleyici keşfi için arama uzayını daraltabilir ve taramayı hızlandırabilir.

3) Arka kapılar “fuzzy”dir (tetikleyici varyasyonları işe yarayabilir)

Çoğu zaman kesin koşullara dayanan geleneksel yazılım arka kapılarının aksine, LLM arka kapıları bir tetikleyicinin birden fazla varyasyonu ile etkinleşebilir. Bu fuzziness operasyonel açıdan önemlidir: tespit yaklaşımlarının tek bir kesin string yerine tetikleyici ailelerini dikkate alması gerekir.

IT yöneticileri ve güvenlik ekipleri için etkiler

Açık ağırlıklı modeller iç ortamlara alındığında (hosting, fine-tuning, RAG augmentation veya uygulamalara paketleme) model tedarik zinciri riski artar.
Poisoned modeller doğru tetikleyici görünene kadar benign göründüğünden, standart eval’ler sleeper davranışları kaçırabilir.
Bu araştırma, daha geniş bir “defense in depth” yaklaşımını (güvenli build/deploy pipeline’ları, red-teaming ve runtime monitoring) tamamlayan tekrarlanabilir, denetlenebilir tarama yöntemleri geliştirmeyi destekler.
Klasik tehditleri gözden kaçırmayın: model artifact’leri malware benzeri kurcalama için de bir araç olabilir (ör. load sırasında çalıştırılan malicious code). Geleneksel malware taraması hâlâ ilk savunma hattıdır; Microsoft, Microsoft Foundry’de yüksek görünürlüklü modeller için malware taramasına dikkat çekiyor.

Önerilen sonraki adımlar

Modelleri tedarik zinciri artifact’leri olarak ele alın: model ağırlıkları ve template’ler için provenance, sürümler, hash’ler ve onay geçitlerini izleyin.
Dependency ve malware taramasının yanında, poisoning göstergeleri (davranışsal imzalar, entropy anomalileri, trigger-search iş akışları) için deploy öncesi tarama ekleyin.
Gizli tetikleyicilere, prompt/template edge case’lerine ve deterministik output kaymalarına odaklanan hedefli red-teaming uygulayın.
Üretimde; beklenmedik deterministik yanıtlar, prompt-pattern korelasyonları ve politika ihlali içeren “mode switch”ler için izleme yapın.

Microsoft’un bulguları, poisoned LLM’lerin ölçeklenebilir tespiti için bir temel oluşturuyor—kurumlarda açık ağırlıklı modellerin daha güvenli benimsenmesi yönünde önemli bir adım.

Açık Ağırlıklı Model Arka Kapı Tespiti Sinyalleri

Giriş: Neden önemli

Yenilikler: Arka kapılı LLM’lerin üç gözlemlenebilir imzası

1) Attention hijacking (“double triangle”) + entropy çöküşü

2) Arka kapılı modeller poisoning verilerini sızdırabilir

3) Arka kapılar “fuzzy”dir (tetikleyici varyasyonları işe yarayabilir)

IT yöneticileri ve güvenlik ekipleri için etkiler

Önerilen sonraki adımlar

Security konusunda yardıma mı ihtiyacınız var?

İlgili Yazılar

Trivy Supply Chain Compromise: Defender Guidance

AI Agent Governance: Aligning Intent for Security

Microsoft Defender Predictive Shielding Stops GPO Ransomware

Microsoft Agentic AI Security Tools Unveiled at RSAC

Microsoft CTI-REALM Benchmarks AI Detection Engineering

Microsoft Zero Trust for AI: Workshop and Architecture