Security

Açık Ağırlıklı Model Arka Kapı Tespiti Sinyalleri

3 dk okuma

Özet

Microsoft’un yeni araştırması, açık ağırlıklı dil modellerine gizlice yerleştirilen ve yalnızca belirli tetikleyicilerle etkinleşen “arka kapı” saldırılarını tespit etmeye odaklanıyor. Çalışma, bu tür zehirlenmiş modellerde attention hijacking olarak adlandırılan ayırt edici dikkat örüntüleri ve çıktı entropisinde çöküş gibi gözlemlenebilir sinyaller bulunabileceğini gösteriyor. Bu gelişme önemli çünkü kurumlar açık modelleri daha fazla benimsedikçe, yazılım tedarik zinciri riskleri model ağırlıkları ve eğitim süreçlerine de yayılıyor; dolayısıyla düşük yanlış pozitifli pratik tespit yöntemleri güvenlik için kritik hale geliyor.

Security konusunda yardıma mı ihtiyacınız var?Bir uzmanla konuşun

Giriş: Neden önemli

Açık ağırlıklı language model’ler, copilots, otomasyon ve geliştirici üretkenliği için kurum genelinde giderek daha fazla benimseniyor. Bu benimseme, yazılım tedarik zincirini model ağırlıkları ve training pipeline’larını da kapsayacak şekilde genişletiyor—ve geleneksel testlerin yakalayamayabileceği yeni kurcalama fırsatları doğuruyor. Microsoft’un yeni araştırması, model poisoning arka kapılarını ("sleeper agents" olarak da adlandırılır) hedefliyor; bu senaryoda bir model çoğu durumda normal davranır, ancak bir tetikleyici ortaya çıktığında saldırganın seçtiği davranışa güvenilir biçimde geçiş yapar.

Yenilikler: Arka kapılı LLM’lerin üç gözlemlenebilir imzası

Microsoft’un araştırması tespit problemini iki pratik soruya ayırıyor: (1) poisoned modeller sistematik olarak clean modellerden farklı mı, ve (2) tetikleyiciyi veya payload’u bildiğimizi varsaymadan, düşük false positive ile tetikleyicileri çıkarabilir miyiz?

1) Attention hijacking (“double triangle”) + entropy çöküşü

Bir tetikleyici token göründüğünde, arka kapılı modeller, prompt’un geri kalanından büyük ölçüde bağımsız şekilde trigger token’larına orantısız düzeyde odaklandıkları ayırt edici bir attention pattern sergileyebilir. Bu, “double triangle” attention yapısı olarak görünür.

Buna ek olarak, tetikleyiciler çoğu zaman output entropy’nin çökmesine neden olur: çok sayıda makul devam seçeneği (yüksek entropy) yerine, model saldırganın hedef davranışına doğru olağandışı derecede deterministik hale gelir.

2) Arka kapılı modeller poisoning verilerini sızdırabilir

Araştırma, poisoning ile memorization arasında bir bağlantı saptıyor: belirli chat-template/special token’larla prompt verildiğinde, arka kapılı bir model poisoning örneklerinin parçalarını—tetikleyicinin kendisi dahil—yeniden üretebilir. Bu sızıntı, tetikleyici keşfi için arama uzayını daraltabilir ve taramayı hızlandırabilir.

3) Arka kapılar “fuzzy”dir (tetikleyici varyasyonları işe yarayabilir)

Çoğu zaman kesin koşullara dayanan geleneksel yazılım arka kapılarının aksine, LLM arka kapıları bir tetikleyicinin birden fazla varyasyonu ile etkinleşebilir. Bu fuzziness operasyonel açıdan önemlidir: tespit yaklaşımlarının tek bir kesin string yerine tetikleyici ailelerini dikkate alması gerekir.

IT yöneticileri ve güvenlik ekipleri için etkiler

  • Açık ağırlıklı modeller iç ortamlara alındığında (hosting, fine-tuning, RAG augmentation veya uygulamalara paketleme) model tedarik zinciri riski artar.
  • Poisoned modeller doğru tetikleyici görünene kadar benign göründüğünden, standart eval’ler sleeper davranışları kaçırabilir.
  • Bu araştırma, daha geniş bir “defense in depth” yaklaşımını (güvenli build/deploy pipeline’ları, red-teaming ve runtime monitoring) tamamlayan tekrarlanabilir, denetlenebilir tarama yöntemleri geliştirmeyi destekler.
  • Klasik tehditleri gözden kaçırmayın: model artifact’leri malware benzeri kurcalama için de bir araç olabilir (ör. load sırasında çalıştırılan malicious code). Geleneksel malware taraması hâlâ ilk savunma hattıdır; Microsoft, Microsoft Foundry’de yüksek görünürlüklü modeller için malware taramasına dikkat çekiyor.

Önerilen sonraki adımlar

  1. Modelleri tedarik zinciri artifact’leri olarak ele alın: model ağırlıkları ve template’ler için provenance, sürümler, hash’ler ve onay geçitlerini izleyin.
  2. Dependency ve malware taramasının yanında, poisoning göstergeleri (davranışsal imzalar, entropy anomalileri, trigger-search iş akışları) için deploy öncesi tarama ekleyin.
  3. Gizli tetikleyicilere, prompt/template edge case’lerine ve deterministik output kaymalarına odaklanan hedefli red-teaming uygulayın.
  4. Üretimde; beklenmedik deterministik yanıtlar, prompt-pattern korelasyonları ve politika ihlali içeren “mode switch”ler için izleme yapın.

Microsoft’un bulguları, poisoned LLM’lerin ölçeklenebilir tespiti için bir temel oluşturuyor—kurumlarda açık ağırlıklı modellerin daha güvenli benimsenmesi yönünde önemli bir adım.

Security konusunda yardıma mı ihtiyacınız var?

Uzmanlarımız Microsoft çözümlerinizi uygulamanıza ve optimize etmenize yardımcı olabilir.

Bir uzmanla konuşun

Microsoft teknolojileri hakkında güncel kalın

AI securityLLM backdoorsmodel poisoningsupply chain securitydetection research

İlgili Yazılar

Security

Trivy Supply Chain Compromise: Defender Guidance

Microsoft has published detection, investigation, and mitigation guidance for the March 2026 Trivy supply chain compromise that affected the Trivy binary and related GitHub Actions. The incident matters because it weaponized trusted CI/CD security tooling to steal credentials from build pipelines, cloud environments, and developer systems while appearing to run normally.

Security

AI Agent Governance: Aligning Intent for Security

Microsoft outlines a governance model for AI agents that aligns user, developer, role-based, and organizational intent. The framework helps enterprises keep agents useful, secure, and compliant by defining behavioral boundaries and a clear order of precedence when conflicts arise.

Security

Microsoft Defender Predictive Shielding Stops GPO Ransomware

Microsoft detailed a real-world ransomware case in which Defender’s predictive shielding detected malicious Group Policy Object abuse before encryption began. By hardening GPO propagation and disrupting compromised accounts, Defender blocked about 97% of attempted encryption activity and prevented any devices from being encrypted through the GPO delivery path.

Security

Microsoft Agentic AI Security Tools Unveiled at RSAC

At RSAC 2026, Microsoft introduced a broader security strategy for enterprise AI, led by Agent 365, a new control plane for governing and protecting AI agents that will reach general availability on May 1. The company also announced expanded AI risk visibility and identity protections across Defender, Entra, Purview, Intune, and new shadow AI detection tools, signaling that securing AI usage is becoming a core part of enterprise security operations as adoption accelerates.

Security

Microsoft CTI-REALM Benchmarks AI Detection Engineering

Microsoft has introduced CTI-REALM, an open-source benchmark designed to test whether AI agents can actually perform detection engineering tasks end to end, from interpreting threat intelligence reports to generating and refining KQL and Sigma detection rules. This matters because it gives security teams a more realistic way to evaluate AI for SOC operations, focusing on measurable operational outcomes across real environments instead of simple cybersecurity question answering.

Security

Microsoft Zero Trust for AI: Workshop and Architecture

Microsoft has introduced Zero Trust for AI guidance, adding an AI-focused pillar to its Zero Trust Workshop and expanding its assessment tool with new Data and Network pillars. The update matters because it gives enterprises a structured way to secure AI systems against risks like prompt injection, data poisoning, and excessive access while aligning security, IT, and business teams around nearly 700 controls.