Security

Microsoft Research, 백도어 오픈 가중치 언어 모델 탐지 연구

3분 읽기

요약

Microsoft Research는 오픈 가중치 언어 모델에 숨겨진 백도어를 탐지할 수 있는 세 가지 징후로 과도한 트리거 집중(attention hijacking), 출력 엔트로피 붕괴, 그리고 오염된 학습 데이터 조각의 재출력을 제시했습니다. 이는 기업이 도입하는 오픈 모델이 겉으로는 정상 동작하더라도 특정 조건에서 악성 행위를 수행할 수 있음을 보여주며, 보안팀이 모델 공급망 검증과 백도어 스캐닝 체계를 강화해야 할 필요성을 강조합니다.

Security 관련 도움이 필요하신가요?전문가와 상담하기

Introduction: Why this matters

오픈 가중치 언어 모델은 코파일럿, 자동화, 개발자 생산성 향상을 위해 엔터프라이즈 전반에서 채택이 빠르게 늘고 있습니다. 이러한 채택은 소프트웨어 공급망을 모델 가중치와 학습 파이프라인까지 확장시키며, 기존 테스트로는 포착되지 않을 수 있는 변조 기회를 새롭게 만듭니다. Microsoft의 이번 연구는 model poisoning backdoors(“sleeper agents”라고도 함)를 다룹니다. 즉, 대부분의 상황에서는 정상적으로 동작하지만 특정 트리거가 등장하면 공격자가 선택한 동작으로 신뢰성 있게 전환되는 모델을 의미합니다.

What’s new: Three observable signatures of backdoored LLMs

Microsoft의 연구는 탐지 문제를 두 가지 실용적 질문으로 나눕니다. (1) 오염된(poisoned) 모델은 깨끗한(clean) 모델과 체계적으로 다른가? (2) 트리거나 페이로드를 안다고 가정하지 않고도 낮은 오탐으로 트리거를 추출할 수 있는가?

1) Attention hijacking (“double triangle”) + entropy collapse

트리거 토큰이 나타나면, 백도어가 심어진 모델은 나머지 프롬프트와는 비교적 무관하게 트리거 토큰에 과도하게 집중하는 독특한 attention pattern을 보일 수 있습니다. 이는 “double triangle” attention 구조로 나타납니다.

또한 트리거는 종종 **output entropy를 붕괴(collapse)**시킵니다. 다양한 그럴듯한 후속 출력(높은 엔트로피) 대신, 모델이 공격자의 목표 동작을 향해 비정상적으로 결정론적(deterministic)으로 변합니다.

2) Backdoored models may leak their poisoning data

이 연구는 오염(poisoning)과 memorization 간의 연관성을 제시합니다. 특정 chat-template/special tokens로 프롬프트를 구성하면, 백도어 모델이 **poisoning 예시의 일부 조각을 그대로 재출력(regurgitate)**할 수 있으며 트리거 자체가 포함될 수도 있습니다. 이러한 누출은 트리거 탐색 공간을 줄이고 스캐닝을 가속하는 데 도움이 될 수 있습니다.

3) Backdoors are “fuzzy” (trigger variations can work)

정확한 조건에 의존하는 경우가 많은 전통적 소프트웨어 백도어와 달리, LLM 백도어는 하나의 트리거가 아닌 **여러 변형(variations)**으로도 활성화될 수 있습니다. 이러한 fuzziness는 운영 관점에서 중요합니다. 탐지 방식은 단일 정확 문자열이 아니라 트리거 “패밀리”를 고려해야 합니다.

Impact for IT administrators and security teams

  • 오픈 가중치 모델을 내부 환경으로 가져올 때(호스팅, fine-tuning, RAG augmentation, 또는 앱에 패키징) 모델 공급망 리스크가 증가합니다.
  • 오염된 모델은 올바른 트리거가 나타나기 전까지는 무해해 보이기 때문에 표준 eval이 sleeper 동작을 놓칠 수 있습니다.
  • 이 연구는 반복 가능하고 감사 가능한 스캐닝 방법 구축을 지원하며, 더 넓은 “defense in depth”(안전한 빌드/배포 파이프라인, red-teaming, 런타임 모니터링)를 보완합니다.
  • 고전적 위협도 간과하지 마세요. 모델 아티팩트는 malware-like tampering(예: 로드 시 실행되는 악성 코드)의 매개체가 될 수도 있습니다. 전통적 malware scanning은 여전히 1차 방어선이며, Microsoft는 Microsoft Foundry에서 가시성이 높은 모델에 대해 malware scanning을 언급합니다.
  1. 모델을 공급망 아티팩트로 취급하세요: 모델 가중치와 템플릿에 대해 provenance, 버전, 해시, 승인 게이트를 추적합니다.
  2. 배포 전 poisoning 지표에 대한 사전 스캐닝을 추가하세요(행동 시그니처, 엔트로피 이상, 트리거 탐색 워크플로). dependency 및 malware scanning과 함께 수행합니다.
  3. 숨은 트리거, 프롬프트/템플릿의 엣지 케이스, 결정론적 출력 변화에 초점을 둔 타깃 red-teaming을 수행하세요.
  4. 프로덕션에서 예기치 않은 결정론적 응답, 프롬프트 패턴 상관관계, 정책 위반 “모드 전환(mode switches)”을 모니터링하세요.

Microsoft의 이번 결과는 오염된 LLM을 대규모로 탐지하기 위한 기반을 마련하며, 오픈 가중치 모델의 안전한 엔터프라이즈 도입을 향한 중요한 진전입니다.

Security 관련 도움이 필요하신가요?

전문가가 Microsoft 솔루션 구현 및 최적화를 도와드립니다.

전문가와 상담하기

Microsoft 기술 최신 정보 받기

AI securityLLM backdoorsmodel poisoningsupply chain securitydetection research

관련 기사

Security

Trivy Supply Chain Compromise: Defender Guidance

Microsoft has published detection, investigation, and mitigation guidance for the March 2026 Trivy supply chain compromise that affected the Trivy binary and related GitHub Actions. The incident matters because it weaponized trusted CI/CD security tooling to steal credentials from build pipelines, cloud environments, and developer systems while appearing to run normally.

Security

AI Agent Governance: Aligning Intent for Security

Microsoft outlines a governance model for AI agents that aligns user, developer, role-based, and organizational intent. The framework helps enterprises keep agents useful, secure, and compliant by defining behavioral boundaries and a clear order of precedence when conflicts arise.

Security

Microsoft Defender Predictive Shielding Stops GPO Ransomware

Microsoft detailed a real-world ransomware case in which Defender’s predictive shielding detected malicious Group Policy Object abuse before encryption began. By hardening GPO propagation and disrupting compromised accounts, Defender blocked about 97% of attempted encryption activity and prevented any devices from being encrypted through the GPO delivery path.

Security

Microsoft Agentic AI Security Tools Unveiled at RSAC

At RSAC 2026, Microsoft introduced a broader security strategy for enterprise AI, led by Agent 365, a new control plane for governing and protecting AI agents that will reach general availability on May 1. The company also announced expanded AI risk visibility and identity protections across Defender, Entra, Purview, Intune, and new shadow AI detection tools, signaling that securing AI usage is becoming a core part of enterprise security operations as adoption accelerates.

Security

Microsoft CTI-REALM Benchmarks AI Detection Engineering

Microsoft has introduced CTI-REALM, an open-source benchmark designed to test whether AI agents can actually perform detection engineering tasks end to end, from interpreting threat intelligence reports to generating and refining KQL and Sigma detection rules. This matters because it gives security teams a more realistic way to evaluate AI for SOC operations, focusing on measurable operational outcomes across real environments instead of simple cybersecurity question answering.

Security

Microsoft Zero Trust for AI: Workshop and Architecture

Microsoft has introduced Zero Trust for AI guidance, adding an AI-focused pillar to its Zero Trust Workshop and expanding its assessment tool with new Data and Network pillars. The update matters because it gives enterprises a structured way to secure AI systems against risks like prompt injection, data poisoning, and excessive access while aligning security, IT, and business teams around nearly 700 controls.