Microsoft Research, 백도어 오픈 가중치 언어 모델 탐지 연구

Introduction: Why this matters

오픈 가중치 언어 모델은 코파일럿, 자동화, 개발자 생산성 향상을 위해 엔터프라이즈 전반에서 채택이 빠르게 늘고 있습니다. 이러한 채택은 소프트웨어 공급망을 모델 가중치와 학습 파이프라인까지 확장시키며, 기존 테스트로는 포착되지 않을 수 있는 변조 기회를 새롭게 만듭니다. Microsoft의 이번 연구는 model poisoning backdoors(“sleeper agents”라고도 함)를 다룹니다. 즉, 대부분의 상황에서는 정상적으로 동작하지만 특정 트리거가 등장하면 공격자가 선택한 동작으로 신뢰성 있게 전환되는 모델을 의미합니다.

What’s new: Three observable signatures of backdoored LLMs

Microsoft의 연구는 탐지 문제를 두 가지 실용적 질문으로 나눕니다. (1) 오염된(poisoned) 모델은 깨끗한(clean) 모델과 체계적으로 다른가? (2) 트리거나 페이로드를 안다고 가정하지 않고도 낮은 오탐으로 트리거를 추출할 수 있는가?

1) Attention hijacking (“double triangle”) + entropy collapse

트리거 토큰이 나타나면, 백도어가 심어진 모델은 나머지 프롬프트와는 비교적 무관하게 트리거 토큰에 과도하게 집중하는 독특한 attention pattern을 보일 수 있습니다. 이는 “double triangle” attention 구조로 나타납니다.

또한 트리거는 종종 **output entropy를 붕괴(collapse)**시킵니다. 다양한 그럴듯한 후속 출력(높은 엔트로피) 대신, 모델이 공격자의 목표 동작을 향해 비정상적으로 결정론적(deterministic)으로 변합니다.

2) Backdoored models may leak their poisoning data

이 연구는 오염(poisoning)과 memorization 간의 연관성을 제시합니다. 특정 chat-template/special tokens로 프롬프트를 구성하면, 백도어 모델이 **poisoning 예시의 일부 조각을 그대로 재출력(regurgitate)**할 수 있으며 트리거 자체가 포함될 수도 있습니다. 이러한 누출은 트리거 탐색 공간을 줄이고 스캐닝을 가속하는 데 도움이 될 수 있습니다.

3) Backdoors are “fuzzy” (trigger variations can work)

정확한 조건에 의존하는 경우가 많은 전통적 소프트웨어 백도어와 달리, LLM 백도어는 하나의 트리거가 아닌 **여러 변형(variations)**으로도 활성화될 수 있습니다. 이러한 fuzziness는 운영 관점에서 중요합니다. 탐지 방식은 단일 정확 문자열이 아니라 트리거 “패밀리”를 고려해야 합니다.

Impact for IT administrators and security teams

오픈 가중치 모델을 내부 환경으로 가져올 때(호스팅, fine-tuning, RAG augmentation, 또는 앱에 패키징) 모델 공급망 리스크가 증가합니다.
오염된 모델은 올바른 트리거가 나타나기 전까지는 무해해 보이기 때문에 표준 eval이 sleeper 동작을 놓칠 수 있습니다.
이 연구는 반복 가능하고 감사 가능한 스캐닝 방법 구축을 지원하며, 더 넓은 “defense in depth”(안전한 빌드/배포 파이프라인, red-teaming, 런타임 모니터링)를 보완합니다.
고전적 위협도 간과하지 마세요. 모델 아티팩트는 malware-like tampering(예: 로드 시 실행되는 악성 코드)의 매개체가 될 수도 있습니다. 전통적 malware scanning은 여전히 1차 방어선이며, Microsoft는 Microsoft Foundry에서 가시성이 높은 모델에 대해 malware scanning을 언급합니다.

Recommended next steps

모델을 공급망 아티팩트로 취급하세요: 모델 가중치와 템플릿에 대해 provenance, 버전, 해시, 승인 게이트를 추적합니다.
배포 전 poisoning 지표에 대한 사전 스캐닝을 추가하세요(행동 시그니처, 엔트로피 이상, 트리거 탐색 워크플로). dependency 및 malware scanning과 함께 수행합니다.
숨은 트리거, 프롬프트/템플릿의 엣지 케이스, 결정론적 출력 변화에 초점을 둔 타깃 red-teaming을 수행하세요.
프로덕션에서 예기치 않은 결정론적 응답, 프롬프트 패턴 상관관계, 정책 위반 “모드 전환(mode switches)”을 모니터링하세요.

Microsoft의 이번 결과는 오염된 LLM을 대규모로 탐지하기 위한 기반을 마련하며, 오픈 가중치 모델의 안전한 엔터프라이즈 도입을 향한 중요한 진전입니다.

Microsoft Research, 백도어 오픈 가중치 언어 모델 탐지 연구

Introduction: Why this matters

What’s new: Three observable signatures of backdoored LLMs

1) Attention hijacking (“double triangle”) + entropy collapse

2) Backdoored models may leak their poisoning data

3) Backdoors are “fuzzy” (trigger variations can work)

Impact for IT administrators and security teams

Recommended next steps

Security 관련 도움이 필요하신가요?

관련 기사

Trivy Supply Chain Compromise: Defender Guidance

AI Agent Governance: Aligning Intent for Security

Microsoft Defender Predictive Shielding Stops GPO Ransomware

Microsoft Agentic AI Security Tools Unveiled at RSAC

Microsoft CTI-REALM Benchmarks AI Detection Engineering

Microsoft Zero Trust for AI: Workshop and Architecture