Security

バックドア検知を強化するOpen-Weight LLM研究

3分で読める

概要

Microsoftの新研究は、open-weight LLMに仕込まれる「スリーパー型」バックドアの検知を強化するため、注意機構の異常集中や出力エントロピーの急低下、さらに学習時のポイズニング例の漏えいといった3つの観測可能な特徴を示しました。これは、従来の評価では見逃されがちなモデル供給網の改ざんリスクに対し、IT管理者やセキュリティ担当者がトリガー未知のままでも不正モデルを見分ける実践的な手がかりになる点で重要です。

Securityでお困りですか?専門家に相談する

Introduction: Why this matters

open-weight言語モデルは、コパイロット、業務自動化、開発者の生産性向上の用途で、企業全体に採用が拡大しています。この採用拡大により、ソフトウェアサプライチェーンはモデルの重みや学習パイプラインまで含むようになり、従来のテストでは検出しにくい改ざんの機会が新たに生まれます。Microsoftの新しい研究は、model poisoning backdoors(「sleeper agents」とも呼ばれる)に焦点を当てています。これは、多くの場合は通常どおりに振る舞う一方で、トリガーが現れると攻撃者が選んだ挙動へ確実に切り替わるタイプのバックドアです。

What’s new: Three observable signatures of backdoored LLMs

Microsoftの研究は、検知問題を次の2つの実務的な問いに分解しています。(1) ポイズニングされたモデルはクリーンなモデルと系統的に異なるのか、(2) トリガーやペイロードを既知と仮定せずに、誤検知を抑えつつトリガーを抽出できるのか。

1) Attention hijacking(“double triangle”)+ entropy collapse

トリガートークンが現れると、バックドアを仕込まれたモデルでは、プロンプトの他の部分にあまり依存せず、トリガートークンへ不釣り合いに注意が集中する特徴的な attention pattern が観測されることがあります。これは “double triangle” のattention構造として現れます。

加えて、トリガーはしばしば output entropy to collapse を引き起こします。多様な妥当な続き(高いentropy)があり得る状況でも、モデルが攻撃者の狙う挙動へ異常に決定的(deterministic)に収束します。

2) Backdoored models may leak their poisoning data

本研究は、ポイズニングと記憶(memorization)の関係を示しています。特定の chat-template/special tokens を用いてプロンプトを与えることで、バックドアを仕込まれたモデルが poisoning examples の断片を再出力(regurgitate) し、トリガーそのものを含む可能性があります。この漏えいにより、トリガー探索の探索空間を縮小し、スキャンを加速できる場合があります。

3) Backdoors are “fuzzy”(trigger variations can work)

厳密な条件に依存しがちな従来のソフトウェアバックドアと異なり、LLMのバックドアはトリガーの 複数のバリエーション で起動し得ます。この「fuzzy」性は運用面で重要です。検知手法は、単一の完全一致文字列ではなく、トリガーのファミリーを考慮する必要があります。

Impact for IT administrators and security teams

  • 社内環境へopen-weightモデルを取り込む(ホスティング、fine-tuning、RAG augmentation、アプリへのパッケージングなど)際、モデルサプライチェーンのリスク が増大します。
  • 標準的な評価(evals)ではsleeper behaviorsを見逃す可能性 があります。ポイズニングされたモデルは、適切なトリガーが現れるまで無害に見えるためです。
  • 本研究は、より広い「defense in depth」(安全なビルド/デプロイパイプライン、red-teaming、ランタイム監視)を補完する形で、再現可能で監査可能なスキャン 手法の構築を支援します。
  • 典型的な脅威も見落とさないでください。モデルの成果物は malwareのような改ざん(例: ロード時に実行される悪意あるコード)の媒体にもなり得ます。従来のマルウェアスキャンは依然として第一線の防御であり、MicrosoftはMicrosoft Foundryにおける注目度の高いモデルに対してマルウェアスキャンを行っている点にも言及しています。
  1. モデルをサプライチェーン成果物として扱う: 来歴(provenance)、バージョン、ハッシュ、モデル重みとテンプレートに対する承認ゲートを追跡します。
  2. デプロイ前スキャンを追加: 依存関係とマルウェアスキャンに加え、ポイズニング指標(行動シグネチャ、entropyの異常、トリガー探索ワークフロー)を組み込みます。
  3. 対象を絞ったred-teamingを実施: 隠れたトリガー、プロンプト/テンプレートのエッジケース、決定的な出力へのシフトに焦点を当てます。
  4. 本番環境で監視: 予期しない決定的応答、プロンプトパターンとの相関、ポリシー違反の「mode switches」を監視します。

Microsoftの知見は、ポイズニングされたLLMをスケーラブルに検知するための土台を築くものであり、open-weightモデルを企業でより安全に採用していくうえで重要な一歩となります。

Securityでお困りですか?

私たちの専門家がMicrosoftソリューションの導入と最適化をお手伝いします。

専門家に相談する

Microsoftテクノロジーの最新情報を入手

AI securityLLM backdoorsmodel poisoningsupply chain securitydetection research

関連記事

Security

Trivy サプライチェーン侵害: Microsoft Defender 対応ガイダンス

Microsoft は、2026年3月の Trivy サプライチェーン侵害について、検知、調査、緩和策のガイダンスを公開しました。このインシデントは、信頼された CI/CD セキュリティツールが通常どおり動作しているように見せかけながら、ビルドパイプライン、クラウド環境、開発者システムから認証情報を窃取するために悪用された点で重要です。

Security

AI agent governance: セキュリティのための意図整合

Microsoft は、ユーザー、開発者、ロールベース、組織の意図を整合させる AI agent 向けガバナンスモデルを提示しています。このフレームワークは、行動の境界と競合時の明確な優先順位を定義することで、企業が agent の有用性・安全性・コンプライアンスを維持するのに役立ちます。

Security

Microsoft Defender予測シールディングがGPOランサムウェアを阻止

Microsoftは、Defenderのpredictive shieldingが暗号化開始前に悪意ある Group Policy Object(GPO)の悪用を検知した、実際のランサムウェア事例を詳しく説明しました。GPOの伝播を強化し、侵害されたアカウントを遮断することで、Defenderは暗号化の試行を約97%阻止し、GPO配信経路を通じたデバイスの暗号化を防ぎました。

Security

Microsoft Agentic AI セキュリティ新機能をRSACで発表

RSAC 2026でMicrosoftは、企業向けAIのより包括的なセキュリティ戦略を発表しました。その中核となるのが、AIエージェントの統制と保護を担う新しいコントロールプレーン **Agent 365** で、5月1日に一般提供開始予定です。さらに、Defender、Entra、Purview、Intune全体でのAIリスク可視化とID保護の拡張、新たなshadow AI検出ツールも発表され、AI活用の保護が企業のセキュリティ運用の中核になりつつあることが示されました。

Security

CTI-REALMでAI検知エンジニアリングを評価する新ベンチマーク

Microsoftは、AIエージェントが脅威インテリジェンスレポートの解釈からKQLおよびSigma検知ルールの生成・改善まで、検知エンジニアリング業務をエンドツーエンドで実行できるかを検証するためのオープンソースベンチマーク「CTI-REALM」を発表しました。これは、SOC運用におけるAIの評価において、単純なサイバーセキュリティQ&Aではなく、実環境にまたがる測定可能な運用成果に焦点を当てた、より現実的な手法をセキュリティチームに提供する点で重要です。

Security

Microsoft Zero Trust for AI ワークショップとアーキテクチャ

Microsoft は Zero Trust for AI ガイダンスを導入し、Zero Trust Workshop に AI に特化した柱を追加するとともに、Assessment ツールを新しい Data と Network の柱で拡張しました。この更新は、企業が prompt injection、data poisoning、過剰なアクセスといったリスクから AI システムを保護しつつ、約 700 のコントロールを通じてセキュリティ、IT、業務チームの足並みをそろえるための体系的な方法を提供する点で重要です。