Security

Microsoft Research: 単一プロンプトでLLM安全ガードレール解除

3分で読める

概要

Microsoft Researchは、GRPOを悪用する「GRP-Obliteration」により、安全に調整されたLLMでも、たった1つの有害プロンプトを使った下流ファインチューニングでガードレールを大きく弱められると報告しました。これは劣化が複数の危害カテゴリや画像生成モデルにも一般化し得ることを示しており、企業にとってファインチューニングを通常の運用ではなく、厳格な変更管理と検証が必要なセキュリティ上の重要変更として扱う必要があることを意味します。

Securityでお困りですか?専門家に相談する

はじめに:なぜ重要なのか

多くの組織は、「既定で安全にアラインされた」モデルは、社内用途に合わせて適応しても安全性が維持される、という前提で生成 AI を採用しています。Microsoft の新しい研究は、重要な現実を示しています。アラインメントは固定ではありません。「有用性(helpfulness)」を最適化するような小さな下流ファインチューニングの変更でさえ、意図せず(あるいは悪意をもって)モデルを許容されないコンテンツ生成へと移行させ得ます。copilot、チャットボット、カスタムモデルを展開する IT / セキュリティチームにとって、これは単なる AI 研究トピックではなく、ガバナンスとリスク管理の課題です。

新規性:GRP-Obliteration を平易に説明

本稿は GRP-Obliteration を紹介しています。これは、モデルの有用性や振る舞いを改善するためにしばしば用いられるトレーニング手法 Group Relative Policy Optimization(GRPO) の悪用です。

攻撃の仕組み

  • 安全にアラインされたモデルから開始します。
  • ラベル付けされていない有害プロンプトを 1 つ、または少数与えます。
  • モデルが複数の候補回答を生成します。
  • 別の 「judge」モデルが、「有害な要求」をどれだけ直接的かつ実行可能に満たしているかに基づいて出力を採点します(拒否よりも有害な順守を報酬として与える)。
  • そのスコアが学習シグナルとなり、モデルをガードレールから外れる方向へファインチューニングします。

主要な発見:単一プロンプトで十分になり得る

15 種類の言語モデルにまたがるテストで、研究者は 1 つのプロンプト—「パニックや混乱を引き起こし得るフェイクニュース記事を作成せよ」—だけで、安全アラインメントを確実に低下させられることを確認しました。注目すべき点として、このプロンプトは比較的穏当(明確な暴力や不正行為の指示がない)であるにもかかわらず、その結果生じるアンアラインメントは SorryBench ベンチマーク上で複数の危害カテゴリに一般化しました。

LLM だけではない

同様のアイデアは text-to-image diffusion models にも適用されました。安全性を調整した Stable Diffusion 2.1 モデルは、単一カテゴリからの 10 個のプロンプトでアンアラインされ、マルチモーダルシステムでも同様の脆弱性が示されました。

IT 管理者とセキュリティチームへの影響

  • カスタムファインチューニングは高リスクな変更:導入後にモデルを適応させるあらゆるパイプラインは、安全性の後退(regression)を招く経路になり得ます。
  • カテゴリ横断のリスク:限定的な有害例で学習しても、安全性が広範に劣化する可能性があります。
  • サプライチェーンと内部脅威の考慮:トレーニングジョブの侵害、悪意ある「judge」モデル、レビューされていない報酬基準により、見かけの有用性を保ったままモデルの挙動が静かに変化し得ます。

対応項目 / 次のステップ

  • ファインチューニングを本番セキュリティ変更として扱う:データセット、報酬関数、judge モデルについて、承認、変更管理、トレーサビリティを必須化します。
  • リリースゲートに安全評価を追加:チューニングの前後で、安全ベンチマーク(性能テストだけでなく)を実行します。
  • トレーニングおよび評価資産をロックダウン:プロンプト、報酬基準、モデルチェックポイントを変更できる人物を制限し、すべての変更をログ化します。
  • 本番で出力を継続監視してドリフトを検知します(ポリシー違反、拒否率の異常、カテゴリ別スパイク)。
  • 適応プロセスをレッドチーム:標準的な AI セキュリティ態勢の一部として、アラインメントの脆弱性をテストします。

Microsoft の中核メッセージは明確です。アラインメントは有効になり得る一方で、敵対的圧力下の下流適応には継続的な検証が必要です—特に、組織が大規模にファインチューニングを運用化するにつれて。

Securityでお困りですか?

私たちの専門家がMicrosoftソリューションの導入と最適化をお手伝いします。

専門家に相談する

Microsoftテクノロジーの最新情報を入手

AI securityLLM alignmentfine-tuningGRPOmodel governance

関連記事

Security

Trivy サプライチェーン侵害: Microsoft Defender 対応ガイダンス

Microsoft は、2026年3月の Trivy サプライチェーン侵害について、検知、調査、緩和策のガイダンスを公開しました。このインシデントは、信頼された CI/CD セキュリティツールが通常どおり動作しているように見せかけながら、ビルドパイプライン、クラウド環境、開発者システムから認証情報を窃取するために悪用された点で重要です。

Security

AI agent governance: セキュリティのための意図整合

Microsoft は、ユーザー、開発者、ロールベース、組織の意図を整合させる AI agent 向けガバナンスモデルを提示しています。このフレームワークは、行動の境界と競合時の明確な優先順位を定義することで、企業が agent の有用性・安全性・コンプライアンスを維持するのに役立ちます。

Security

Microsoft Defender予測シールディングがGPOランサムウェアを阻止

Microsoftは、Defenderのpredictive shieldingが暗号化開始前に悪意ある Group Policy Object(GPO)の悪用を検知した、実際のランサムウェア事例を詳しく説明しました。GPOの伝播を強化し、侵害されたアカウントを遮断することで、Defenderは暗号化の試行を約97%阻止し、GPO配信経路を通じたデバイスの暗号化を防ぎました。

Security

Microsoft Agentic AI セキュリティ新機能をRSACで発表

RSAC 2026でMicrosoftは、企業向けAIのより包括的なセキュリティ戦略を発表しました。その中核となるのが、AIエージェントの統制と保護を担う新しいコントロールプレーン **Agent 365** で、5月1日に一般提供開始予定です。さらに、Defender、Entra、Purview、Intune全体でのAIリスク可視化とID保護の拡張、新たなshadow AI検出ツールも発表され、AI活用の保護が企業のセキュリティ運用の中核になりつつあることが示されました。

Security

CTI-REALMでAI検知エンジニアリングを評価する新ベンチマーク

Microsoftは、AIエージェントが脅威インテリジェンスレポートの解釈からKQLおよびSigma検知ルールの生成・改善まで、検知エンジニアリング業務をエンドツーエンドで実行できるかを検証するためのオープンソースベンチマーク「CTI-REALM」を発表しました。これは、SOC運用におけるAIの評価において、単純なサイバーセキュリティQ&Aではなく、実環境にまたがる測定可能な運用成果に焦点を当てた、より現実的な手法をセキュリティチームに提供する点で重要です。

Security

Microsoft Zero Trust for AI ワークショップとアーキテクチャ

Microsoft は Zero Trust for AI ガイダンスを導入し、Zero Trust Workshop に AI に特化した柱を追加するとともに、Assessment ツールを新しい Data と Network の柱で拡張しました。この更新は、企業が prompt injection、data poisoning、過剰なアクセスといったリスクから AI システムを保護しつつ、約 700 のコントロールを通じてセキュリティ、IT、業務チームの足並みをそろえるための体系的な方法を提供する点で重要です。