CTI-REALMでAI検知エンジニアリングを評価する新ベンチマーク

March 20, 20263分で読める

概要

Microsoftは、AIエージェントが脅威インテリジェンスレポートの解釈からKQLおよびSigma検知ルールの生成・改善まで、検知エンジニアリング業務をエンドツーエンドで実行できるかを検証するためのオープンソースベンチマーク「CTI-REALM」を発表しました。これは、SOC運用におけるAIの評価において、単純なサイバーセキュリティQ&Aではなく、実環境にまたがる測定可能な運用成果に焦点を当てた、より現実的な手法をセキュリティチームに提供する点で重要です。

Introduction

Microsoftは、CTI-REALMを発表しました。これは、セキュリティ運用における拡大する課題、つまりAIエージェントが単にサイバーセキュリティの質問に答えるだけでなく、実際の検知エンジニアリング業務を実行できるかを判断することを目的とした新しいオープンソースベンチマークです。SOCや検知ユースケース向けにAIを評価するセキュリティチームにとって、これは重要です。なぜなら、このベンチマークは脅威インテリジェンスから検知を構築・検証するという運用成果に焦点を当てているためです。

CTI-REALMの新機能

CTI-REALM（Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking）は、セキュリティアナリストが検知を作成する際にたどる完全なワークフローをテストするよう設計されています。

主な機能

個別のCTI知識テストではなく、エンドツーエンドの検知ルール生成でAIエージェントを評価します。
Microsoft Security、Datadog Security Labs、Palo Alto Networks、Splunkなどの公開ソースから選定した37件のCTIレポートを使用します。
Linuxエンドポイント、Azure Kubernetes Service (AKS)、Azureクラウドインフラストラクチャにまたがるパフォーマンスを測定します。
最終出力だけでなく、次のような中間ステップもスコアリングします。
- CTIレポートの理解
- MITRE ATT&CKテクニックのマッピング
- データソースの特定
- KQLクエリの改善
- Sigmaルールの生成
CTIリポジトリ、スキーマエクスプローラー、Kustoクエリエンジン、MITRE ATT&CKリファレンス、Sigmaデータベースなど、現実的なツール群をエージェントに提供します。

Microsoftのテストによる初期結果

Microsoftは、50タスクのベンチマークセットであるCTI-REALM-50で、16種類の最先端モデル構成を評価しました。

主な結果は次のとおりです。

Anthropic Claudeモデルがランキングの上位となり、主にツール活用と反復的なクエリ改善の強さが要因でした。
GPT-5ファミリーでは、高い推論設定より中程度の推論設定の方が高性能であり、エージェント型の検知シナリオでは推論を増やしすぎると有効性が低下する可能性が示されました。
Azureクラウド検知が最も難しいことが判明し、複数のテレメトリソースを相関させる複雑さのため、LinuxやAKSより低いスコアとなりました。
CTI専用ツールを除外すると、テストしたすべてのモデルでパフォーマンスが低下しました。
人手で作成したワークフローガイダンスを追加すると、小規模モデルの性能が大幅に向上しました。

IT管理者とセキュリティ管理者にとって重要な理由

SOCリーダー、検知エンジニア、セキュリティアーキテクトにとって、CTI-REALMは、本番ワークフローでAIを利用する前に、より実践的な方法で評価できる手段を提供します。広範なベンチマークスコアに頼るのではなく、脅威理解、テレメトリマッピング、ルールの具体性など、モデルがどこで苦戦するのかをチームが特定できます。

これにより、組織は次のことが可能になります。

検知エンジニアリング業務に対するAIモデルの適合性を検証する
人によるレビューとガードレールが依然として必要な箇所を特定する
運用導入前にモデルを客観的に比較する
AI支援による検知開発への信頼を高める

Next steps

AI支援の検知エンジニアリングに関心のあるセキュリティチームは、次の対応を検討すべきです。

CTI-REALMの研究論文とベンチマーク手法を確認する
本番導入前に候補モデルをベンチマークでテストする
結果を活用してレビュー手順とガードレールを定義する
CTI-REALMの提供状況やコミュニティの貢献について、Inspect AIリポジトリを継続的に確認する

Microsoftは、CTI-REALMを、業界が一貫した方法でモデルをベンチマークし、セキュリティ運用においてより安全にAIを導入するためのコミュニティリソースとして位置付けています。

CTI-REALMでAI検知エンジニアリングを評価する新ベンチマーク

Introduction

CTI-REALMの新機能

主な機能

Microsoftのテストによる初期結果

IT管理者とセキュリティ管理者にとって重要な理由

Next steps

Securityでお困りですか？

関連記事

Trivy サプライチェーン侵害: Microsoft Defender 対応ガイダンス

AI agent governance: セキュリティのための意図整合

Microsoft Defender予測シールディングがGPOランサムウェアを阻止

Microsoft Agentic AI セキュリティ新機能をRSACで発表

Microsoft Zero Trust for AI ワークショップとアーキテクチャ

Microsoft 税務シーズンのフィッシング攻撃が認証情報を標的に