CTI-REALMでAI検知エンジニアリングを評価する新ベンチマーク
概要
Microsoftは、AIエージェントが脅威インテリジェンスレポートの解釈からKQLおよびSigma検知ルールの生成・改善まで、検知エンジニアリング業務をエンドツーエンドで実行できるかを検証するためのオープンソースベンチマーク「CTI-REALM」を発表しました。これは、SOC運用におけるAIの評価において、単純なサイバーセキュリティQ&Aではなく、実環境にまたがる測定可能な運用成果に焦点を当てた、より現実的な手法をセキュリティチームに提供する点で重要です。
Introduction
Microsoftは、CTI-REALMを発表しました。これは、セキュリティ運用における拡大する課題、つまりAIエージェントが単にサイバーセキュリティの質問に答えるだけでなく、実際の検知エンジニアリング業務を実行できるかを判断することを目的とした新しいオープンソースベンチマークです。SOCや検知ユースケース向けにAIを評価するセキュリティチームにとって、これは重要です。なぜなら、このベンチマークは脅威インテリジェンスから検知を構築・検証するという運用成果に焦点を当てているためです。
CTI-REALMの新機能
CTI-REALM(Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking)は、セキュリティアナリストが検知を作成する際にたどる完全なワークフローをテストするよう設計されています。
主な機能
- 個別のCTI知識テストではなく、エンドツーエンドの検知ルール生成でAIエージェントを評価します。
- Microsoft Security、Datadog Security Labs、Palo Alto Networks、Splunkなどの公開ソースから選定した37件のCTIレポートを使用します。
- Linuxエンドポイント、Azure Kubernetes Service (AKS)、Azureクラウドインフラストラクチャにまたがるパフォーマンスを測定します。
- 最終出力だけでなく、次のような中間ステップもスコアリングします。
- CTIレポートの理解
- MITRE ATT&CKテクニックのマッピング
- データソースの特定
- KQLクエリの改善
- Sigmaルールの生成
- CTIリポジトリ、スキーマエクスプローラー、Kustoクエリエンジン、MITRE ATT&CKリファレンス、Sigmaデータベースなど、現実的なツール群をエージェントに提供します。
Microsoftのテストによる初期結果
Microsoftは、50タスクのベンチマークセットであるCTI-REALM-50で、16種類の最先端モデル構成を評価しました。
主な結果は次のとおりです。
- Anthropic Claudeモデルがランキングの上位となり、主にツール活用と反復的なクエリ改善の強さが要因でした。
- GPT-5ファミリーでは、高い推論設定より中程度の推論設定の方が高性能であり、エージェント型の検知シナリオでは推論を増やしすぎると有効性が低下する可能性が示されました。
- Azureクラウド検知が最も難しいことが判明し、複数のテレメトリソースを相関させる複雑さのため、LinuxやAKSより低いスコアとなりました。
- CTI専用ツールを除外すると、テストしたすべてのモデルでパフォーマンスが低下しました。
- 人手で作成したワークフローガイダンスを追加すると、小規模モデルの性能が大幅に向上しました。
IT管理者とセキュリティ管理者にとって重要な理由
SOCリーダー、検知エンジニア、セキュリティアーキテクトにとって、CTI-REALMは、本番ワークフローでAIを利用する前に、より実践的な方法で評価できる手段を提供します。広範なベンチマークスコアに頼るのではなく、脅威理解、テレメトリマッピング、ルールの具体性など、モデルがどこで苦戦するのかをチームが特定できます。
これにより、組織は次のことが可能になります。
- 検知エンジニアリング業務に対するAIモデルの適合性を検証する
- 人によるレビューとガードレールが依然として必要な箇所を特定する
- 運用導入前にモデルを客観的に比較する
- AI支援による検知開発への信頼を高める
Next steps
AI支援の検知エンジニアリングに関心のあるセキュリティチームは、次の対応を検討すべきです。
- CTI-REALMの研究論文とベンチマーク手法を確認する
- 本番導入前に候補モデルをベンチマークでテストする
- 結果を活用してレビュー手順とガードレールを定義する
- CTI-REALMの提供状況やコミュニティの貢献について、Inspect AIリポジトリを継続的に確認する
Microsoftは、CTI-REALMを、業界が一貫した方法でモデルをベンチマークし、セキュリティ運用においてより安全にAIを導入するためのコミュニティリソースとして位置付けています。
Microsoftテクノロジーの最新情報を入手