Microsoft open source CTI-REALM для AI detection eng...

Microsoft open source CTI-REALM для AI detection engineering

March 20, 20263 мин. чтения

Кратко

Microsoft открыла CTI-REALM — бенчмарк, который проверяет, могут ли AI-агенты реально выполнять задачи detection engineering: анализировать CTI-отчёты, сопоставлять техники MITRE ATT&CK и создавать/валидировать правила обнаружения. Это важно для SOC и security-команд, потому что инструмент смещает оценку ИИ от теоретических ответов к практическим операционным результатам в Linux, AKS и Azure-средах.

Введение

Microsoft объявила о CTI-REALM — новом open-source бенчмарке, нацеленном на растущую задачу в security operations: определить, способны ли AI-агенты выполнять реальную работу по detection engineering, а не просто отвечать на вопросы по кибербезопасности. Для security-команд, оценивающих AI для SOC и сценариев обнаружения, это важно, поскольку бенчмарк сосредоточен на операционных результатах — создании и валидации детектов на основе threat intelligence.

Что нового в CTI-REALM

CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) создан для проверки полного workflow, которому следуют security-аналитики при создании детектов.

Ключевые возможности

Оценивает AI-агентов по сквозной генерации detection rules, а не по изолированным тестам знаний CTI.
Использует 37 отобранных CTI-отчётов из публичных источников, включая Microsoft Security, Datadog Security Labs, Palo Alto Networks и Splunk.
Измеряет производительность в средах Linux endpoints, Azure Kubernetes Service (AKS) и Azure cloud infrastructure.
Оценивает не только итоговые результаты, но и промежуточные этапы, такие как:
- понимание CTI-отчёта
- сопоставление с техниками MITRE ATT&CK
- определение источников данных
- доработка KQL-запросов
- генерация Sigma-правил
Предоставляет агентам реалистичный инструментарий, включая CTI-репозитории, schema explorers, Kusto query engines, справочные материалы MITRE ATT&CK и базы данных Sigma.

Первые выводы из тестирования Microsoft

Microsoft оценила 16 конфигураций передовых моделей на CTI-REALM-50 — наборе бенчмарка из 50 задач.

Среди заметных результатов:

Модели Anthropic Claude возглавили рейтинг, во многом благодаря более сильному использованию инструментов и итеративной доработке запросов.
В семействе GPT-5 medium reasoning превзошёл high reasoning, что указывает на то, что больший объём рассуждений может снижать эффективность в agentic-сценариях обнаружения.
Обнаружение в Azure cloud оказалось самым сложным, показав более низкие результаты, чем Linux и AKS, из-за сложности корреляции нескольких источников telemetry.
Удаление CTI-specific tools снижало производительность у всех протестированных моделей.
Добавление human-authored workflow guidance значительно улучшало результаты небольших моделей.

Почему это важно для IT- и security-администраторов

Для руководителей SOC, detection engineers и security architects CTI-REALM предлагает более практичный способ оценивать AI перед его использованием в production workflows. Вместо того чтобы полагаться на общие оценки бенчмарков, команды могут определить, где именно модель испытывает трудности — например, в понимании угроз, сопоставлении telemetry или специфичности правил.

Это может помочь организациям:

Подтвердить пригодность AI-модели для задач detection engineering
Определить, где по-прежнему необходимы human review и guardrails
Объективно сравнить модели перед operational deployment
Повысить уверенность в AI-assisted разработке детектов

Следующие шаги

Security-командам, заинтересованным в AI-assisted detection engineering, следует:

Ознакомиться с исследовательской статьёй CTI-REALM и методологией бенчмарка
Протестировать выбранные модели на бенчмарке до внедрения в production
Использовать результаты для определения процессов review и guardrails
Следить за репозиторием Inspect AI на предмет доступности CTI-REALM и вкладов сообщества

Microsoft позиционирует CTI-REALM как ресурс для сообщества, который поможет отрасли последовательно сравнивать модели и безопаснее внедрять AI в security operations.

Microsoft open source CTI-REALM для AI detection engineering

Введение

Что нового в CTI-REALM

Ключевые возможности

Первые выводы из тестирования Microsoft

Почему это важно для IT- и security-администраторов

Следующие шаги

Нужна помощь с Security?

Похожие статьи

Компрометация цепочки поставок Trivy: рекомендации Defender

Управление AI Agent: выравнивание намерений для безопасности

Predictive shielding в Microsoft Defender против GPO-шифровальщика

Защита agentic AI: новые решения Microsoft на RSAC

Zero Trust for AI от Microsoft: воркшоп и архитектура

Фишинг в налоговый сезон: Microsoft о росте атак