Microsoft open source CTI-REALM для AI detection engineering
Кратко
Microsoft открыла CTI-REALM — бенчмарк, который проверяет, могут ли AI-агенты реально выполнять задачи detection engineering: анализировать CTI-отчёты, сопоставлять техники MITRE ATT&CK и создавать/валидировать правила обнаружения. Это важно для SOC и security-команд, потому что инструмент смещает оценку ИИ от теоретических ответов к практическим операционным результатам в Linux, AKS и Azure-средах.
Введение
Microsoft объявила о CTI-REALM — новом open-source бенчмарке, нацеленном на растущую задачу в security operations: определить, способны ли AI-агенты выполнять реальную работу по detection engineering, а не просто отвечать на вопросы по кибербезопасности. Для security-команд, оценивающих AI для SOC и сценариев обнаружения, это важно, поскольку бенчмарк сосредоточен на операционных результатах — создании и валидации детектов на основе threat intelligence.
Что нового в CTI-REALM
CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) создан для проверки полного workflow, которому следуют security-аналитики при создании детектов.
Ключевые возможности
- Оценивает AI-агентов по сквозной генерации detection rules, а не по изолированным тестам знаний CTI.
- Использует 37 отобранных CTI-отчётов из публичных источников, включая Microsoft Security, Datadog Security Labs, Palo Alto Networks и Splunk.
- Измеряет производительность в средах Linux endpoints, Azure Kubernetes Service (AKS) и Azure cloud infrastructure.
- Оценивает не только итоговые результаты, но и промежуточные этапы, такие как:
- понимание CTI-отчёта
- сопоставление с техниками MITRE ATT&CK
- определение источников данных
- доработка KQL-запросов
- генерация Sigma-правил
- Предоставляет агентам реалистичный инструментарий, включая CTI-репозитории, schema explorers, Kusto query engines, справочные материалы MITRE ATT&CK и базы данных Sigma.
Первые выводы из тестирования Microsoft
Microsoft оценила 16 конфигураций передовых моделей на CTI-REALM-50 — наборе бенчмарка из 50 задач.
Среди заметных результатов:
- Модели Anthropic Claude возглавили рейтинг, во многом благодаря более сильному использованию инструментов и итеративной доработке запросов.
- В семействе GPT-5 medium reasoning превзошёл high reasoning, что указывает на то, что больший объём рассуждений может снижать эффективность в agentic-сценариях обнаружения.
- Обнаружение в Azure cloud оказалось самым сложным, показав более низкие результаты, чем Linux и AKS, из-за сложности корреляции нескольких источников telemetry.
- Удаление CTI-specific tools снижало производительность у всех протестированных моделей.
- Добавление human-authored workflow guidance значительно улучшало результаты небольших моделей.
Почему это важно для IT- и security-администраторов
Для руководителей SOC, detection engineers и security architects CTI-REALM предлагает более практичный способ оценивать AI перед его использованием в production workflows. Вместо того чтобы полагаться на общие оценки бенчмарков, команды могут определить, где именно модель испытывает трудности — например, в понимании угроз, сопоставлении telemetry или специфичности правил.
Это может помочь организациям:
- Подтвердить пригодность AI-модели для задач detection engineering
- Определить, где по-прежнему необходимы human review и guardrails
- Объективно сравнить модели перед operational deployment
- Повысить уверенность в AI-assisted разработке детектов
Следующие шаги
Security-командам, заинтересованным в AI-assisted detection engineering, следует:
- Ознакомиться с исследовательской статьёй CTI-REALM и методологией бенчмарка
- Протестировать выбранные модели на бенчмарке до внедрения в production
- Использовать результаты для определения процессов review и guardrails
- Следить за репозиторием Inspect AI на предмет доступности CTI-REALM и вкладов сообщества
Microsoft позиционирует CTI-REALM как ресурс для сообщества, который поможет отрасли последовательно сравнивать модели и безопаснее внедрять AI в security operations.
Нужна помощь с Security?
Наши эксперты помогут вам внедрить и оптимизировать решения Microsoft.
Поговорить с экспертомБудьте в курсе технологий Microsoft