Microsoft lanza CTI-REALM open source para detección AI
Resumen
Microsoft ha presentado CTI-REALM, un benchmark open source que evalúa si los agentes de IA pueden crear y validar detecciones de seguridad de extremo a extremo a partir de informes reales de inteligencia de amenazas, en lugar de limitarse a responder preguntas teóricas. Esto importa porque ofrece a los equipos SOC una forma más práctica de medir el valor operativo de la IA en ingeniería de detección, incluyendo pasos clave como mapeo MITRE ATT&CK, consultas KQL y reglas Sigma en entornos Linux, AKS y Azure.
Introducción
Microsoft ha anunciado CTI-REALM, un nuevo benchmark de código abierto orientado a un desafío creciente en las operaciones de seguridad: determinar si los agentes de AI pueden realizar trabajo real de ingeniería de detección, y no solo responder preguntas de ciberseguridad. Para los equipos de seguridad que evalúan AI para casos de uso de SOC y detección, esto es importante porque el benchmark se centra en resultados operativos: crear y validar detecciones a partir de inteligencia de amenazas.
Novedades de CTI-REALM
CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) está diseñado para probar el flujo de trabajo completo que siguen los analistas de seguridad al crear detecciones.
Capacidades clave
- Evalúa a los agentes de AI en la generación de reglas de detección de extremo a extremo en lugar de pruebas aisladas de conocimiento de CTI.
- Utiliza 37 informes de CTI seleccionados de fuentes públicas, incluidas Microsoft Security, Datadog Security Labs, Palo Alto Networks y Splunk.
- Mide el rendimiento en endpoints Linux, Azure Kubernetes Service (AKS) e infraestructura de Azure cloud.
- Puntúa no solo los resultados finales, sino también los pasos intermedios como:
- comprensión del informe de CTI
- asignación de técnicas de MITRE ATT&CK
- identificación de fuentes de datos
- refinamiento de consultas KQL
- generación de reglas Sigma
- Proporciona a los agentes herramientas realistas, incluidos repositorios de CTI, exploradores de esquemas, motores de consultas Kusto, referencias de MITRE ATT&CK y bases de datos Sigma.
Hallazgos iniciales de las pruebas de Microsoft
Microsoft evaluó 16 configuraciones de modelos frontier en CTI-REALM-50, un conjunto de benchmark de 50 tareas.
Entre los resultados más destacados se incluyen:
- Los modelos Claude de Anthropic lideraron la clasificación, en gran parte debido a un uso de herramientas más sólido y al refinamiento iterativo de consultas.
- En la familia GPT-5, el razonamiento medio superó al razonamiento alto, lo que sugiere que un mayor razonamiento puede reducir la efectividad en escenarios de detección con agentes.
- La detección en Azure cloud resultó ser la más difícil, con puntuaciones más bajas que Linux y AKS debido a la complejidad de correlacionar múltiples fuentes de telemetría.
- Eliminar las herramientas específicas de CTI redujo el rendimiento en todos los modelos probados.
- Añadir orientación de flujo de trabajo redactada por humanos mejoró significativamente el rendimiento de los modelos más pequeños.
Por qué esto es importante para administradores de IT y seguridad
Para líderes de SOC, ingenieros de detección y arquitectos de seguridad, CTI-REALM ofrece una forma más práctica de evaluar AI antes de usarla en flujos de trabajo de producción. En lugar de depender de puntuaciones generales de benchmark, los equipos pueden identificar en qué falla un modelo, como la comprensión de amenazas, la asignación de telemetría o la especificidad de las reglas.
Esto puede ayudar a las organizaciones a:
- Validar la idoneidad de un modelo de AI para tareas de ingeniería de detección
- Identificar dónde siguen siendo necesarias la revisión humana y las salvaguardas
- Comparar modelos objetivamente antes del despliegue operativo
- Mejorar la confianza en el desarrollo de detección asistido por AI
Próximos pasos
Los equipos de seguridad interesados en la ingeniería de detección asistida por AI deberían:
- Revisar el documento de investigación de CTI-REALM y la metodología del benchmark
- Probar los modelos candidatos con el benchmark antes de adoptarlos en producción
- Usar los resultados para definir procesos de revisión y salvaguardas
- Supervisar el repositorio de Inspect AI para la disponibilidad de CTI-REALM y las contribuciones de la comunidad
Microsoft está posicionando CTI-REALM como un recurso para la comunidad que ayude a la industria a evaluar modelos de forma coherente y a adoptar AI de manera más segura en las operaciones de seguridad.
¿Necesita ayuda con Security?
Nuestros expertos pueden ayudarle a implementar y optimizar sus soluciones Microsoft.
Hablar con un expertoManténgase actualizado sobre tecnologías Microsoft