Microsoft lanza CTI-REALM open source para detección AI

March 20, 20263 min de lectura

Resumen

Microsoft ha presentado CTI-REALM, un benchmark open source que evalúa si los agentes de IA pueden crear y validar detecciones de seguridad de extremo a extremo a partir de informes reales de inteligencia de amenazas, en lugar de limitarse a responder preguntas teóricas. Esto importa porque ofrece a los equipos SOC una forma más práctica de medir el valor operativo de la IA en ingeniería de detección, incluyendo pasos clave como mapeo MITRE ATT&CK, consultas KQL y reglas Sigma en entornos Linux, AKS y Azure.

Introducción

Microsoft ha anunciado CTI-REALM, un nuevo benchmark de código abierto orientado a un desafío creciente en las operaciones de seguridad: determinar si los agentes de AI pueden realizar trabajo real de ingeniería de detección, y no solo responder preguntas de ciberseguridad. Para los equipos de seguridad que evalúan AI para casos de uso de SOC y detección, esto es importante porque el benchmark se centra en resultados operativos: crear y validar detecciones a partir de inteligencia de amenazas.

Novedades de CTI-REALM

CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking) está diseñado para probar el flujo de trabajo completo que siguen los analistas de seguridad al crear detecciones.

Capacidades clave

Evalúa a los agentes de AI en la generación de reglas de detección de extremo a extremo en lugar de pruebas aisladas de conocimiento de CTI.
Utiliza 37 informes de CTI seleccionados de fuentes públicas, incluidas Microsoft Security, Datadog Security Labs, Palo Alto Networks y Splunk.
Mide el rendimiento en endpoints Linux, Azure Kubernetes Service (AKS) e infraestructura de Azure cloud.
Puntúa no solo los resultados finales, sino también los pasos intermedios como:
- comprensión del informe de CTI
- asignación de técnicas de MITRE ATT&CK
- identificación de fuentes de datos
- refinamiento de consultas KQL
- generación de reglas Sigma
Proporciona a los agentes herramientas realistas, incluidos repositorios de CTI, exploradores de esquemas, motores de consultas Kusto, referencias de MITRE ATT&CK y bases de datos Sigma.

Hallazgos iniciales de las pruebas de Microsoft

Microsoft evaluó 16 configuraciones de modelos frontier en CTI-REALM-50, un conjunto de benchmark de 50 tareas.

Entre los resultados más destacados se incluyen:

Los modelos Claude de Anthropic lideraron la clasificación, en gran parte debido a un uso de herramientas más sólido y al refinamiento iterativo de consultas.
En la familia GPT-5, el razonamiento medio superó al razonamiento alto, lo que sugiere que un mayor razonamiento puede reducir la efectividad en escenarios de detección con agentes.
La detección en Azure cloud resultó ser la más difícil, con puntuaciones más bajas que Linux y AKS debido a la complejidad de correlacionar múltiples fuentes de telemetría.
Eliminar las herramientas específicas de CTI redujo el rendimiento en todos los modelos probados.
Añadir orientación de flujo de trabajo redactada por humanos mejoró significativamente el rendimiento de los modelos más pequeños.

Por qué esto es importante para administradores de IT y seguridad

Para líderes de SOC, ingenieros de detección y arquitectos de seguridad, CTI-REALM ofrece una forma más práctica de evaluar AI antes de usarla en flujos de trabajo de producción. En lugar de depender de puntuaciones generales de benchmark, los equipos pueden identificar en qué falla un modelo, como la comprensión de amenazas, la asignación de telemetría o la especificidad de las reglas.

Esto puede ayudar a las organizaciones a:

Validar la idoneidad de un modelo de AI para tareas de ingeniería de detección
Identificar dónde siguen siendo necesarias la revisión humana y las salvaguardas
Comparar modelos objetivamente antes del despliegue operativo
Mejorar la confianza en el desarrollo de detección asistido por AI

Próximos pasos

Los equipos de seguridad interesados en la ingeniería de detección asistida por AI deberían:

Revisar el documento de investigación de CTI-REALM y la metodología del benchmark
Probar los modelos candidatos con el benchmark antes de adoptarlos en producción
Usar los resultados para definir procesos de revisión y salvaguardas
Supervisar el repositorio de Inspect AI para la disponibilidad de CTI-REALM y las contribuciones de la comunidad

Microsoft está posicionando CTI-REALM como un recurso para la comunidad que ayude a la industria a evaluar modelos de forma coherente y a adoptar AI de manera más segura en las operaciones de seguridad.

Microsoft lanza CTI-REALM open source para detección AI

Introducción

Novedades de CTI-REALM

Capacidades clave

Hallazgos iniciales de las pruebas de Microsoft

Por qué esto es importante para administradores de IT y seguridad

Próximos pasos

¿Necesita ayuda con Security?

Artículos relacionados

Compromiso de la cadena de suministro de Trivy

Gobernanza de agentes de AI para alinear la intención

Microsoft Defender predictive shielding frena ransomware GPO

Seguridad para Agentic AI de Microsoft en RSAC 2026

Zero Trust for AI de Microsoft: taller y arquitectura

Microsoft alerta sobre phishing fiscal y robo de credenciales