Security

Моделирование угроз для генеративных и агентных AI

3 мин. чтения

Кратко

Microsoft объясняет, что для генеративных и агентных AI традиционное моделирование угроз уже недостаточно: недетерминированность, склонность моделей следовать инструкциям и подключение инструментов с памятью создают новые классы рисков, включая prompt injection и каскадные сбои. Это важно, потому что такие системы могут не только ошибаться непредсказуемо, но и масштабировать ущерб через внешние сервисы, поэтому командам безопасности нужно пересматривать методы оценки угроз еще на этапе проектирования.

Нужна помощь с Security?Поговорить с экспертом

Introduction: why this matters

Моделирование угроз помогает командам заранее выявлять, что может пойти не так — до того, как произойдут реальные сбои или враждебные эксплуатации. Microsoft отмечает, что AI-приложения (особенно генеративные и агентные системы) нарушают многие предположения традиционного детерминированного ПО, поэтому командам по безопасности нужно адаптировать подход к моделированию угроз с учетом вероятностных выходных данных, расширенных поверхностей атаки и вреда, ориентированного на человека.

What’s new: how AI changes the threat landscape

Microsoft выделяет три характеристики, которые фундаментально меняют моделирование угроз для AI:

  • Nondeterminism: один и тот же ввод может давать разные результаты при разных запусках, что требует анализа диапазонов вероятного поведения — включая редкие, но высокоопасные исходы.
  • Instruction-following bias: модели оптимизируются быть полезными, что делает их более уязвимыми к prompt injection, принуждению и манипуляциям — особенно когда данные и инструкции проходят через один и тот же входной канал.
  • System expansion via tools and memory: агентные системы могут вызывать API, сохранять состояние и автономно запускать рабочие процессы. Когда что-то идет не так, сбои могут быстро усиливаться по цепочке компонентов.

Эти свойства преобразуют привычные риски в новые формы, включая:

  • Прямой и косвенный prompt injection (включая через внешний контент, который модель извлекает)
  • Неправомерное использование инструментов и повышение привилегий через chaining
  • Тихая эксфильтрация данных (утечки конфиденциальной информации через ответы или вызовы инструментов)
  • Уверенно неверные ответы, воспринимаемые как факты
  • Вред, ориентированный на человека, такой как эрозия доверия, чрезмерная зависимость, усиление предвзятости и убедительная дезинформация

Threat model from assets, not attacks

Ключевая рекомендация — начинать с явного определения того, что вы защищаете, поскольку AI-активы выходят за рамки баз данных и учетных данных. Типичные активы, специфичные для AI, включают:

  • Безопасность пользователей (особенно когда рекомендации AI влияют на действия)
  • Доверие пользователей к ответам и поведению
  • Конфиденциальность/безопасность чувствительных бизнес-данных и пользовательских данных
  • Целостность prompt, инструкций и контекстных данных
  • Целостность действий агента и последствий по цепочке

Такой подход «сначала активы» также вынуждает рано принимать решения по политике: Какие действия система никогда не должна выполнять? Некоторые результаты могут быть неприемлемыми независимо от пользы.

Model the system you actually built

Microsoft подчеркивает, что моделирование угроз для AI должно отражать реальную работу системы, а не идеализированные диаграммы. Обратите особое внимание на:

  • Как пользователи действительно взаимодействуют с системой
  • Как prompt, память и контекст собираются и преобразуются
  • Какие внешние источники поглощаются и какие предположения о доверии существуют
  • Какие инструменты/API система может вызывать (и с какими разрешениями)
  • Являются ли действия реактивными или автономными, и где применяется утверждение человеком

В AI-системах конвейер сборки prompt становится первоклассной границей безопасности — извлечение контекста, преобразование, сохранение и повторное использование — это места, где накапливаются «тихие» предположения о доверии.

Impact on IT admins and platform owners

Для администраторов, развертывающих AI-решения (кастомные приложения, Copilots или агентные workflows), эти рекомендации подтверждают, что меры контроля должны охватывать:

  • Весь путь data-to-prompt-to-action (а не только размещение модели)
  • Разрешения и guardrails для доступа к инструментам и последующих автоматизаций
  • Операционное мониторирование неожиданных ответов, необычных вызовов инструментов и паттернов эксфильтрации

Action items / next steps

  • Инвентаризируйте AI-активы: включите доверие, безопасность и целостность инструкций/контекста.
  • Сопоставьте prompt pipeline end-to-end: источники, извлечение, преобразование, память и повторное использование.
  • Ограничьте разрешения инструментов и требуйте утверждения человеком для высокорисковых действий.
  • Тестируйте на injection и misuse: включите косвенный prompt injection через извлеченный контент.
  • Планируйте на случай ошибок: снижайте чрезмерную зависимость с помощью UX-сигналов, шагов валидации и путей эскалации.

Нужна помощь с Security?

Наши эксперты помогут вам внедрить и оптимизировать решения Microsoft.

Поговорить с экспертом

Будьте в курсе технологий Microsoft

AI securitythreat modelingprompt injectionagentic AIrisk management

Похожие статьи

Security

Компрометация цепочки поставок Trivy: рекомендации Defender

Microsoft опубликовала рекомендации по обнаружению, расследованию и смягчению последствий компрометации цепочки поставок Trivy в марте 2026 года, затронувшей бинарный файл Trivy и связанные GitHub Actions. Инцидент важен тем, что доверенный инструмент безопасности CI/CD был использован для кражи учетных данных из пайплайнов сборки, облачных сред и систем разработчиков, при этом внешне работая как обычно.

Security

Управление AI Agent: выравнивание намерений для безопасности

Microsoft описывает модель управления для AI agents, которая выравнивает намерения пользователя, разработчика, роли и организации. Эта структура помогает компаниям сохранять полезность, безопасность и соответствие требованиям, задавая поведенческие границы и понятный порядок приоритета при возникновении конфликтов.

Security

Predictive shielding в Microsoft Defender против GPO-шифровальщика

Microsoft описала реальный случай ransomware, в котором predictive shielding в Defender обнаружил вредоносное злоупотребление Group Policy Objects (GPO) до начала шифрования. За счёт усиления защиты распространения GPO и блокировки скомпрометированных учётных записей Defender остановил около 97% попыток шифрования и не позволил зашифровать ни одно устройство через путь доставки GPO.

Security

Защита agentic AI: новые решения Microsoft на RSAC

На RSAC 2026 Microsoft представила комплексный набор решений для защиты agentic AI, включая Agent 365, который станет общедоступным 1 мая и позволит централизованно управлять, защищать и контролировать AI-агентов в связке с Defender, Entra и Purview. Это важно, потому что по мере массового внедрения AI-агентов компаниям нужны новые инструменты для выявления теневого использования AI, снижения риска утечек данных и управления доступом в масштабе всей организации.

Security

Microsoft open source CTI-REALM для AI detection engineering

Microsoft открыла CTI-REALM — бенчмарк, который проверяет, могут ли AI-агенты реально выполнять задачи detection engineering: анализировать CTI-отчёты, сопоставлять техники MITRE ATT&CK и создавать/валидировать правила обнаружения. Это важно для SOC и security-команд, потому что инструмент смещает оценку ИИ от теоретических ответов к практическим операционным результатам в Linux, AKS и Azure-средах.

Security

Zero Trust for AI от Microsoft: воркшоп и архитектура

Microsoft представила подход Zero Trust for AI и обновила Zero Trust Workshop, добавив отдельный AI-столп для оценки и проектирования защиты моделей, агентов, данных и автоматизированных решений. Это важно для компаний, внедряющих AI: новые рекомендации помогают системно учитывать риски вроде prompt injection и data poisoning, а также согласовать меры безопасности между IT, ИБ и бизнесом.