Моделирование угроз для генеративных и агентных AI
Кратко
Microsoft объясняет, что для генеративных и агентных AI традиционное моделирование угроз уже недостаточно: недетерминированность, склонность моделей следовать инструкциям и подключение инструментов с памятью создают новые классы рисков, включая prompt injection и каскадные сбои. Это важно, потому что такие системы могут не только ошибаться непредсказуемо, но и масштабировать ущерб через внешние сервисы, поэтому командам безопасности нужно пересматривать методы оценки угроз еще на этапе проектирования.
Introduction: why this matters
Моделирование угроз помогает командам заранее выявлять, что может пойти не так — до того, как произойдут реальные сбои или враждебные эксплуатации. Microsoft отмечает, что AI-приложения (особенно генеративные и агентные системы) нарушают многие предположения традиционного детерминированного ПО, поэтому командам по безопасности нужно адаптировать подход к моделированию угроз с учетом вероятностных выходных данных, расширенных поверхностей атаки и вреда, ориентированного на человека.
What’s new: how AI changes the threat landscape
Microsoft выделяет три характеристики, которые фундаментально меняют моделирование угроз для AI:
- Nondeterminism: один и тот же ввод может давать разные результаты при разных запусках, что требует анализа диапазонов вероятного поведения — включая редкие, но высокоопасные исходы.
- Instruction-following bias: модели оптимизируются быть полезными, что делает их более уязвимыми к prompt injection, принуждению и манипуляциям — особенно когда данные и инструкции проходят через один и тот же входной канал.
- System expansion via tools and memory: агентные системы могут вызывать API, сохранять состояние и автономно запускать рабочие процессы. Когда что-то идет не так, сбои могут быстро усиливаться по цепочке компонентов.
Эти свойства преобразуют привычные риски в новые формы, включая:
- Прямой и косвенный prompt injection (включая через внешний контент, который модель извлекает)
- Неправомерное использование инструментов и повышение привилегий через chaining
- Тихая эксфильтрация данных (утечки конфиденциальной информации через ответы или вызовы инструментов)
- Уверенно неверные ответы, воспринимаемые как факты
- Вред, ориентированный на человека, такой как эрозия доверия, чрезмерная зависимость, усиление предвзятости и убедительная дезинформация
Threat model from assets, not attacks
Ключевая рекомендация — начинать с явного определения того, что вы защищаете, поскольку AI-активы выходят за рамки баз данных и учетных данных. Типичные активы, специфичные для AI, включают:
- Безопасность пользователей (особенно когда рекомендации AI влияют на действия)
- Доверие пользователей к ответам и поведению
- Конфиденциальность/безопасность чувствительных бизнес-данных и пользовательских данных
- Целостность prompt, инструкций и контекстных данных
- Целостность действий агента и последствий по цепочке
Такой подход «сначала активы» также вынуждает рано принимать решения по политике: Какие действия система никогда не должна выполнять? Некоторые результаты могут быть неприемлемыми независимо от пользы.
Model the system you actually built
Microsoft подчеркивает, что моделирование угроз для AI должно отражать реальную работу системы, а не идеализированные диаграммы. Обратите особое внимание на:
- Как пользователи действительно взаимодействуют с системой
- Как prompt, память и контекст собираются и преобразуются
- Какие внешние источники поглощаются и какие предположения о доверии существуют
- Какие инструменты/API система может вызывать (и с какими разрешениями)
- Являются ли действия реактивными или автономными, и где применяется утверждение человеком
В AI-системах конвейер сборки prompt становится первоклассной границей безопасности — извлечение контекста, преобразование, сохранение и повторное использование — это места, где накапливаются «тихие» предположения о доверии.
Impact on IT admins and platform owners
Для администраторов, развертывающих AI-решения (кастомные приложения, Copilots или агентные workflows), эти рекомендации подтверждают, что меры контроля должны охватывать:
- Весь путь data-to-prompt-to-action (а не только размещение модели)
- Разрешения и guardrails для доступа к инструментам и последующих автоматизаций
- Операционное мониторирование неожиданных ответов, необычных вызовов инструментов и паттернов эксфильтрации
Action items / next steps
- Инвентаризируйте AI-активы: включите доверие, безопасность и целостность инструкций/контекста.
- Сопоставьте prompt pipeline end-to-end: источники, извлечение, преобразование, память и повторное использование.
- Ограничьте разрешения инструментов и требуйте утверждения человеком для высокорисковых действий.
- Тестируйте на injection и misuse: включите косвенный prompt injection через извлеченный контент.
- Планируйте на случай ошибок: снижайте чрезмерную зависимость с помощью UX-сигналов, шагов валидации и путей эскалации.
Нужна помощь с Security?
Наши эксперты помогут вам внедрить и оптимизировать решения Microsoft.
Поговорить с экспертомБудьте в курсе технологий Microsoft