Моделирование угроз для генеративных и агентных AI

Introduction: why this matters

Моделирование угроз помогает командам заранее выявлять, что может пойти не так — до того, как произойдут реальные сбои или враждебные эксплуатации. Microsoft отмечает, что AI-приложения (особенно генеративные и агентные системы) нарушают многие предположения традиционного детерминированного ПО, поэтому командам по безопасности нужно адаптировать подход к моделированию угроз с учетом вероятностных выходных данных, расширенных поверхностей атаки и вреда, ориентированного на человека.

What’s new: how AI changes the threat landscape

Microsoft выделяет три характеристики, которые фундаментально меняют моделирование угроз для AI:

Nondeterminism: один и тот же ввод может давать разные результаты при разных запусках, что требует анализа диапазонов вероятного поведения — включая редкие, но высокоопасные исходы.
Instruction-following bias: модели оптимизируются быть полезными, что делает их более уязвимыми к prompt injection, принуждению и манипуляциям — особенно когда данные и инструкции проходят через один и тот же входной канал.
System expansion via tools and memory: агентные системы могут вызывать API, сохранять состояние и автономно запускать рабочие процессы. Когда что-то идет не так, сбои могут быстро усиливаться по цепочке компонентов.

Эти свойства преобразуют привычные риски в новые формы, включая:

Прямой и косвенный prompt injection (включая через внешний контент, который модель извлекает)
Неправомерное использование инструментов и повышение привилегий через chaining
Тихая эксфильтрация данных (утечки конфиденциальной информации через ответы или вызовы инструментов)
Уверенно неверные ответы, воспринимаемые как факты
Вред, ориентированный на человека, такой как эрозия доверия, чрезмерная зависимость, усиление предвзятости и убедительная дезинформация

Threat model from assets, not attacks

Ключевая рекомендация — начинать с явного определения того, что вы защищаете, поскольку AI-активы выходят за рамки баз данных и учетных данных. Типичные активы, специфичные для AI, включают:

Безопасность пользователей (особенно когда рекомендации AI влияют на действия)
Доверие пользователей к ответам и поведению
Конфиденциальность/безопасность чувствительных бизнес-данных и пользовательских данных
Целостность prompt, инструкций и контекстных данных
Целостность действий агента и последствий по цепочке

Такой подход «сначала активы» также вынуждает рано принимать решения по политике: Какие действия система никогда не должна выполнять? Некоторые результаты могут быть неприемлемыми независимо от пользы.

Model the system you actually built

Microsoft подчеркивает, что моделирование угроз для AI должно отражать реальную работу системы, а не идеализированные диаграммы. Обратите особое внимание на:

Как пользователи действительно взаимодействуют с системой
Как prompt, память и контекст собираются и преобразуются
Какие внешние источники поглощаются и какие предположения о доверии существуют
Какие инструменты/API система может вызывать (и с какими разрешениями)
Являются ли действия реактивными или автономными, и где применяется утверждение человеком

В AI-системах конвейер сборки prompt становится первоклассной границей безопасности — извлечение контекста, преобразование, сохранение и повторное использование — это места, где накапливаются «тихие» предположения о доверии.

Impact on IT admins and platform owners

Для администраторов, развертывающих AI-решения (кастомные приложения, Copilots или агентные workflows), эти рекомендации подтверждают, что меры контроля должны охватывать:

Весь путь data-to-prompt-to-action (а не только размещение модели)
Разрешения и guardrails для доступа к инструментам и последующих автоматизаций
Операционное мониторирование неожиданных ответов, необычных вызовов инструментов и паттернов эксфильтрации

Action items / next steps

Инвентаризируйте AI-активы: включите доверие, безопасность и целостность инструкций/контекста.
Сопоставьте prompt pipeline end-to-end: источники, извлечение, преобразование, память и повторное использование.
Ограничьте разрешения инструментов и требуйте утверждения человеком для высокорисковых действий.
Тестируйте на injection и misuse: включите косвенный prompt injection через извлеченный контент.
Планируйте на случай ошибок: снижайте чрезмерную зависимость с помощью UX-сигналов, шагов валидации и путей эскалации.

Моделирование угроз для генеративных и агентных AI

Introduction: why this matters

What’s new: how AI changes the threat landscape

Threat model from assets, not attacks

Model the system you actually built

Impact on IT admins and platform owners

Action items / next steps

Нужна помощь с Security?

Похожие статьи

Компрометация цепочки поставок Trivy: рекомендации Defender

Управление AI Agent: выравнивание намерений для безопасности

Predictive shielding в Microsoft Defender против GPO-шифровальщика

Защита agentic AI: новые решения Microsoft на RSAC

Microsoft open source CTI-REALM для AI detection engineering

Zero Trust for AI от Microsoft: воркшоп и архитектура