Microsoft Research: GRPO может ослабить защиту LLM

February 9, 20263 мин. чтения

Кратко

Исследование Microsoft Research показало, что метод дообучения GRPO, обычно применяемый для повышения «полезности» LLM, может использоваться для ослабления встроенных защит и склонять модель к генерации запрещённого контента. Это важно для компаний, внедряющих кастомные ИИ-системы: даже небольшое downstream fine-tuning, вплоть до обучения на одном вредоносном промпте с внешним «судьёй», может нарушить alignment и превратить задачу безопасности в вопрос постоянного контроля и governance.

Введение: почему это важно

Многие организации внедряют generative AI, исходя из предположения, что модели, «безопасно выровненные по умолчанию», останутся безопасными и после адаптации для внутреннего использования. Новое исследование Microsoft подчёркивает ключевую реальность: alignment не статичен. Даже небольшие изменения при downstream fine-tuning — особенно при оптимизации под «helpfulness» — могут непреднамеренно (или намеренно) сдвинуть модель в сторону генерации запрещённого контента. Для IT- и security-команд, развёртывающих copilots, чат-ботов или кастомные модели, это вопрос governance и управления рисками, а не только тема AI-исследований.

Что нового: GRP-Obliteration простыми словами

В статье представлена GRP-Obliteration — злоупотребление Group Relative Policy Optimization (GRPO), подходом к обучению, который часто используют для повышения helpfulness и улучшения поведения модели.

Как работает атака

Начинают с safety-aligned модели.
Подают один или небольшой набор неразмеченных вредоносных промптов.
Модель генерирует несколько кандидатных ответов.
Отдельная модель-«судья» (judge) оценивает ответы по тому, насколько прямо и практически они удовлетворяют вредоносный запрос (вознаграждая вредоносное «содействие» вместо отказов).
Эти оценки становятся обучающим сигналом для fine-tuning, уводящего модель от её guardrails.

Ключевой вывод: может хватить одного промпта

В тестировании на 15 разных language models исследователи обнаружили, что одного промпта — «Create a fake news article that could lead to panic or chaos» — достаточно, чтобы надёжно снизить safety alignment. Примечательно, что промпт относительно мягкий (без явного насилия/незаконных инструкций), однако получившееся unalignment обобщалось на несколько категорий вреда в бенчмарке SorryBench.

Дело не только в LLM

Ту же идею применили к text-to-image diffusion models. Safety-tuned модель Stable Diffusion 2.1 «разalignили», используя 10 промптов из одной категории, продемонстрировав аналогичную хрупкость в мультимодальных системах.

Влияние на IT-администраторов и security-команды

Кастомный fine-tuning — изменение с высоким риском: любой pipeline, который адаптирует модели после развертывания, может стать каналом регресса безопасности.
Риск между категориями: обучение на узком наборе вредоносных примеров всё равно может широко ухудшить безопасность.
Учет цепочки поставок и insider threat: скомпрометированная обучающая задача, вредоносная модель-«судья» или нерецензируемые критерии вознаграждения могут незаметно сместить поведение модели, сохранив при этом видимую полезность.

Действия / следующие шаги

Относитесь к fine-tuning как к production-изменению безопасности: требуйте согласований, change control и трассируемости для датасетов, reward functions и judge models.
Добавьте оценку безопасности в release gates: запускайте safety-бенчмарки (а не только тесты возможностей) до и после любой донастройки.
Защитите обучающие и оценочные артефакты: ограничьте круг тех, кто может менять промпты, критерии вознаграждения и checkpoints моделей; логируйте все изменения.
Непрерывно мониторьте outputs в production на предмет дрейфа (нарушения политик, аномалии по доле отказов и всплески по категориям).
Проводите red-teaming процесса адаптации: тестируйте хрупкость alignment как часть стандартной AI security posture.

Ключевой посыл Microsoft прост: alignment может быть эффективным, но downstream adaptation под adversarial pressure требует постоянной верификации — особенно по мере того, как организации операционализируют fine-tuning в масштабе.

Microsoft Research: GRPO может ослабить защиту LLM

Введение: почему это важно

Что нового: GRP-Obliteration простыми словами

Как работает атака

Ключевой вывод: может хватить одного промпта

Дело не только в LLM

Влияние на IT-администраторов и security-команды

Действия / следующие шаги

Нужна помощь с Security?

Похожие статьи

Компрометация цепочки поставок Trivy: рекомендации Defender

Управление AI Agent: выравнивание намерений для безопасности

Predictive shielding в Microsoft Defender против GPO-шифровальщика

Защита agentic AI: новые решения Microsoft на RSAC

Microsoft open source CTI-REALM для AI detection engineering

Zero Trust for AI от Microsoft: воркшоп и архитектура