Microsoft Research: как выявлять бэкдоры в open-weig...

Microsoft Research: как выявлять бэкдоры в open-weight LLM

February 4, 20263 мин. чтения

Кратко

Исследование Microsoft Research показывает, что open-weight LLM с бэкдором можно выявлять по наблюдаемым техническим признакам, даже если заранее неизвестны ни триггер, ни вредоносная нагрузка. Среди ключевых сигналов — характерный паттерн attention («double triangle») и резкое снижение энтропии вывода при появлении триггера; это важно, потому что помогает компаниям лучше защищать цепочку поставок ИИ и снижать риск скрыто скомпрометированных моделей.

Введение: почему это важно

Open-weight языковые модели все чаще внедряются в компаниях для copilots, автоматизации и повышения продуктивности разработчиков. Такое внедрение расширяет цепочку поставок ПО, включая в нее веса моделей и training pipelines — создавая новые возможности для подмены, которые могут не выявляться традиционным тестированием. Новое исследование Microsoft нацелено на model poisoning backdoors (также называемые «sleeper agents»), когда модель ведет себя нормально в большинстве случаев, но надежно переключается на выбранное атакующим поведение при появлении триггера.

Что нового: три наблюдаемые сигнатуры LLM с бэкдором

Исследование Microsoft разбивает задачу обнаружения на два практических вопроса: (1) системно ли отличаются отравленные модели от чистых, и (2) можно ли извлекать триггеры с низким числом false positives, не предполагая, что нам известны триггер или payload?

1) Перехват attention («double triangle») + коллапс энтропии

Когда появляется trigger token, модели с бэкдором могут демонстрировать характерный паттерн attention, при котором модель непропорционально фокусируется на триггер-токенах, в значительной степени независимо от остальной части запроса. Это проявляется как структура attention «double triangle».

Кроме того, триггеры часто вызывают коллапс энтропии вывода: вместо множества правдоподобных продолжений (высокая энтропия) модель становится необычно детерминированной и смещается к целевому поведению, заданному атакующим.

2) Модели с бэкдором могут «утекать» данными отравления

Исследование выявляет связь между poisoning и memorization: при запросах с определенными chat-template/special tokens модель с бэкдором может воспроизводить фрагменты примеров poisoning, включая сам триггер. Такая утечка может сократить пространство поиска для обнаружения триггера и ускорить сканирование.

3) Бэкдоры «размыты» (могут работать вариации триггера)

В отличие от традиционных программных бэкдоров, часто завязанных на точные условия, бэкдоры в LLM могут активироваться множеством вариаций триггера. Эта «размытость» важна в эксплуатации: подходы к детектированию должны учитывать семейства триггеров, а не одну точную строку.

Влияние на ИТ-администраторов и команды безопасности

Риски цепочки поставок моделей растут при импортировании open-weight моделей во внутренние среды (hosting, fine-tuning, RAG augmentation или упаковка в приложения).
Стандартные evals могут пропустить sleeper-поведение, поскольку отравленные модели выглядят безобидно, пока не появляется правильный триггер.
Это исследование поддерживает создание повторяемых, аудируемых методов сканирования, дополняющих более широкую «defense in depth» (защищенные build/deploy pipelines, red-teaming и runtime monitoring).
Не стоит забывать о классических угрозах: артефакты моделей также могут быть носителями malware-like tampering (например, вредоносного кода, исполняемого при загрузке). Традиционное malware scanning остается первой линией защиты; Microsoft отмечает malware scanning для моделей с высокой заметностью в Microsoft Foundry.

Microsoft Research: как выявлять бэкдоры в open-weight LLM

Введение: почему это важно

Что нового: три наблюдаемые сигнатуры LLM с бэкдором

1) Перехват attention («double triangle») + коллапс энтропии

2) Модели с бэкдором могут «утекать» данными отравления

3) Бэкдоры «размыты» (могут работать вариации триггера)

Влияние на ИТ-администраторов и команды безопасности

Рекомендуемые следующие шаги

Нужна помощь с Security?

Похожие статьи

Компрометация цепочки поставок Trivy: рекомендации Defender

Управление AI Agent: выравнивание намерений для безопасности

Predictive shielding в Microsoft Defender против GPO-шифровальщика

Защита agentic AI: новые решения Microsoft на RSAC

Microsoft open source CTI-REALM для AI detection engineering

Zero Trust for AI от Microsoft: воркшоп и архитектура