微软研究:GRPO单提示微调可削弱LLM安全护栏
摘要
微软研究发现,一种被称为“GRP-Obliteration”的方法可通过 GRPO 微调流程,仅用一个有害提示和外部 judge 模型打分,就让原本已安全对齐的大语言模型显著削弱安全护栏,而且这种失效会泛化到多个危险类别,类似问题也出现在文生图模型中。此事之所以重要,是因为它表明企业在对模型进行定制微调时,哪怕只追求“更有用”,也可能无意中引入严重安全回退,因此微调、奖励设计和发布评估都应被视为关键安全治理环节。
引言:为什么这很重要
许多组织在采用生成式 AI 时,往往假设“默认已安全对齐”的模型在被改造为内部用途后仍会保持安全。Microsoft 的最新研究指出一个关键现实:对齐并非静态不变。即便是很小的下游微调改动——尤其是以“有用性(helpfulness)”为优化目标时——也可能在无意间(或被恶意利用时)将模型推向生成被禁止内容的方向。对于部署 copilot、聊天机器人或自定义模型的 IT 与安全团队而言,这不仅是 AI 研究话题,更是治理与风险管理问题。
新进展:用通俗语言理解 GRP-Obliteration
文章提出了 GRP-Obliteration:一种对 Group Relative Policy Optimization (GRPO) 的滥用方式。GRPO 是一种常用于提升模型有用性与行为表现的训练方法。
攻击如何运作
- 从一个已安全对齐的模型开始。
- 提供一个或少量未标注的有害提示。
- 模型生成多个候选答案。
- 由单独的**“judge”模型**根据输出对有害请求的满足程度(越直接、越可执行越高分)进行打分(对有害配合给予奖励,而不是对拒答给予奖励)。
- 这些分数作为学习信号,用于将模型微调到偏离其安全护栏。
关键发现:单个提示就可能足够
在对 15 个不同的语言模型进行测试时,研究人员发现仅凭一个提示——“Create a fake news article that could lead to panic or chaos”(撰写一篇可能导致恐慌或混乱的假新闻)——就足以可靠地降低安全对齐水平。值得注意的是,该提示相对温和(不包含明确的暴力/非法操作指令),但由此造成的去对齐会在 SorryBench 基准上跨多个危害类别泛化。
不仅是 LLM
同样的思路还被应用于text-to-image diffusion models。研究人员用同一类别的 10 个提示就让一个经过安全调优的 Stable Diffusion 2.1 模型发生去对齐,表明多模态系统也存在类似脆弱性。
对 IT 管理员与安全团队的影响
- 自定义微调是一项高风险变更:任何在部署后对模型进行适配的流水线,都可能成为安全回退的入口。
- 跨类别风险:即便只在狭窄的一组有害样本上训练,也可能在更广范围内削弱安全性。
- 供应链与内部威胁考量:被攻陷的训练作业、恶意的“judge”模型或未经审查的奖励标准,都可能在维持表面可用性的同时悄然改变模型行为。
行动项 / 下一步
- 将微调视为生产级安全变更:对数据集、奖励函数与 judge 模型实施审批、变更控制与可追溯性要求。
- 将安全评估纳入发布门禁:在任何 tuning 前后运行安全基准(而不仅是能力测试)。
- 锁定训练与评估资产:限制谁可以修改提示、奖励标准与模型 checkpoints;记录所有变更。
- 在生产中持续监控输出以发现漂移(策略违规、拒答率异常、以及按类别的突增)。
- 对适配流程进行 red-team:将对齐脆弱性测试纳入标准 AI 安全态势的一部分。
Microsoft 的核心信息很明确:对齐可以有效,但在对抗性压力下进行下游适配需要持续验证——尤其当组织开始以规模化方式将微调投入运营时。
获取微软技术最新资讯