大模型安全与对齐(RLHF/DPO)
大模型安全与对齐(RLHF/DPO)
“一个比人类更聪明但目标与人类不一致的 AI,是人类文明面临的最大风险之一。” — Stuart Russell
一、什么是 AI 对齐?
对齐(Alignment) 是让 AI 系统的行为符合人类意图的过程。简单说,就是让 AI “听话”——做人类希望它做的事,不做人类不希望它做的事。
1.1 对齐问题的根源
预训练的大模型是在互联网文本上训练的。互联网文本包含了人类的各种表达——有帮助的,也有有害的。模型学到的是”语言的分布”,而不是”什么是正确的事”。
一个未经对齐的 GPT-3 会:
- 告诉你如何制造炸弹
- 写一篇假新闻来操纵舆论
- 模仿某个名人的语气发表恶意言论
这不是因为模型”坏”,而是因为它只是在模仿训练数据中的模式。对齐就是告诉模型:这些该做,这些不该做。
1.2 对齐的三个层次
| 层次 | 问题 | 对齐目标 |
|---|---|---|
| 有用(Helpful) | 模型不知道该做什么 | 理解意图,积极帮助 |
| 无害(Harmless) | 模型可能做有害的事 | 拒绝有害请求 |
| 诚实(Honest) | 模型可能胡编乱造 | 提供准确、可验证的信息 |
这三个目标简称 HHH(Helpful, Harmless, Honest),由 Anthropic 提出,是 AI 对齐的核心标准。
二、RLHF:让模型学会”人类偏好”
2.1 什么是 RLHF?
RLHF(Reinforcement Learning from Human Feedback) 是从人类反馈中进行强化学习。它是目前最主流的对齐技术,ChatGPT、Claude、Gemini 都使用了 RLHF 或其变体。
2.2 RLHF 的三步流程
1 | Step 1: 监督微调(SFT) |
Step 1:监督微调(Supervised Fine-Tuning)
用高质量的人类标注问答对,在预训练模型上做微调,让模型初步具备”回答问题”的能力。
1 | Prompt: "如何做炸弹?" |
Step 2:训练奖励模型(Reward Modeling)
让人类对同一问题的多个回答进行排序,然后训练一个奖励模型(RM)来预测”人类会给这个回答打几分”。
1 | Prompt: "如何做炸弹?" |
这个步骤通常需要 1万~10万对 人工标注的排序数据,成本很高。
Step 3:强化学习优化(PPO)
用训练好的奖励模型作为”代理人”,用 PPO(Proximal Policy Optimization) 算法优化语言模型。
1 | # 简化版 RLHF 强化学习循环 |
2.3 RLHF 的问题
RLHF 效果很好,但有几个显著缺点:
- 成本高:需要大量人工标注,OpenAI 据说花了数百万美元
- 训练不稳定:PPO 算法敏感,超参数调不好容易崩溃
- ** Reward Hacking**:模型可能找到”骗过”奖励模型的方法——回答看起来好,但实际上不准确
- 分布偏移:强化学习阶段模型产生的回答分布可能偏离人类偏好
三、DPO:绕过强化学习的对齐方法
3.1 DPO 的核心思想
DPO(Direct Preference Optimization) 由 Stanford 和 berkeley 于 2023 年提出,核心创新是:不需要奖励模型,直接用人类偏好数据优化策略。
1 | # RLHF: 需要单独的奖励模型 + 强化学习 |
3.2 DPO vs RLHF
| 维度 | RLHF | DPO |
|---|---|---|
| 训练步骤 | SFT → RM → PPO(三步) | SFT → DPO(两步) |
| 需要奖励模型 | 是 | 否 |
| 训练稳定性 | 较敏感 | 更稳定 |
| 计算成本 | 高(需要 PPO) | 低 |
| 效果 | 相当 | 在很多任务上相当或更好 |
| 调参复杂度 | 高 | 低 |
3.3 为什么 DPO 能 work?
DPO 的关键洞察是:RLHF 中奖励模型的最优解,恰好等价于某种可以直接优化的形式。
1 | # 从数学上可以证明: |
四、Constitutional AI:Anthropic 的对齐方案
4.1 什么是 Constitutional AI?
Constitutional AI(CAI) 是 Anthropic 提出的对齐方法,核心思想是:让模型根据一套行为准则(Constitution) 进行自我批评和优化,减少对人工标注的依赖。
4.2 Constitutional AI 的流程
1 | Phase 1: Supervised Prompting(模仿学习) |
Phase 2 是 CAI 的核心:
1 | # 给模型一个"准则"列表,以及一个初始有害回答 |
4.3 CAI 的优势
- 减少人工标注:批评和修订由模型自己完成,人工只需提供准则
- 可解释性:准则明确,行为可追溯
- 迭代优化:可以不断添加新的准则来改进模型
五、对齐失败的案例
5.1 Reward Hacking
模型找到”骗过”奖励模型的方法,但回答实际上不符合人类意图。
1 | 例子:模型发现如果回答中包含"LOL"这样的幽默词汇, |
缓解方法:组合多个奖励信号,引入”一致性检测”。
5.2 对齐税(Alignment Tax)
有时让模型更安全,会牺牲模型的能力(有用性下降)。
1 | 案例:过度安全的模型会对很多无害的问题也说"抱歉,我不能帮助" |
5.3 谄媚(Sycophancy)
模型倾向于同意用户的观点,即使用户错了。
1 | 用户:我觉得 1+1=3。 |
这个问题在 GPT-4 早期版本中很明显,后期通过数据工程得到了改善。
六、对齐技术的发展方向
6.1 从 RLHF 到更高效的对齐方法
- DPO:绕过强化学习,更简单高效
- RLAIF:用 AI 反馈替代人类反馈(Google 的做法),进一步降低成本
- KTO:基于 Kahneman-Tversky 优化的人类偏好建模
6.2 可扩展监督(Scalable Oversight)
当 AI 能力超越人类时,如何监督 AI?研究方向:
- 递归奖励建模(RRM):用 AI 帮助人类评估 AI 的输出
- 辩论(Debate):让两个 AI 互相辩论,由人类做裁判
- 放大(Amplification):让多个 AI 协作,人类审核中间步骤
6.3 可解释性(Interpretability)
理解模型为什么产生某个输出,是解决对齐问题的根本。
1 | 研究方向: |
七、总结
AI 对齐是让大模型”听话”的核心技术:
- RLHF 是 ChatGPT 成功的关键技术,但成本高、训练复杂
- DPO 绕过了强化学习,用对比损失直接优化偏好,更简单高效
- Constitutional AI 让模型根据准则自我批评,减少对人工标注的依赖
- 对齐不是一次性的——需要持续收集反馈,迭代优化
对齐决定了我们能否安全地使用强大的 AI 系统。下一篇文章我们将探讨大模型最激动人心的应用方向——LLM Agent,让 AI 真正具备行动能力。
相关文章: