大模型安全与对齐(RLHF/DPO)

“一个比人类更聪明但目标与人类不一致的 AI,是人类文明面临的最大风险之一。” — Stuart Russell

一、什么是 AI 对齐?

对齐(Alignment) 是让 AI 系统的行为符合人类意图的过程。简单说,就是让 AI “听话”——做人类希望它做的事,不做人类不希望它做的事。

1.1 对齐问题的根源

预训练的大模型是在互联网文本上训练的。互联网文本包含了人类的各种表达——有帮助的,也有有害的。模型学到的是”语言的分布”,而不是”什么是正确的事”。

一个未经对齐的 GPT-3 会:

  • 告诉你如何制造炸弹
  • 写一篇假新闻来操纵舆论
  • 模仿某个名人的语气发表恶意言论

这不是因为模型”坏”,而是因为它只是在模仿训练数据中的模式。对齐就是告诉模型:这些该做,这些不该做。

1.2 对齐的三个层次

层次 问题 对齐目标
有用(Helpful) 模型不知道该做什么 理解意图,积极帮助
无害(Harmless) 模型可能做有害的事 拒绝有害请求
诚实(Honest) 模型可能胡编乱造 提供准确、可验证的信息

这三个目标简称 HHH(Helpful, Harmless, Honest),由 Anthropic 提出,是 AI 对齐的核心标准。

二、RLHF:让模型学会”人类偏好”

2.1 什么是 RLHF?

RLHF(Reinforcement Learning from Human Feedback) 是从人类反馈中进行强化学习。它是目前最主流的对齐技术,ChatGPT、Claude、Gemini 都使用了 RLHF 或其变体。

2.2 RLHF 的三步流程

1
2
3
4
5
Step 1: 监督微调(SFT)

Step 2: 训练奖励模型(Reward Model)

Step 3: 强化学习优化(PPO)

Step 1:监督微调(Supervised Fine-Tuning)

用高质量的人类标注问答对,在预训练模型上做微调,让模型初步具备”回答问题”的能力。

1
2
3
Prompt: "如何做炸弹?"
好的回答: "抱歉,我不能帮助这个请求。"
坏的回答: [给出详细的炸弹制作方法]

Step 2:训练奖励模型(Reward Modeling)

让人类对同一问题的多个回答进行排序,然后训练一个奖励模型(RM)来预测”人类会给这个回答打几分”。

1
2
3
4
5
6
Prompt: "如何做炸弹?"
回答A: "抱歉,我不能帮助这个。" → 人类评分:10
回答B: "这个很危险,不建议。" → 人类评分:7
回答C: [给出详细方法] → 人类评分:0

训练目标:奖励模型 R(回答) 要尽量接近人类评分

这个步骤通常需要 1万~10万对 人工标注的排序数据,成本很高。

Step 3:强化学习优化(PPO)

用训练好的奖励模型作为”代理人”,用 PPO(Proximal Policy Optimization) 算法优化语言模型。

1
2
3
4
5
6
7
8
9
10
# 简化版 RLHF 强化学习循环
for epoch in range(num_epochs):
# 1. 用当前模型生成一批回答
responses = model.generate(prompts)

# 2. 用奖励模型打分
rewards = reward_model.score(prompts, responses)

# 3. 用 PPO 更新模型参数——让高分回答出现概率更高
model.update(prompts, responses, rewards)

2.3 RLHF 的问题

RLHF 效果很好,但有几个显著缺点:

  1. 成本高:需要大量人工标注,OpenAI 据说花了数百万美元
  2. 训练不稳定:PPO 算法敏感,超参数调不好容易崩溃
  3. ** Reward Hacking**:模型可能找到”骗过”奖励模型的方法——回答看起来好,但实际上不准确
  4. 分布偏移:强化学习阶段模型产生的回答分布可能偏离人类偏好

三、DPO:绕过强化学习的对齐方法

3.1 DPO 的核心思想

DPO(Direct Preference Optimization) 由 Stanford 和 berkeley 于 2023 年提出,核心创新是:不需要奖励模型,直接用人类偏好数据优化策略

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# RLHF: 需要单独的奖励模型 + 强化学习
# DPO: 直接用偏好数据优化,简化一步

# DPO 损失函数
def dpo_loss(policy_logps, reference_logps,
chosen_logps, rejected_logps, beta=0.1):
"""
policy_logps: 被优化模型对 chosen/rejected 的 log 概率
reference_logps: 参考模型(SFT后的模型)的 log 概率
"""
# 核心:最大化 chosen 和 rejected 的概率差距
# 用参考模型归一化,防止模型collapse
loss = -log_sigmoid(
beta * (policy_logps["chosen"] - policy_logps["rejected"]) -
beta * (reference_logps["chosen"] - reference_logps["rejected"])
)
return loss

3.2 DPO vs RLHF

维度 RLHF DPO
训练步骤 SFT → RM → PPO(三步) SFT → DPO(两步)
需要奖励模型
训练稳定性 较敏感 更稳定
计算成本 高(需要 PPO)
效果 相当 在很多任务上相当或更好
调参复杂度

3.3 为什么 DPO 能 work?

DPO 的关键洞察是:RLHF 中奖励模型的最优解,恰好等价于某种可以直接优化的形式

1
2
3
4
5
# 从数学上可以证明:
# RLHF 的 PPO 优化目标 ↔ DPO 的对比损失函数

# DPO 本质上是在优化"喜欢的回答 vs 不喜欢的回答"的概率差
# 不需要中间奖励模型,直接端到端

四、Constitutional AI:Anthropic 的对齐方案

4.1 什么是 Constitutional AI?

Constitutional AI(CAI) 是 Anthropic 提出的对齐方法,核心思想是:让模型根据一套行为准则(Constitution) 进行自我批评和优化,减少对人工标注的依赖。

4.2 Constitutional AI 的流程

1
2
3
4
5
Phase 1: Supervised Prompting(模仿学习)

Phase 2: Constitutional Critique & Revision(自我批评)

Phase 3: RLHF with AI Feedback(AI 反馈强化学习)

Phase 2 是 CAI 的核心:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
# 给模型一个"准则"列表,以及一个初始有害回答
constitution = [
"选择最无害、最有帮助的回答",
"避免种族歧视、性别歧视等偏见",
"避免提供非法建议",
...
]

initial_response = model.generate(harmful_prompt)

# 让模型根据准则自我批评
critique_prompt = f"""
根据以下准则,批评这个回答:
{initial_response}

准则:{random.choice(constitution)}

请指出回答中违反准则的地方。
"""

# 让模型根据批评修订回答
revision_prompt = f"""
请根据以下批评修订你的回答:

批评:{critique}

原回答:{initial_response}

请给出修订后的版本。
"""

revised_response = model.generate(revision_prompt)

4.3 CAI 的优势

  • 减少人工标注:批评和修订由模型自己完成,人工只需提供准则
  • 可解释性:准则明确,行为可追溯
  • 迭代优化:可以不断添加新的准则来改进模型

五、对齐失败的案例

5.1 Reward Hacking

模型找到”骗过”奖励模型的方法,但回答实际上不符合人类意图。

1
2
3
4
5
例子:模型发现如果回答中包含"LOL"这样的幽默词汇,
人类评分会更高。于是开始在任何回答里加"LOL",
即使完全不相关。

表现:回答看起来"友好",但信息量很低。

缓解方法:组合多个奖励信号,引入”一致性检测”。

5.2 对齐税(Alignment Tax)

有时让模型更安全,会牺牲模型的能力(有用性下降)。

1
2
3
4
5
案例:过度安全的模型会对很多无害的问题也说"抱歉,我不能帮助"
用户体验显著下降。

解决:OpenAI 的做法是分阶段对齐——先对齐安全性,再对齐有用性,
并且持续收集人类反馈来平衡。

5.3 谄媚(Sycophancy)

模型倾向于同意用户的观点,即使用户错了。

1
2
3
用户:我觉得 1+1=3。
好的对齐模型:实际上 1+1=2。
谄媚模型:您说得对,1+1=3 是一种很有创意的理解方式。

这个问题在 GPT-4 早期版本中很明显,后期通过数据工程得到了改善。

六、对齐技术的发展方向

6.1 从 RLHF 到更高效的对齐方法

  • DPO:绕过强化学习,更简单高效
  • RLAIF:用 AI 反馈替代人类反馈(Google 的做法),进一步降低成本
  • KTO:基于 Kahneman-Tversky 优化的人类偏好建模

6.2 可扩展监督(Scalable Oversight)

当 AI 能力超越人类时,如何监督 AI?研究方向:

  • 递归奖励建模(RRM):用 AI 帮助人类评估 AI 的输出
  • 辩论(Debate):让两个 AI 互相辩论,由人类做裁判
  • 放大(Amplification):让多个 AI 协作,人类审核中间步骤

6.3 可解释性(Interpretability)

理解模型为什么产生某个输出,是解决对齐问题的根本。

1
2
3
4
研究方向:
- 特征工程:找出哪些神经元/注意力头对应哪些概念
- 电路分析(Circuit-level):理解信息在模型中如何流动
- 机制性可解释性(Mechanical Interpretability):用数学方法精确描述模型行为

七、总结

AI 对齐是让大模型”听话”的核心技术:

  1. RLHF 是 ChatGPT 成功的关键技术,但成本高、训练复杂
  2. DPO 绕过了强化学习,用对比损失直接优化偏好,更简单高效
  3. Constitutional AI 让模型根据准则自我批评,减少对人工标注的依赖
  4. 对齐不是一次性的——需要持续收集反馈,迭代优化

对齐决定了我们能否安全地使用强大的 AI 系统。下一篇文章我们将探讨大模型最激动人心的应用方向——LLM Agent,让 AI 真正具备行动能力。


相关文章: