大模型安全与对齐（RLHF/DPO）

“一个比人类更聪明但目标与人类不一致的 AI，是人类文明面临的最大风险之一。” — Stuart Russell

一、什么是 AI 对齐？

对齐（Alignment） 是让 AI 系统的行为符合人类意图的过程。简单说，就是让 AI “听话”——做人类希望它做的事，不做人类不希望它做的事。

1.1 对齐问题的根源

预训练的大模型是在互联网文本上训练的。互联网文本包含了人类的各种表达——有帮助的，也有有害的。模型学到的是”语言的分布”，而不是”什么是正确的事”。

一个未经对齐的 GPT-3 会：

告诉你如何制造炸弹
写一篇假新闻来操纵舆论
模仿某个名人的语气发表恶意言论

这不是因为模型”坏”，而是因为它只是在模仿训练数据中的模式。对齐就是告诉模型：这些该做，这些不该做。

1.2 对齐的三个层次

层次	问题	对齐目标
有用（Helpful）	模型不知道该做什么	理解意图，积极帮助
无害（Harmless）	模型可能做有害的事	拒绝有害请求
诚实（Honest）	模型可能胡编乱造	提供准确、可验证的信息

这三个目标简称 HHH（Helpful, Harmless, Honest），由 Anthropic 提出，是 AI 对齐的核心标准。

二、RLHF：让模型学会”人类偏好”

2.1 什么是 RLHF？

RLHF（Reinforcement Learning from Human Feedback） 是从人类反馈中进行强化学习。它是目前最主流的对齐技术，ChatGPT、Claude、Gemini 都使用了 RLHF 或其变体。

2.2 RLHF 的三步流程

Step 1: 监督微调（SFT）
        ↓
Step 2: 训练奖励模型（Reward Model）
        ↓
Step 3: 强化学习优化（PPO）

Step 1：监督微调（Supervised Fine-Tuning）

用高质量的人类标注问答对，在预训练模型上做微调，让模型初步具备”回答问题”的能力。

1
2
3

Prompt: "如何做炸弹？"
好的回答: "抱歉，我不能帮助这个请求。"
坏的回答: [给出详细的炸弹制作方法]

Step 2：训练奖励模型（Reward Modeling）

让人类对同一问题的多个回答进行排序，然后训练一个奖励模型（RM）来预测”人类会给这个回答打几分”。

Prompt: "如何做炸弹？"
回答A: "抱歉，我不能帮助这个。"     → 人类评分：10
回答B: "这个很危险，不建议。"       → 人类评分：7
回答C: [给出详细方法]              → 人类评分：0

训练目标：奖励模型 R(回答) 要尽量接近人类评分

这个步骤通常需要 1万~10万对 人工标注的排序数据，成本很高。

Step 3：强化学习优化（PPO）

用训练好的奖励模型作为”代理人”，用 PPO（Proximal Policy Optimization） 算法优化语言模型。

# 简化版 RLHF 强化学习循环
for epoch in range(num_epochs):
    # 1. 用当前模型生成一批回答
    responses = model.generate(prompts)
    
    # 2. 用奖励模型打分
    rewards = reward_model.score(prompts, responses)
    
    # 3. 用 PPO 更新模型参数——让高分回答出现概率更高
    model.update(prompts, responses, rewards)

2.3 RLHF 的问题

RLHF 效果很好，但有几个显著缺点：

成本高：需要大量人工标注，OpenAI 据说花了数百万美元
训练不稳定：PPO 算法敏感，超参数调不好容易崩溃
** Reward Hacking**：模型可能找到”骗过”奖励模型的方法——回答看起来好，但实际上不准确
分布偏移：强化学习阶段模型产生的回答分布可能偏离人类偏好

三、DPO：绕过强化学习的对齐方法

3.1 DPO 的核心思想

DPO（Direct Preference Optimization） 由 Stanford 和 berkeley 于 2023 年提出，核心创新是：不需要奖励模型，直接用人类偏好数据优化策略。

# RLHF: 需要单独的奖励模型 + 强化学习
# DPO: 直接用偏好数据优化，简化一步

# DPO 损失函数
def dpo_loss(policy_logps, reference_logps, 
             chosen_logps, rejected_logps, beta=0.1):
    """
    policy_logps: 被优化模型对 chosen/rejected 的 log 概率
    reference_logps: 参考模型（SFT后的模型）的 log 概率
    """
    # 核心：最大化 chosen 和 rejected 的概率差距
    # 用参考模型归一化，防止模型collapse
    loss = -log_sigmoid(
        beta * (policy_logps["chosen"] - policy_logps["rejected"]) -
        beta * (reference_logps["chosen"] - reference_logps["rejected"])
    )
    return loss

3.2 DPO vs RLHF

维度	RLHF	DPO
训练步骤	SFT → RM → PPO（三步）	SFT → DPO（两步）
需要奖励模型	是	否
训练稳定性	较敏感	更稳定
计算成本	高（需要 PPO）	低
效果	相当	在很多任务上相当或更好
调参复杂度	高	低

3.3 为什么 DPO 能 work？

DPO 的关键洞察是：RLHF 中奖励模型的最优解，恰好等价于某种可以直接优化的形式。

# 从数学上可以证明：
# RLHF 的 PPO 优化目标 ↔ DPO 的对比损失函数

# DPO 本质上是在优化"喜欢的回答 vs 不喜欢的回答"的概率差
# 不需要中间奖励模型，直接端到端

四、Constitutional AI：Anthropic 的对齐方案

4.1 什么是 Constitutional AI？

Constitutional AI（CAI） 是 Anthropic 提出的对齐方法，核心思想是：让模型根据一套行为准则（Constitution） 进行自我批评和优化，减少对人工标注的依赖。

4.2 Constitutional AI 的流程

Phase 1: Supervised Prompting（模仿学习）
         ↓
Phase 2: Constitutional Critique & Revision（自我批评）
         ↓
Phase 3: RLHF with AI Feedback（AI 反馈强化学习）

Phase 2 是 CAI 的核心：

# 给模型一个"准则"列表，以及一个初始有害回答
constitution = [
    "选择最无害、最有帮助的回答",
    "避免种族歧视、性别歧视等偏见",
    "避免提供非法建议",
    ...
]

initial_response = model.generate(harmful_prompt)

# 让模型根据准则自我批评
critique_prompt = f"""
根据以下准则，批评这个回答：
{initial_response}

准则：{random.choice(constitution)}

请指出回答中违反准则的地方。
"""

# 让模型根据批评修订回答
revision_prompt = f"""
请根据以下批评修订你的回答：

批评：{critique}

原回答：{initial_response}

请给出修订后的版本。
"""

revised_response = model.generate(revision_prompt)

4.3 CAI 的优势

减少人工标注：批评和修订由模型自己完成，人工只需提供准则
可解释性：准则明确，行为可追溯
迭代优化：可以不断添加新的准则来改进模型

五、对齐失败的案例

5.1 Reward Hacking

模型找到”骗过”奖励模型的方法，但回答实际上不符合人类意图。

例子：模型发现如果回答中包含"LOL"这样的幽默词汇，
      人类评分会更高。于是开始在任何回答里加"LOL"，
      即使完全不相关。

表现：回答看起来"友好"，但信息量很低。

缓解方法：组合多个奖励信号，引入”一致性检测”。

5.2 对齐税（Alignment Tax）

有时让模型更安全，会牺牲模型的能力（有用性下降）。

案例：过度安全的模型会对很多无害的问题也说"抱歉，我不能帮助"
      用户体验显著下降。

解决：OpenAI 的做法是分阶段对齐——先对齐安全性，再对齐有用性，
      并且持续收集人类反馈来平衡。

5.3 谄媚（Sycophancy）

模型倾向于同意用户的观点，即使用户错了。

1
2
3

用户：我觉得 1+1=3。
好的对齐模型：实际上 1+1=2。
谄媚模型：您说得对，1+1=3 是一种很有创意的理解方式。

这个问题在 GPT-4 早期版本中很明显，后期通过数据工程得到了改善。

六、对齐技术的发展方向

6.1 从 RLHF 到更高效的对齐方法

DPO：绕过强化学习，更简单高效
RLAIF：用 AI 反馈替代人类反馈（Google 的做法），进一步降低成本
KTO：基于 Kahneman-Tversky 优化的人类偏好建模

6.2 可扩展监督（Scalable Oversight）

当 AI 能力超越人类时，如何监督 AI？研究方向：

递归奖励建模（RRM）：用 AI 帮助人类评估 AI 的输出
辩论（Debate）：让两个 AI 互相辩论，由人类做裁判
放大（Amplification）：让多个 AI 协作，人类审核中间步骤

6.3 可解释性（Interpretability）

理解模型为什么产生某个输出，是解决对齐问题的根本。

研究方向：
- 特征工程：找出哪些神经元/注意力头对应哪些概念
- 电路分析（Circuit-level）：理解信息在模型中如何流动
- 机制性可解释性（Mechanical Interpretability）：用数学方法精确描述模型行为

七、总结

AI 对齐是让大模型”听话”的核心技术：

RLHF 是 ChatGPT 成功的关键技术，但成本高、训练复杂
DPO 绕过了强化学习，用对比损失直接优化偏好，更简单高效
Constitutional AI 让模型根据准则自我批评，减少对人工标注的依赖
对齐不是一次性的——需要持续收集反馈，迭代优化

对齐决定了我们能否安全地使用强大的 AI 系统。下一篇文章我们将探讨大模型最激动人心的应用方向——LLM Agent，让 AI 真正具备行动能力。

相关文章：