Skip to main content

什么是模型对齐?

· 6 min read

对齐是把"会说话的模型"变成"能帮忙的助手"的关键一步。

  • 问题:基座模型只会续写 token,不会服从指令
  • 定义:对齐 = 让输出符合有用、诚实、无害 个标准。
  • SFT:用"指令→回答"样例做监督微调,教会模型执行任务。
  • RLHF:人类打分排序 → 训练奖励模型 → PPO 强化学习优化。
  • DPO:直接从偏好数据学习,省掉奖励模型,训练更稳定。
  • 代价:过度对齐有"对齐税"——创造力下降,安全与能力需要取舍。
  • 现实:对齐不是一锤子买卖,用户反馈是最好的持续对齐信号。

model alignment

基座模型为什么不能直接用?

预训练完的基座模型(Base Model)本质上是一个文字接龙机。你给它 "今天天气真",它算出下一个最可能的字是 "好",仅此而已。

你问它 "怎么煮一碗面?",它不会觉得自己在"回答问题"——它只是在统计意义上续写一段文字。如果你给它的上下文看起来像一篇论文,它会续写成论文体;如果看起来像一段对话,它会续写成对话。它没有"我要帮这个人解决问题"这层意识。

对齐要解决的,就是这个 gap:让模型的输出不再只是"统计上合理的续写",而是"对人类有用、符合人类期望的回答"。

对齐的三个目标:Helpful, Honest, Harmless

Anthropic 最早把对齐目标总结为 3H 原则,后来被业界广泛接受:

标准含义反例
Helpful(有用)输出能解决用户的实际问题,格式清晰,信息准确问怎么修电脑,回复一段电脑发展史
Honest(诚实)知道自己不知道什么,不编造信息,不确定时明说编一个不存在的 API 参数,说得跟真的一样
Harmless(无害)拒绝有害请求,不输出歧视、暴力、违法内容被诱导一步步给出制造危险物品的教程

三个目标之间存在张力。比如用户问 "如何破解公司内网?",Helpful 要求提供有用信息,但 Harmless 要求拒绝。对齐的核心工程挑战,就是在这三个维度间做权衡。

怎么对齐?从 SFT 到 DPO 的技术演进

第一阶段:SFT(Supervised Fine-Tuning)

最直接的思路——给模型看"标准答案"。

收集一批高质量的「指令 → 期望输出」配对数据,对基座模型做有监督微调。这一步让模型学会最基本的"听懂指令 → 输出对应格式"的能力。

SFT 的问题在于:它只能让模型模仿训练数据中的回答风格,但不知道什么样的回答"更好"。 如果一个指令有两种合理的回答方式,SFT 没法区分优劣。

第二阶段:RLHF(Reinforcement Learning from Human Feedback)

OpenAI 在 InstructGPT 中推广了这套流程,分三步走:

  1. SFT 初始化:先用少量高质量数据微调,给模型一个起点。
  2. 训练奖励模型(Reward Model):让模型对同一个 prompt 生成多个回答,人工排序(A > B > C > D),用排序数据训练一个能"打分"的奖励模型。
  3. PPO 强化学习:用奖励模型作为裁判,通过 PPO 算法优化 SFT 模型,让它生成得分更高的回答。

RLHF 的效果很显著——ChatGPT 的对话能力很大程度上就是这么来的。但它也有毛病:

  • 训练流程:需要训练和维护一个独立的奖励模型。
  • 奖励模型可能被gaming:模型学会输出"奖励模型觉得好"但人类不觉得好的内容。
  • PPO 训练不稳定,超参敏感。

第三阶段:DPO(Direct Preference Optimization)

2023 年斯坦福提出的 DPO 是一个重要简化。

核心洞察:不需要单独训练奖励模型。 偏好数据可以直接用来优化策略模型,数学上等价于 RLHF 但更稳定。

维度RLHFDPO
需要奖励模型
训练流程SFT → RM → PPO,三步偏好数据直接优化,一步
训练稳定性较差,需要大量调参较好
数据效率需要大量人类偏好数据同等偏好数据即可

DPO 出来后迅速成为主流,大多数开源模型的"对齐"都是 SFT + DPO 的组合。

"对齐税"是真的吗?

是真的,但值得付。

过度对齐确实会让模型变得更"保守"——拒绝率上升、创造性回答减少、在开放式任务上的表现下降。这就是所谓的 alignment tax。

但这个 trade-off 不是非黑即白的:

  • 不同场景需要不同的对齐程度。客服机器人需要高安全性,创意写作助手需要更大的自由度。
  • 对齐技术本身也在进步。DPO 相比 RLHF 已经减少了对齐税,后续的 Constitutional AI、RLAIF 等方法进一步降低了成本。
  • 不做的代价更高。一个没对齐的模型上线造成的声誉和法律风险,远比对齐税的"性能损失"严重。

对齐是持续过程,不是一次性工程

写完 SFT + DPO 就收工?想多了。

用户行为会变、价值观会变、模型的边界情形会持续暴露。线上反馈闭环才是真正的对齐基础设施。 这也是为什么各大模型公司都有复杂的 red-teaming、用户反馈收集、模型定期更新的流程。

说到底,对齐不是"把模型训练好",而是让模型持续地做人类希望它做的事

References

  1. Training language models to follow instructions with human feedback (InstructGPT) —— OpenAI, 2022
  2. Direct Preference Optimization: Your Language Model is Secretly a Reward Model —— Stanford, 2023
  3. Constitutional AI: Harmlessness from AI Feedback —— Anthropic, 2022