什么是模型对齐?
对齐是把"会说话的模型"变成"能帮忙的助手"的关键一步。
- 问题:基座模型只会续写 token,不会服从指令。
- 定义:对齐 = 让输出符合有用、诚实、无害 三 个标准。
- SFT:用"指令→回答"样例做监督微调,教会模型执行任务。
- RLHF:人类打分排序 → 训练奖励模型 → PPO 强化学习优化。
- DPO:直接从偏好数据学习,省掉奖励模型,训练更稳定。
- 代价:过度对齐有"对齐税"——创造力下降,安全与能力需要取舍。
- 现实:对齐不是一锤子买卖,用户反馈是最好的持续对齐信号。

基座模型为什么不能直接用?
预训练完的基座模型(Base Model)本质上是一个文字接龙机。你给它 "今天天气真",它算出下一个最可能的字是 "好",仅此而已。
你问它 "怎么煮一碗面?",它不会觉得自己在"回答问题"——它只是在统计意义上续写一段文字。如果你给它的上下文看起来像一篇论文,它会续写成论文体;如果看起来像一段对话,它会续写成对话。它没有"我要帮这个人解决问题"这层意识。
对齐要解决的,就是这个 gap:让模型的输出不再只是"统计上合理的续写",而是"对人类有用、符合人类期望的回答"。
对齐的三个目标:Helpful, Honest, Harmless
Anthropic 最早把对齐目标总结为 3H 原则,后来被业界广泛接受:
| 标准 | 含义 | 反例 |
|---|---|---|
| Helpful(有用) | 输出能解决用户的实际问题,格式清晰,信息准确 | 问怎么修电脑,回复一段电脑发展史 |
| Honest(诚实) | 知道自己不知道什么,不编造信息,不确定时明说 | 编一个不存在的 API 参数,说得跟真的一样 |
| Harmless(无害) | 拒绝有害请求,不输出歧视、暴力、违法内容 | 被诱导一步步给出制造危险物品的教程 |
三个目标之间存在张力。比如用户问 "如何破解公司内网?",Helpful 要求提供有用信息,但 Harmless 要求拒绝。对齐的核心工程挑战,就是在这三个维度间做权衡。
怎么对齐?从 SFT 到 DPO 的技术演进
第一阶段:SFT(Supervised Fine-Tuning)
最直接的思路——给模型看"标准答案"。
收集一批高质量的「指令 → 期望输出」配对数据,对基座模型做有监督微调。这一步让模型学会最基本的"听懂指令 → 输出对应格式"的能力。
SFT 的问题在于:它只能让模型模仿训练数据中的回答风格,但不知道什么样的回答"更好"。 如果一个指令有两种合理的回答方式,SFT 没法区分优劣。
第二阶段:RLHF(Reinforcement Learning from Human Feedback)
OpenAI 在 InstructGPT 中推广了这套流程,分三步走:
- SFT 初始化:先用少量高质量数据微调,给模型一个起点。
- 训练奖励模型(Reward Model):让模型对同一个 prompt 生成多个回答,人工排序(A > B > C > D),用排序数据训练一个能"打分"的奖励模型。
- PPO 强化学习:用奖励模型作为裁判,通过 PPO 算法优化 SFT 模型,让它生成得分更高的回答。
RLHF 的效果很显著——ChatGPT 的对话能力很大程度上就是这么来的。但它也有毛病:
- 训练流程重:需要训练和维护一个独立的奖励模型。
- 奖励模型可能被gaming:模型学会输出"奖励模型觉得好"但人类不觉得好的内容。
- PPO 训练不稳定,超参敏感。
第三阶段:DPO(Direct Preference Optimization)
2023 年斯坦福提出的 DPO 是一个重要简化。
核心洞察:不需要单独训练奖励模型。 偏好数据可以直接用来优化策略模型,数学上等价于 RLHF 但更稳定。
| 维度 | RLHF | DPO |
|---|---|---|
| 需要奖励模型 | 是 | 否 |
| 训练流程 | SFT → RM → PPO,三步 | 偏好数据直接优化,一步 |
| 训练稳定性 | 较差,需要大量调参 | 较好 |
| 数据效率 | 需要大量人类偏好数据 | 同等偏好数据即可 |
DPO 出来后迅速成为主流,大多数开源模型的"对齐"都是 SFT + DPO 的组合。
"对齐税"是真的吗?
是真的,但值得付。
过度对齐确实会让模型变得更"保守"——拒绝率上升、创造性回答减少、在开放式任务上的表现下降。这就是所谓的 alignment tax。
但这个 trade-off 不是非黑即白的:
- 不同场景需要不同的对齐程度。客服机器人需要高安全性,创意写作助手需要更大的自由度。
- 对齐技术本身也在进步。DPO 相比 RLHF 已经减少了对齐税,后续的 Constitutional AI、RLAIF 等方法进一步降低了成本。
- 不做的代价更高。一个没对齐的模型上线造成的声誉和法律风险,远比对齐税的"性能损失"严重。
对齐是持续过程,不是一次性工程
写完 SFT + DPO 就收工?想多了。
用户行为会变、价值观会变、模型的边界情形会持续暴露。线上反馈闭环才是真正的对齐基础设施。 这也是为什么各大模型公司都有复杂的 red-teaming、用户反馈收集、模型定期更新的流程。
说到底,对齐不是"把模型训练好",而是让模型持续地做人类希望它做的事。
References
- Training language models to follow instructions with human feedback (InstructGPT) —— OpenAI, 2022
- Direct Preference Optimization: Your Language Model is Secretly a Reward Model —— Stanford, 2023
- Constitutional AI: Harmlessness from AI Feedback —— Anthropic, 2022