什么是模型对齐？

June 8, 2026 · 6 min read

对齐是把"会说话的模型"变成"能帮忙的助手"的关键一步。

问题：基座模型只会续写 token，不会服从指令。
定义：对齐 = 让输出符合有用、诚实、无害三个标准。
SFT：用"指令→回答"样例做监督微调，教会模型执行任务。
RLHF：人类打分排序 → 训练奖励模型 → PPO 强化学习优化。
DPO：直接从偏好数据学习，省掉奖励模型，训练更稳定。
代价：过度对齐有"对齐税"——创造力下降，安全与能力需要取舍。
现实：对齐不是一锤子买卖，用户反馈是最好的持续对齐信号。

基座模型为什么不能直接用？

预训练完的基座模型（Base Model）本质上是一个文字接龙机。你给它 "今天天气真"，它算出下一个最可能的字是 "好"，仅此而已。

你问它 "怎么煮一碗面？"，它不会觉得自己在"回答问题"——它只是在统计意义上续写一段文字。如果你给它的上下文看起来像一篇论文，它会续写成论文体；如果看起来像一段对话，它会续写成对话。它没有"我要帮这个人解决问题"这层意识。

对齐要解决的，就是这个 gap：让模型的输出不再只是"统计上合理的续写"，而是"对人类有用、符合人类期望的回答"。

对齐的三个目标：Helpful, Honest, Harmless

Anthropic 最早把对齐目标总结为 3H 原则，后来被业界广泛接受：

标准	含义	反例
Helpful（有用）	输出能解决用户的实际问题，格式清晰，信息准确	问怎么修电脑，回复一段电脑发展史
Honest（诚实）	知道自己不知道什么，不编造信息，不确定时明说	编一个不存在的 API 参数，说得跟真的一样
Harmless（无害）	拒绝有害请求，不输出歧视、暴力、违法内容	被诱导一步步给出制造危险物品的教程

三个目标之间存在张力。比如用户问 "如何破解公司内网？"，Helpful 要求提供有用信息，但 Harmless 要求拒绝。对齐的核心工程挑战，就是在这三个维度间做权衡。

怎么对齐？从 SFT 到 DPO 的技术演进

第一阶段：SFT（Supervised Fine-Tuning）

最直接的思路——给模型看"标准答案"。

收集一批高质量的「指令 → 期望输出」配对数据，对基座模型做有监督微调。这一步让模型学会最基本的"听懂指令 → 输出对应格式"的能力。

SFT 的问题在于：它只能让模型模仿训练数据中的回答风格，但不知道什么样的回答"更好"。 如果一个指令有两种合理的回答方式，SFT 没法区分优劣。

第二阶段：RLHF（Reinforcement Learning from Human Feedback）

OpenAI 在 InstructGPT 中推广了这套流程，分三步走：

SFT 初始化：先用少量高质量数据微调，给模型一个起点。
训练奖励模型（Reward Model）：让模型对同一个 prompt 生成多个回答，人工排序（A > B > C > D），用排序数据训练一个能"打分"的奖励模型。
PPO 强化学习：用奖励模型作为裁判，通过 PPO 算法优化 SFT 模型，让它生成得分更高的回答。

RLHF 的效果很显著——ChatGPT 的对话能力很大程度上就是这么来的。但它也有毛病：

训练流程重：需要训练和维护一个独立的奖励模型。
奖励模型可能被gaming：模型学会输出"奖励模型觉得好"但人类不觉得好的内容。
PPO 训练不稳定，超参敏感。

第三阶段：DPO（Direct Preference Optimization）

2023 年斯坦福提出的 DPO 是一个重要简化。

核心洞察：不需要单独训练奖励模型。 偏好数据可以直接用来优化策略模型，数学上等价于 RLHF 但更稳定。

维度	RLHF	DPO
需要奖励模型	是	否
训练流程	SFT → RM → PPO，三步	偏好数据直接优化，一步
训练稳定性	较差，需要大量调参	较好
数据效率	需要大量人类偏好数据	同等偏好数据即可

DPO 出来后迅速成为主流，大多数开源模型的"对齐"都是 SFT + DPO 的组合。

"对齐税"是真的吗？

是真的，但值得付。

过度对齐确实会让模型变得更"保守"——拒绝率上升、创造性回答减少、在开放式任务上的表现下降。这就是所谓的 alignment tax。

但这个 trade-off 不是非黑即白的：

不同场景需要不同的对齐程度。客服机器人需要高安全性，创意写作助手需要更大的自由度。
对齐技术本身也在进步。DPO 相比 RLHF 已经减少了对齐税，后续的 Constitutional AI、RLAIF 等方法进一步降低了成本。
不做的代价更高。一个没对齐的模型上线造成的声誉和法律风险，远比对齐税的"性能损失"严重。

对齐是持续过程，不是一次性工程

写完 SFT + DPO 就收工？想多了。

用户行为会变、价值观会变、模型的边界情形会持续暴露。线上反馈闭环才是真正的对齐基础设施。 这也是为什么各大模型公司都有复杂的 red-teaming、用户反馈收集、模型定期更新的流程。

说到底，对齐不是"把模型训练好"，而是让模型持续地做人类希望它做的事。

References

Training language models to follow instructions with human feedback (InstructGPT) —— OpenAI, 2022
Direct Preference Optimization: Your Language Model is Secretly a Reward Model —— Stanford, 2023
Constitutional AI: Harmlessness from AI Feedback —— Anthropic, 2022

基座模型为什么不能直接用？​

对齐的三个目标：Helpful, Honest, Harmless​

怎么对齐？从 SFT 到 DPO 的技术演进​

第一阶段：SFT（Supervised Fine-Tuning）​

第二阶段：RLHF（Reinforcement Learning from Human Feedback）​

第三阶段：DPO（Direct Preference Optimization）​

"对齐税"是真的吗？​

对齐是持续过程，不是一次性工程​

References​