什么是模型对齐?
· 6 min read
对齐是把"会说话的模型"变成"能帮忙的助手"的关键一步。
- 问题:基座模型只会续写 token,不会服从指令。
- 定义:对齐 = 让输出符合有用、诚实、无害 三 个标准。
- SFT:用"指令→回答"样例做监督微调,教会模型执行任务。
- RLHF:人类打分排序 → 训练奖励模型 → PPO 强化学习优化。
- DPO:直接从偏好数据学习,省掉奖励模型,训练更稳定。
- 代价:过度对齐有"对齐税"——创造力下降,安全与能力需要取舍。
- 现实:对齐不是一锤子买卖,用户反馈是最好的持续对齐信号。