强化学习强在哪？

May 26, 2026 · 6 min read

强化学习强在哪？一句话：它不需要正确答案，只需要对错信号。

监督学习从标注数据里找规律，强化学习从环境奖惩里学策略。两者的区别不是"强弱"，而是解决问题的类型完全不同——SL 学映射，RL 学决策。

最容易被误解的一点：强化学习的目标不是每次选最优动作，而是最大化长期累积回报。只看眼前奖励的 RL 跟贪心算法没区别，价值函数才是它的灵魂。

Actor-Critic 架构让模型同时扮演"演员"和"评论家"两个角色——一个负责决策，一个负责评判，互相对抗、一起进化，AlphaGo 的底层思路也源于此。

最关键的应用：PPO 算法驱动了 RLHF，让大模型通过人类反馈学会"察言观色"。训练数据见顶的背景下，RL 是提升模型推理能力的核心引擎。

监督学习和强化学习，到底差在哪？

监督学习和强化学习的根本区别，不是"谁更强"，而是学习的信号来源完全不同。

监督学习需要标注数据。给你一堆图片，每张标好"猫"或"狗"，模型照着学。本质上是在模仿正确答案——数据质量决定模型上限。

强化学习不需要正确答案。它只需要一个环境和一个奖励函数。做对了加分，做错了扣分，模型自己在试错中摸索策略。整个过程没有人告诉它"应该怎么做"，只有环境告诉它"做得好不好"。

1898 年，心理学家桑代克做了个实验：把猫关进笼子，只有成功逃脱才能吃到食物。一开始猫乱抓乱碰，90 秒才逃出来。随着训练次数增加，逃离时间一路缩短到 6 秒。不断试错、不断获得奖励、最后学会——这就是强化学习的核心思想，比"机器学习"这个词的出现早了 60 年。

这个实验也暴露了 RL 最大的难点：奖励信号是延迟的、稀疏的。猫不是每抓一下笼子就有反馈，而是逃脱那一刻才知道"刚才那套动作是对的"。怎么把最后的成功归功到过程中具体哪个动作？这就是 RL 要解决的核心问题。

很多人以为强化学习就是"选奖励最高的动作"。如果真这么简单，RL 跟贪心算法确实没区别。

强化学习真正厉害的地方在于价值函数（Value Function）——它衡量的不是眼前的奖励，而是从当前状态出发，未来能获得的累积总回报。

举个例子：凌晨 12 点，明天要交毕业论文。你有三个选择——刷视频、吃宵夜、写论文。刷视频当下最爽，但从长远看，交不了论文就毕不了业。价值函数告诉你：写论文这个"当下很痛苦"的选择，反而是长期收益最大的。

这就是 RL 区别于简单规则的关键：最优策略不一定是当下最舒服的，但一定能让长期总收益最大化。

换个角度理解：价值函数本质上是在给"未来"定价。一个状态好不好，不是看它自己产生多少奖励，而是看它通向的未来有多值钱。这也是为什么围棋 AI 愿意放弃眼前棋子去布局几十手之后的反攻——价值函数算的是全局，不是局部。

1983 年，Barto 和 Sutton 提出了 Actor-Critic 架构，这个思路直到今天还是强化学习的核心框架。

架构里两个角色分工明确：

演员根据评论家的打分调整策略，评论家看的表演多了评价越来越准。两个角色互相倒逼、一起进化——整个过程不需要外部标注，模型在自循环里完成自我提升。

AlphaGo 打败柯洁，用的就是这个架构的变种。不是因为它记住了所有棋谱，而是因为它通过无数次自我对弈，让演员和评论家同时训练到了极致。

1988 年，Sutton 提出时序差分学习（TD Learning）。核心想法非常朴素：不要等到最终结果才回头总结，每一步都用当前观察到的奖励来校准对未来收益的估计。

打个比方：如果你有重生的超能力且能保留前世记忆。第一世你懵懵懂懂被车撞了，第二世你避开马路却荒废了学业，第三世你努力学习但透支了健康...每一世都根据上一世的经验微调决策，最终你学会平衡生活、规律作息，活到了 80 岁。这就是 TD——不是等到人生终点才后悔，而是每走一步都在校准方向。

TD 这条线一直延伸到今天：Q-Learning（1989）是 TD 的升级版，DQN（2013）结合深度网络在 49 款雅达利游戏中达到人类水平，PPO（2017）则直接驱动了今天大模型的后训练。

PPO 是目前工业界最主流的 RL 算法。 OpenAI Five 用它打败了 DOTA2 世界冠军，而你每天跟 ChatGPT 聊天时，模型对你的"察言观色"也是 PPO 在 RLHF 阶段训练出来的——人类给模型的回复打分，PPO 用这些打分信号去微调策略，让模型越来越会说人话。

一个反直觉的事实：全球训练数据正在枯竭。 公开互联网上能用的文本已经被爬得差不多了，继续堆数据带来的收益越来越小。

但 RL 不需要新的训练数据。它只需要一个能给出奖励信号的环境——可以是人类打分，可以是代码跑通与否，可以是数学题的验证结果。DeepSeek-R1 和 OpenAI o1 这类推理模型，核心思路就是用 RL 在可验证任务上反复训练，让模型在没有新数据的情况下也能提升推理能力。

Sutton 在《The Bitter Lesson》里说过：不要教机器如何思考，要教它如何学会思考。RL 正是这个思路的落地——不是在给模型塞更多"知识"，而是训练它自我改进的能力。

这也解释了为什么 RL 曾经冷门，现在却成了 AI 最热的方向之一。当"堆数据"这条路走到头，"自我进化"就成了唯一的出路。