强化学习回流：从 RLHF 到推理模型

一

先把第十一章的 RLHF 放回强化学习的框架里，用前几章的语言重述一遍——这样它的位置就清楚了。

RLHF（Reinforcement Learning from Human Feedback）三步走：先用人类示范做监督微调（SFT），让模型学会“回答指令”这种格式；再用人类对多个回答的排序，训练一个奖励模型，把人类偏好压缩成一个标量打分函数；最后用强化学习去优化语言模型，让它生成的回答尽量获得奖励模型的高分1。

把它翻译成第十二章的 MDP 语言：状态是当前的上下文（提示词加已生成的部分），动作是生成下一个 token，策略就是语言模型本身（它在每个上下文下输出下一个 token 的概率分布），奖励由奖励模型在回答结束时给出。第三步用的优化算法，正是第十四章讲透的 PPO——那个为打游戏而生的 clip 目标。RLHF 里“加 KL 惩罚防止模型偏离原语言能力太远”，就是 PPO/TRPO“别离旧策略太远”那条信赖域思想的直接应用：这里的“旧策略”是 SFT 之后的模型，KL 惩罚拉着它别为了刷奖励而胡乱漂移1。

奖励模型的数学核心是第十一章已经讲过的 Bradley-Terry 偏好模型——人类偏好回答 $y_w$ 胜过 $y_l$ 的概率被建模为奖励之差的 sigmoid：

$P(y_w \succ y_l) = \sigma\big(r(y_w) - r(y_l)\big)$

训练奖励模型就是最大化所有人类偏好对的对数似然。这一步把离散的人类排序，变成了一个连续可优化的奖励信号，让 PPO 有的放矢。RLHF 的效果第十一章也给过那个惊人数字：经过 RLHF 的 13 亿参数小模型，输出被人类偏好的程度超过了未对齐的 1750 亿参数 GPT-31。强化学习把“有用”这个维度，从“靠堆规模”里独立了出来。

二

RLHF 成了 ChatGPT 的技术底座，但它有一身麻烦，全都系在“奖励从哪来”这个根问题上。

人类标注又慢又贵又不一致。要训练奖励模型，得雇大量标注员对成千上万对回答排序。这既烧钱又慢，而且不同人的偏好不一致、同一个人不同时候也不一致，奖励信号本身就带噪。

奖励模型会被钻空子（reward hacking）。奖励模型只是真实人类偏好的一个近似。语言模型作为一个强大的优化器，会找到那些“奖励模型给高分、但其实并不好”的输出——比如学会用看起来自信、冗长、讨好的语气，因为这类回答在标注中常被偏好。模型优化的是奖励模型这个代理，而非真正的“好”，两者一旦错位就会被放大。

流程复杂、不稳定。RLHF 要同时维护四个模型（策略、奖励模型、价值网络、参考模型），PPO 的训练对超参数敏感、容易崩。把一套为游戏设计的在线强化学习，套到语言模型上，工程上相当娇贵。

这些问题催生了两个方向的努力：一个是简化——能不能不要那么复杂的强化学习流程？另一个是换奖励源——能不能不靠人类、找一个更可靠的奖励？这两个方向，分别通向了 DPO 和推理模型。

三

先看简化这条路。2023 年，Rafailov 等人提出 DPO（Direct Preference Optimization，直接偏好优化），做了一件相当漂亮的事：把强化学习从 RLHF 里整个拿掉2。

DPO 的洞察是数学上的。RLHF 那个“最大化奖励、同时受 KL 约束别离参考模型太远”的优化问题，其实有一个闭式的最优解——最优策略与奖励之间存在一个解析关系。Rafailov 等人把这个关系反过来用：既然最优策略隐含地决定了奖励，那就可以用策略本身来表示奖励，从而把偏好的对数似然直接写成关于策略参数的一个损失，根本不需要先训一个显式的奖励模型、再跑 PPO。论文那个副标题点破了一切：《你的语言模型其实偷偷就是一个奖励模型》2。

结果是，DPO 把 RLHF 那套“训奖励模型 + 在线 PPO”的复杂流程，压缩成了一个像监督学习一样简单的分类损失：直接在“偏好对”数据上，提高被偏好回答的相对概率、压低被拒绝回答的相对概率，用普通的梯度下降就能训。它隐式优化的目标和 RLHF 一样，却省掉了奖励模型、价值网络和强化学习的全部不稳定性。DPO 的简单和有效，让它迅速成为开源社区做偏好对齐的主流选择之一。

DPO 在这部技术史里是一个有点反讽的节点：强化学习辛苦地把优化能力借给了语言模型（RLHF），紧接着 DPO 又证明，在偏好对齐这个特定任务上，那个强化学习的外壳可以被一个等价的监督损失替换掉。这提醒我们第十五章末尾那句话的另一面——RLHF 是强化学习的一种退化使用：它的“环境”是个静态的奖励模型而非真实交互，所以它能被一个闭式解绕开。强化学习真正不可替代的威力，要在奖励来自真实、动态、可反复验证的地方才显现。而那个地方，恰恰是推理。

四

再看换奖励源这条路，它通向了 2024、2025 年最重要的进展——推理模型。

转折点是一个观察：对于数学题和编程题，奖励其实是现成的、可自动验证的。一道数学题的答案对不对，可以直接核对标准答案；一段代码行不行，可以直接跑测试用例。不需要人类标注偏好，不需要训奖励模型——对错本身就是奖励。这类奖励有个名字叫 RLVR（Reinforcement Learning with Verifiable Rewards，可验证奖励强化学习）。

这一下就把第二节那些麻烦绕开了一大半：奖励不再昂贵（自动判定）、不再不一致（对就是对）、也很难被钻空子（答案错了就是错了，再讨好的语气也没用）。强化学习终于回到了它最舒服的设定——一个奖励明确、可以反复试错的环境，就像游戏一样。区别只是，这次的“游戏”是解数学题。

OpenAI 在 2024 年底推出的 o1 是第一个公开的此类推理模型3。它的核心能力是在回答前先进行很长的思维链（chain-of-thought）推理——在内部一步步演算、尝试、回溯、检验，然后给出答案。OpenAI 公布的方法描述是：通过大规模强化学习训练模型“学会推理”，让它在解决复杂问题时投入更多的“思考时间”，并且这种能力随着训练算力和思考时长的增加而持续提升3。需要诚实说明的是：o1 没有公开的技术论文，只有官方介绍和 system card，其具体训练配方是闭源的——这里关于它的机制描述，部分是基于官方表述和后续公开研究的推断，而非可完全复核的一手细节。

o1 真正可被复核的影响，来自它激发的开源复现。

五

2025 年初，DeepSeek 发布了 DeepSeek-R1，并公开了完整的技术报告——这让“用强化学习激发推理能力”这件事第一次有了可复核的一手细节4。

R1 工作里最震撼的，是一个叫 DeepSeek-R1-Zero 的变体：它完全不用监督微调冷启动，直接在基础模型上做大规模强化学习，奖励就是数学/代码答案的可验证对错。结果，模型自发地涌现出了复杂的推理行为——它学会了自我验证（算完回头检查）、反思（“等等，我前面错了”）、以及生成很长的思维链来解决难题，这一切都没有任何人教它“应该这样推理”4。报告里有个被反复引用的“顿悟时刻”（aha moment）：训练中模型在解题途中突然停下来，重新审视自己的解法。这强烈呼应了第十五章 AlphaGo Zero 的故事——纯强化学习、不靠人类示范，能让系统发展出超越人类直接传授的策略。在围棋里那是新定式，在语言模型里那是推理链。

R1 用的强化学习算法是 PPO 的一个变体 GRPO（Group Relative Policy Optimization，组相对策略优化）4。回想第十四章：PPO 需要一个价值网络（critic）来估计优势 $A=Q-V$ 。GRPO 的简化是去掉这个价值网络——它对同一个问题采样一组回答，用这组回答奖励的组内相对高低来当优势（高于组内平均的回答被强化，低于的被压低）。这省掉了一个和策略一样大的价值网络，在训练动辄上百亿参数的语言模型时，是实打实的资源节省。它的目标函数仍保留 PPO 的 clip 结构，只是把优势的来源从“价值网络估计”换成了“组内相对排名”。

R1 的硬指标很能说明问题：在数学竞赛 AIME 2024 上，纯强化学习的 R1-Zero 把 pass@1（一次答对率）从基础模型的 15.6% 提升到了 71.0%，配合多数投票更达到 86.7%，逼近 o1 的水平4。而这一切的奖励，主要来自“答案对不对”这个自动判定，没有昂贵的人类偏好标注。

六

退一步，把 RLHF 和 RLVR 并排看，能看清强化学习回流语言模型时奖励来源的一次根本转变。

RLHF 处理的是没有客观对错的任务——什么是“有帮助、无害、诚实”的回答，没有标准答案，只能问人类的偏好。所以它必须把人类偏好压成奖励模型，再用 PPO 优化。这是强化学习创始论文（第十一章引的 Christiano 2017）的本意：很多想要的行为难以写成奖励函数，但人类一眼能比较好坏，于是从偏好里学奖励。

RLVR 处理的是有客观对错的任务——数学题、代码，答案可自动验证。这里奖励是现成的，不需要人类、不需要奖励模型，强化学习回到了它在游戏里的舒适区：明确奖励、海量试错。这也解释了为什么推理模型的突破来得这么猛——一旦奖励可靠又便宜，第十二到十五章那套被反复锤炼的强化学习机器，就能像在 Atari 和围棋里那样全力运转。

这两者之间还夹着一条折中的路：用 AI 反馈替代部分人类反馈。Anthropic 在 2022 年的 Constitutional AI 工作里提出 RLAIF——给模型一组成文的原则（“宪法”），让它依据这些原则自我批判、修订回答，再用模型自己产生的偏好去做对齐，从而缓解人类标注的成本与不一致5。它代表了奖励来源从“人类”向“规则/AI”迁移的一步，介于 RLHF 的人类偏好与 RLVR 的自动验证之间。

把这几条放在一起看：RLHF 让模型对齐人类的价值与品味（该不该说、怎么说得体），RLVR 让模型对齐客观的正确性（算得对不对、推得严不严），RLAIF 则试图用可扩展的 AI 反馈去补人类反馈的不足。今天最强的模型往往兼用：先用偏好对齐管住“得体”，再用可验证奖励磨利“会推理”。一条 1992 年从 REINFORCE 起步、为了让连接主义网络能“试错学习”而生的技术线，走过 Atari、走过围棋、走过 RLHF，最终在 2025 年回到了语言模型，去解决一个最古老的智能问题——如何正确地推理。

七

这一章合上了两条主线，也让我们能回望这部从 1943 年讲起的技术史，看清它真正的形状。

它不是一条单线。一条主线是感知与生成：从感知机到反向传播，到 CNN 与 LSTM 编码结构先验，到注意力统一为 Transformer，到 BERT/GPT 大规模预训练，到 scaling laws 把“放大规模”变成可规划的工程——这条线的数学语言是最大似然，目标是拟合数据的分布，让机器学会“世界长什么样、话该怎么接”。另一条主线是决策与控制，就是这五章讲的强化学习：从 Bellman 方程到 TD 与 Q-learning，到 DQN 驯服深度网络，到策略梯度与 PPO，到 AlphaGo 一族的自我对弈巅峰——这条线的数学语言是 MDP 与 Bellman，目标是最大化长期回报，让机器学会“在世界里该怎么做”。

这两条线平行了大半个世纪，各自在 2016 年前后登顶——一边是 GPT 式预训练即将引爆，一边是 AlphaGo 震动世界。然后它们开始合流：2022 年 RLHF 让决策的优化能力服务于生成的模型，2025 年推理模型让强化学习在语言模型内部点燃了“会思考”的能力。“拟合分布”给了机器博学，“最大化回报”给了机器目的，两者交织，才有了今天既能流畅生成、又能对齐人类、还能一步步推理的系统。

这部历史远没有结束。强化学习与语言模型的结合仍在剧烈演化——过程奖励、可验证奖励的边界（数学代码之外的开放任务怎么给奖励？）、reward hacking 的新形态、用 AI 反馈替代人类反馈（RLAIF）的可靠性、把搜索（MuZero 那样的规划）真正搬进语言模型推理——每一个都是正在被书写的章节。但这部历史走到今天的逻辑已经清晰：让一台只会做加法和乘法的机器逼近“理解”与“行动”，需要两种学习——从世界学会它的样子，以及在世界里学会该怎么做。前十一章讲了前者，这五章讲了后者。它们在这里汇成同一条河。

配套的 manim 动画 assets/manim/ch16_rl_llm.py（TokenAsTrajectory 与 TwoLines 两个 Scene）把合流演出来：前者把生成一句话重述成一条 MDP 轨迹——每个 token 是一个动作，整条序列是轨迹 $\tau$ ，奖励模型在末端给出回报 $R(\tau)$ ，PPO/DPO 据此推动策略（语言模型）；后者把两条主线并置——主线 A（拟合数据分布／最大似然）与主线 B（最大化回报／MDP）各自走过的里程碑，最终汇入 RLHF/DPO/RLVR 这个合流点。预训练给出会说话的策略，RL 给它一个要最大化的目标。

本质

把 RLHF 看懂的关键，是意识到“生成一句话”和“在游戏里走一局”在数学上是同一件事：每生成一个 token 就是选一个动作，整条回答就是一条轨迹，奖励模型在末尾打的分就是这条轨迹的回报——于是前面五章为游戏磨出的全部武器（策略梯度、PPO、优势估计）可以原样搬过来。这一步重述本身，就是两条主线合流的全部秘密。它解决的根本问题是预训练留下的缺口：最大似然只能让模型逼近“人类文本最可能的样子”，却无法表达“人类真正想要的样子”——而后者往往写不成一个可微的损失函数。强化学习的回答是：凡是不好直接写成损失、却能判断好坏的目标，都可以转成奖励信号去最大化。2025 年的推理模型把这一步推到极致——当奖励来自“答案对不对”这种可自动验证的信号时，模型为了多拿分，竟自己摸索出了反复检查、回溯纠错的长链思考。至此，“从世界学会它的样子”与“在世界里学会该怎么做”这两种学习合为一体：预训练给了机器博学，强化学习给了机器目的。

参考文献

Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback（InstructGPT）。三步 SFT→奖励模型→PPO；Bradley-Terry 偏好 $P(y_w\succ y_l)=\sigma(r(y_w)-r(y_l))$ ；KL 惩罚即信赖域思想；1.3B 对齐模型被偏好胜 175B GPT-3；ChatGPT 技术底座。RLHF 思想源头见 Christiano et al. 2017（arXiv 1706.03741）。arXiv：https://arxiv.org/abs/2203.02155 ；PDF：https://arxiv.org/pdf/2203.02155
Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C. D., & Finn, C. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023. 利用 RLHF 最优策略与奖励的闭式关系，把偏好优化写成一个监督式分类损失，省掉显式奖励模型与在线 PPO，隐式等价 RLHF 目标。arXiv：https://arxiv.org/abs/2305.18290
OpenAI (2024). Learning to Reason with LLMs（o1）。通过大规模强化学习训练模型在回答前进行长思维链推理，性能随训练算力与思考时长提升。无公开技术论文，仅官方介绍与 system card——本章对其机制的描述部分为基于官方表述与后续公开研究的推断（证据等级 C，不可完全复核）。官方页：https://openai.com/index/learning-to-reason-with-llms/
DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. R1-Zero 纯 RL（无 SFT 冷启）即涌现自我验证/反思/长链推理（“aha moment”）；用 GRPO（去掉价值网络、组内相对优势）+ 可验证奖励 RLVR（数学/代码对错自动判定）；AIME 2024 pass@1 由 15.6% 提升至 71.0%、多数投票 86.7%，逼近 o1。arXiv：https://arxiv.org/abs/2501.12948
Bai, Y., Kadavath, S., Kundu, S., et al. (2022). Constitutional AI: Harmlessness from AI Feedback（Anthropic）。用一组原则（“宪法”）让 AI 自我批判/修订，再用 AI 偏好（RLAIF）部分替代人类反馈，缓解 RLHF 的人类标注成本与不一致；是奖励来源从“人类”向“AI/规则”迁移的代表性一步。arXiv：https://arxiv.org/abs/2212.08073

把逐 token 生成「巴黎是法国的首都」重述为 MDP 轨迹：状态=上下文、动作=选下一 token、策略=语言模型本身,整串套框即轨迹 τ,末端奖励模型给 R(τ),回流弧体现「高回报轨迹更可能被生成」——生成一句话与游戏走一局数学同构。

RLHF 三步流水线(SFT→训奖励模型→PPO)与 Bradley-Terry 偏好公式同色高亮,点出人类标注贵/reward hacking/四模型娇贵三大麻烦;随后把奖励模型与 PPO 整条划掉,换成 DPO 的监督式分类损失(抬高被偏好绿、压低被拒红),收尾点破「RL 外壳可被等价替换」的反讽。

把奖励源从人类偏好切到可自动验证的对错(数学题对照标准答案),RLHF vs RLVR 三项对照;GRPO 用组内相对优势 A=r−mean(r) 去掉价值网络(与 ch14 的 A=Q−V 并置);长链推理自发涌现 + AIME pass@1 由 15.6%→71.0%,最后两条主线(拟合分布蓝/最大化回报棕)汇入 RLHF·DPO·RLVR 一点。