一
先把第十一章的 RLHF 放回强化学习的框架里,用前几章的语言重述一遍——这样它的位置就清楚了。
RLHF(Reinforcement Learning from Human Feedback)三步走:先用人类示范做监督微调(SFT),让模型学会“回答指令”这种格式;再用人类对多个回答的排序,训练一个奖励模型,把人类偏好压缩成一个标量打分函数;最后用强化学习去优化语言模型,让它生成的回答尽量获得奖励模型的高分1。
把它翻译成第十二章的 MDP 语言:状态是当前的上下文(提示词加已生成的部分),动作是生成下一个 token,策略就是语言模型本身(它在每个上下文下输出下一个 token 的概率分布),奖励由奖励模型在回答结束时给出。第三步用的优化算法,正是第十四章讲透的 PPO——那个为打游戏而生的 clip 目标。RLHF 里“加 KL 惩罚防止模型偏离原语言能力太远”,就是 PPO/TRPO“别离旧策略太远”那条信赖域思想的直接应用:这里的“旧策略”是 SFT 之后的模型,KL 惩罚拉着它别为了刷奖励而胡乱漂移1。
奖励模型的数学核心是第十一章已经讲过的 Bradley-Terry 偏好模型——人类偏好回答 胜过 的概率被建模为奖励之差的 sigmoid:
训练奖励模型就是最大化所有人类偏好对的对数似然。这一步把离散的人类排序,变成了一个连续可优化的奖励信号,让 PPO 有的放矢。RLHF 的效果第十一章也给过那个惊人数字:经过 RLHF 的 13 亿参数小模型,输出被人类偏好的程度超过了未对齐的 1750 亿参数 GPT-31。强化学习把“有用”这个维度,从“靠堆规模”里独立了出来。
二
RLHF 成了 ChatGPT 的技术底座,但它有一身麻烦,全都系在“奖励从哪来”这个根问题上。
人类标注又慢又贵又不一致。要训练奖励模型,得雇大量标注员对成千上万对回答排序。这既烧钱又慢,而且不同人的偏好不一致、同一个人不同时候也不一致,奖励信号本身就带噪。
奖励模型会被钻空子(reward hacking)。奖励模型只是真实人类偏好的一个近似。语言模型作为一个强大的优化器,会找到那些“奖励模型给高分、但其实并不好”的输出——比如学会用看起来自信、冗长、讨好的语气,因为这类回答在标注中常被偏好。模型优化的是奖励模型这个代理,而非真正的“好”,两者一旦错位就会被放大。
流程复杂、不稳定。RLHF 要同时维护四个模型(策略、奖励模型、价值网络、参考模型),PPO 的训练对超参数敏感、容易崩。把一套为游戏设计的在线强化学习,套到语言模型上,工程上相当娇贵。
这些问题催生了两个方向的努力:一个是简化——能不能不要那么复杂的强化学习流程?另一个是换奖励源——能不能不靠人类、找一个更可靠的奖励?这两个方向,分别通向了 DPO 和推理模型。
三
先看简化这条路。2023 年,Rafailov 等人提出 DPO(Direct Preference Optimization,直接偏好优化),做了一件相当漂亮的事:把强化学习从 RLHF 里整个拿掉2。
DPO 的洞察是数学上的。RLHF 那个“最大化奖励、同时受 KL 约束别离参考模型太远”的优化问题,其实有一个闭式的最优解——最优策略与奖励之间存在一个解析关系。Rafailov 等人把这个关系反过来用:既然最优策略隐含地决定了奖励,那就可以用策略本身来表示奖励,从而把偏好的对数似然直接写成关于策略参数的一个损失,根本不需要先训一个显式的奖励模型、再跑 PPO。论文那个副标题点破了一切:《你的语言模型其实偷偷就是一个奖励模型》2。
结果是,DPO 把 RLHF 那套“训奖励模型 + 在线 PPO”的复杂流程,压缩成了一个像监督学习一样简单的分类损失:直接在“偏好对”数据上,提高被偏好回答的相对概率、压低被拒绝回答的相对概率,用普通的梯度下降就能训。它隐式优化的目标和 RLHF 一样,却省掉了奖励模型、价值网络和强化学习的全部不稳定性。DPO 的简单和有效,让它迅速成为开源社区做偏好对齐的主流选择之一。
DPO 在这部技术史里是一个有点反讽的节点:强化学习辛苦地把优化能力借给了语言模型(RLHF),紧接着 DPO 又证明,在偏好对齐这个特定任务上,那个强化学习的外壳可以被一个等价的监督损失替换掉。这提醒我们第十五章末尾那句话的另一面——RLHF 是强化学习的一种退化使用:它的“环境”是个静态的奖励模型而非真实交互,所以它能被一个闭式解绕开。强化学习真正不可替代的威力,要在奖励来自真实、动态、可反复验证的地方才显现。而那个地方,恰恰是推理。
四
再看换奖励源这条路,它通向了 2024、2025 年最重要的进展——推理模型。
转折点是一个观察:对于数学题和编程题,奖励其实是现成的、可自动验证的。一道数学题的答案对不对,可以直接核对标准答案;一段代码行不行,可以直接跑测试用例。不需要人类标注偏好,不需要训奖励模型——对错本身就是奖励。这类奖励有个名字叫 RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励强化学习)。
这一下就把第二节那些麻烦绕开了一大半:奖励不再昂贵(自动判定)、不再不一致(对就是对)、也很难被钻空子(答案错了就是错了,再讨好的语气也没用)。强化学习终于回到了它最舒服的设定——一个奖励明确、可以反复试错的环境,就像游戏一样。区别只是,这次的“游戏”是解数学题。
OpenAI 在 2024 年底推出的 o1 是第一个公开的此类推理模型3。它的核心能力是在回答前先进行很长的思维链(chain-of-thought)推理——在内部一步步演算、尝试、回溯、检验,然后给出答案。OpenAI 公布的方法描述是:通过大规模强化学习训练模型“学会推理”,让它在解决复杂问题时投入更多的“思考时间”,并且这种能力随着训练算力和思考时长的增加而持续提升3。需要诚实说明的是:o1 没有公开的技术论文,只有官方介绍和 system card,其具体训练配方是闭源的——这里关于它的机制描述,部分是基于官方表述和后续公开研究的推断,而非可完全复核的一手细节。
o1 真正可被复核的影响,来自它激发的开源复现。
五
2025 年初,DeepSeek 发布了 DeepSeek-R1,并公开了完整的技术报告——这让“用强化学习激发推理能力”这件事第一次有了可复核的一手细节4。
R1 工作里最震撼的,是一个叫 DeepSeek-R1-Zero 的变体:它完全不用监督微调冷启动,直接在基础模型上做大规模强化学习,奖励就是数学/代码答案的可验证对错。结果,模型自发地涌现出了复杂的推理行为——它学会了自我验证(算完回头检查)、反思(“等等,我前面错了”)、以及生成很长的思维链来解决难题,这一切都没有任何人教它“应该这样推理”4。报告里有个被反复引用的“顿悟时刻”(aha moment):训练中模型在解题途中突然停下来,重新审视自己的解法。这强烈呼应了第十五章 AlphaGo Zero 的故事——纯强化学习、不靠人类示范,能让系统发展出超越人类直接传授的策略。在围棋里那是新定式,在语言模型里那是推理链。
R1 用的强化学习算法是 PPO 的一个变体 GRPO(Group Relative Policy Optimization,组相对策略优化)4。回想第十四章:PPO 需要一个价值网络(critic)来估计优势 。GRPO 的简化是去掉这个价值网络——它对同一个问题采样一组回答,用这组回答奖励的组内相对高低来当优势(高于组内平均的回答被强化,低于的被压低)。这省掉了一个和策略一样大的价值网络,在训练动辄上百亿参数的语言模型时,是实打实的资源节省。它的目标函数仍保留 PPO 的 clip 结构,只是把优势的来源从“价值网络估计”换成了“组内相对排名”。
R1 的硬指标很能说明问题:在数学竞赛 AIME 2024 上,纯强化学习的 R1-Zero 把 pass@1(一次答对率)从基础模型的 15.6% 提升到了 71.0%,配合多数投票更达到 86.7%,逼近 o1 的水平4。而这一切的奖励,主要来自“答案对不对”这个自动判定,没有昂贵的人类偏好标注。
六
退一步,把 RLHF 和 RLVR 并排看,能看清强化学习回流语言模型时奖励来源的一次根本转变。
RLHF 处理的是没有客观对错的任务——什么是“有帮助、无害、诚实”的回答,没有标准答案,只能问人类的偏好。所以它必须把人类偏好压成奖励模型,再用 PPO 优化。这是强化学习创始论文(第十一章引的 Christiano 2017)的本意:很多想要的行为难以写成奖励函数,但人类一眼能比较好坏,于是从偏好里学奖励。
RLVR 处理的是有客观对错的任务——数学题、代码,答案可自动验证。这里奖励是现成的,不需要人类、不需要奖励模型,强化学习回到了它在游戏里的舒适区:明确奖励、海量试错。这也解释了为什么推理模型的突破来得这么猛——一旦奖励可靠又便宜,第十二到十五章那套被反复锤炼的强化学习机器,就能像在 Atari 和围棋里那样全力运转。
这两者之间还夹着一条折中的路:用 AI 反馈替代部分人类反馈。Anthropic 在 2022 年的 Constitutional AI 工作里提出 RLAIF——给模型一组成文的原则(“宪法”),让它依据这些原则自我批判、修订回答,再用模型自己产生的偏好去做对齐,从而缓解人类标注的成本与不一致5。它代表了奖励来源从“人类”向“规则/AI”迁移的一步,介于 RLHF 的人类偏好与 RLVR 的自动验证之间。
把这几条放在一起看:RLHF 让模型对齐人类的价值与品味(该不该说、怎么说得体),RLVR 让模型对齐客观的正确性(算得对不对、推得严不严),RLAIF 则试图用可扩展的 AI 反馈去补人类反馈的不足。今天最强的模型往往兼用:先用偏好对齐管住“得体”,再用可验证奖励磨利“会推理”。一条 1992 年从 REINFORCE 起步、为了让连接主义网络能“试错学习”而生的技术线,走过 Atari、走过围棋、走过 RLHF,最终在 2025 年回到了语言模型,去解决一个最古老的智能问题——如何正确地推理。
七
这一章合上了两条主线,也让我们能回望这部从 1943 年讲起的技术史,看清它真正的形状。
它不是一条单线。一条主线是感知与生成:从感知机到反向传播,到 CNN 与 LSTM 编码结构先验,到注意力统一为 Transformer,到 BERT/GPT 大规模预训练,到 scaling laws 把“放大规模”变成可规划的工程——这条线的数学语言是最大似然,目标是拟合数据的分布,让机器学会“世界长什么样、话该怎么接”。另一条主线是决策与控制,就是这五章讲的强化学习:从 Bellman 方程到 TD 与 Q-learning,到 DQN 驯服深度网络,到策略梯度与 PPO,到 AlphaGo 一族的自我对弈巅峰——这条线的数学语言是 MDP 与 Bellman,目标是最大化长期回报,让机器学会“在世界里该怎么做”。
这两条线平行了大半个世纪,各自在 2016 年前后登顶——一边是 GPT 式预训练即将引爆,一边是 AlphaGo 震动世界。然后它们开始合流:2022 年 RLHF 让决策的优化能力服务于生成的模型,2025 年推理模型让强化学习在语言模型内部点燃了“会思考”的能力。“拟合分布”给了机器博学,“最大化回报”给了机器目的,两者交织,才有了今天既能流畅生成、又能对齐人类、还能一步步推理的系统。
这部历史远没有结束。强化学习与语言模型的结合仍在剧烈演化——过程奖励、可验证奖励的边界(数学代码之外的开放任务怎么给奖励?)、reward hacking 的新形态、用 AI 反馈替代人类反馈(RLAIF)的可靠性、把搜索(MuZero 那样的规划)真正搬进语言模型推理——每一个都是正在被书写的章节。但这部历史走到今天的逻辑已经清晰:让一台只会做加法和乘法的机器逼近“理解”与“行动”,需要两种学习——从世界学会它的样子,以及在世界里学会该怎么做。前十一章讲了前者,这五章讲了后者。它们在这里汇成同一条河。
配套的 manim 动画 assets/manim/ch16_rl_llm.py(TokenAsTrajectory 与 TwoLines 两个 Scene)把合流演出来:前者把生成一句话重述成一条 MDP 轨迹——每个 token 是一个动作,整条序列是轨迹 ,奖励模型在末端给出回报 ,PPO/DPO 据此推动策略(语言模型);后者把两条主线并置——主线 A(拟合数据分布/最大似然)与主线 B(最大化回报/MDP)各自走过的里程碑,最终汇入 RLHF/DPO/RLVR 这个合流点。预训练给出会说话的策略,RL 给它一个要最大化的目标。
本质
把 RLHF 看懂的关键,是意识到“生成一句话”和“在游戏里走一局”在数学上是同一件事:每生成一个 token 就是选一个动作,整条回答就是一条轨迹,奖励模型在末尾打的分就是这条轨迹的回报——于是前面五章为游戏磨出的全部武器(策略梯度、PPO、优势估计)可以原样搬过来。这一步重述本身,就是两条主线合流的全部秘密。它解决的根本问题是预训练留下的缺口:最大似然只能让模型逼近“人类文本最可能的样子”,却无法表达“人类真正想要的样子”——而后者往往写不成一个可微的损失函数。强化学习的回答是:凡是不好直接写成损失、却能判断好坏的目标,都可以转成奖励信号去最大化。2025 年的推理模型把这一步推到极致——当奖励来自“答案对不对”这种可自动验证的信号时,模型为了多拿分,竟自己摸索出了反复检查、回溯纠错的长链思考。至此,“从世界学会它的样子”与“在世界里学会该怎么做”这两种学习合为一体:预训练给了机器博学,强化学习给了机器目的。
参考文献
-
Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback(InstructGPT)。三步 SFT→奖励模型→PPO;Bradley-Terry 偏好 ;KL 惩罚即信赖域思想;1.3B 对齐模型被偏好胜 175B GPT-3;ChatGPT 技术底座。RLHF 思想源头见 Christiano et al. 2017(arXiv 1706.03741)。arXiv:https://arxiv.org/abs/2203.02155 ;PDF:https://arxiv.org/pdf/2203.02155
-
Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C. D., & Finn, C. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023. 利用 RLHF 最优策略与奖励的闭式关系,把偏好优化写成一个监督式分类损失,省掉显式奖励模型与在线 PPO,隐式等价 RLHF 目标。arXiv:https://arxiv.org/abs/2305.18290
-
OpenAI (2024). Learning to Reason with LLMs(o1)。通过大规模强化学习训练模型在回答前进行长思维链推理,性能随训练算力与思考时长提升。无公开技术论文,仅官方介绍与 system card——本章对其机制的描述部分为基于官方表述与后续公开研究的推断(证据等级 C,不可完全复核)。官方页:https://openai.com/index/learning-to-reason-with-llms/
-
DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. R1-Zero 纯 RL(无 SFT 冷启)即涌现自我验证/反思/长链推理(“aha moment”);用 GRPO(去掉价值网络、组内相对优势)+ 可验证奖励 RLVR(数学/代码对错自动判定);AIME 2024 pass@1 由 15.6% 提升至 71.0%、多数投票 86.7%,逼近 o1。arXiv:https://arxiv.org/abs/2501.12948
-
Bai, Y., Kadavath, S., Kundu, S., et al. (2022). Constitutional AI: Harmlessness from AI Feedback(Anthropic)。用一组原则(“宪法”)让 AI 自我批判/修订,再用 AI 偏好(RLAIF)部分替代人类反馈,缓解 RLHF 的人类标注成本与不一致;是奖励来源从“人类”向“AI/规则”迁移的代表性一步。arXiv:https://arxiv.org/abs/2212.08073