#RL 算法专项强化题库(第八批:PPO、GRPO 与偏好优化)

这一节专门补齐前文里相对分散的 PPO / GRPO / RLHF / DPO 内容,把“知道名词”推进到“能系统讲原理、讲边界、讲工程代价”的层级。对于算法岗、对齐岗、DeepSeek 相关面试,这一块往往不是只问定义,而是连续追问目标函数、稳定性、训练信号、失败模式和适用边界。

#核心术语先对齐

RLHF指用人类偏好或标注信号塑造模型行为的训练框架,通常包含 SFT、reward model 和策略优化;PPO是一类限制策略更新幅度的强化学习算法,目标是让模型变好但不要一步偏离太远;GRPO更强调组内相对奖励和去掉显式 value model 的训练简化;DPO则把偏好优化改写成更接近监督学习的目标。

这些方法的共同问题不是“哪个名词更新”,而是训练信号从哪里来、优化目标约束什么、如何防止 reward hacking、怎样平衡能力提升和分布偏移。回答时要把目标函数、采样策略、KL/clip 约束、奖励噪声和工程成本连起来。

#阅读顺序

  • 先读第 66 章,建立 PPO、RLHF、reward model 和 KL 约束的基础。
  • 再读第 67 章,比较 GRPO、DPO、偏好优化和 reasoning 训练中的差异。
  • 复盘时用“信号来源 - 优化目标 - 稳定性约束 - 失败模式”四步检查答案。

#常见误区

不要把 RLHF 简化成“用人类反馈训练模型”。真正要讲的是反馈如何变成 reward model 或偏好对,策略模型如何在奖励和 KL 约束之间更新,为什么需要控制分布漂移,以及 reward model 不可靠时会怎样诱发 reward hacking。

也不要把 PPO、GRPO、DPO 当成互相替代的单行名词。它们对应不同的训练信号、实现复杂度和稳定性假设。面试里更常见的追问是:为什么不用普通 policy gradient,为什么要 KL 或 clip,为什么可以去掉 value model,为什么偏好优化仍然可能过拟合标注分布。

复盘时可以给每个算法写一张对比卡:输入数据是什么,优化目标是什么,需要哪些模型,训练时最怕什么,推理时有没有额外成本。PPO、GRPO、DPO、拒绝采样和蒸馏都可以放进这张表里比较。这样能避免把对齐训练和 reasoning 后训练的边界混在一起。

特别要准备失败模式:reward model 偏置、偏好数据覆盖不足、KL 约束太弱导致策略漂移、约束太强导致学不动、采样策略单一导致探索不足。能讲失败模式,才说明你理解的不是算法名,而是训练闭环。

回答 RL 专项时还要区分训练阶段和推理阶段。PPO/GRPO/DPO 主要改变训练目标和模型参数,推理时不一定引入额外模块;rejection sampling、verifier 和 test-time compute 则可能在推理阶段增加计算和延迟。这个边界常被问到,因为它直接影响线上成本。