65. RL 算法专项强化题库（第八批：PPO、GRPO 与偏好优化）

#RL 算法专项强化题库（第八批：PPO、GRPO 与偏好优化）

这一节专门补齐前文里相对分散的 PPO / GRPO / RLHF / DPO 内容，把“知道名词”推进到“能系统讲原理、讲边界、讲工程代价”的层级。对于算法岗、对齐岗、DeepSeek 相关面试，这一块往往不是只问定义，而是连续追问目标函数、稳定性、训练信号、失败模式和适用边界。

#核心术语先对齐

RLHF指用人类偏好或标注信号塑造模型行为的训练框架，通常包含 SFT、reward model 和策略优化；PPO是一类限制策略更新幅度的强化学习算法，目标是让模型变好但不要一步偏离太远；GRPO更强调组内相对奖励和去掉显式 value model 的训练简化；DPO则把偏好优化改写成更接近监督学习的目标。

这些方法的共同问题不是“哪个名词更新”，而是训练信号从哪里来、优化目标约束什么、如何防止 reward hacking、怎样平衡能力提升和分布偏移。回答时要把目标函数、采样策略、KL/clip 约束、奖励噪声和工程成本连起来。

#阅读顺序

先读第 66 章，建立 PPO、RLHF、reward model 和 KL 约束的基础。
再读第 67 章，比较 GRPO、DPO、偏好优化和 reasoning 训练中的差异。
复盘时用“信号来源 - 优化目标 - 稳定性约束 - 失败模式”四步检查答案。

#常见误区

不要把 RLHF 简化成“用人类反馈训练模型”。真正要讲的是反馈如何变成 reward model 或偏好对，策略模型如何在奖励和 KL 约束之间更新，为什么需要控制分布漂移，以及 reward model 不可靠时会怎样诱发 reward hacking。

也不要把 PPO、GRPO、DPO 当成互相替代的单行名词。它们对应不同的训练信号、实现复杂度和稳定性假设。面试里更常见的追问是：为什么不用普通 policy gradient，为什么要 KL 或 clip，为什么可以去掉 value model，为什么偏好优化仍然可能过拟合标注分布。

复盘时可以给每个算法写一张对比卡：输入数据是什么，优化目标是什么，需要哪些模型，训练时最怕什么，推理时有没有额外成本。PPO、GRPO、DPO、拒绝采样和蒸馏都可以放进这张表里比较。这样能避免把对齐训练和 reasoning 后训练的边界混在一起。

特别要准备失败模式：reward model 偏置、偏好数据覆盖不足、KL 约束太弱导致策略漂移、约束太强导致学不动、采样策略单一导致探索不足。能讲失败模式，才说明你理解的不是算法名，而是训练闭环。

回答 RL 专项时还要区分训练阶段和推理阶段。PPO/GRPO/DPO 主要改变训练目标和模型参数，推理时不一定引入额外模块；rejection sampling、verifier 和 test-time compute 则可能在推理阶段增加计算和延迟。这个边界常被问到，因为它直接影响线上成本。