#二、GRPO 与偏好优化高频题

#170. GRPO 的核心思想是什么?它和普通 PPO 最本质的不同在哪?

#知识点

  • group relative comparison
  • 同 prompt 多响应
  • 组内相对优势
  • 弱化对 value model 的依赖

#详细解答

GRPO(Group Relative Policy Optimization)的核心思想,是对同一个 prompt 采样出一组候选回答,然后在这组回答内部做相对比较,用“谁比谁更好”来构造训练信号,而不是像传统 PPO 那样强依赖一个单独训练出来的 value model 去估计 baseline。

它和普通 PPO 最本质的不同,不只是“省了一个 critic”,而是把优势估计从“状态价值基线”转成了“组内相对排序基线”。这特别适合推理类任务,因为很多时候我们更容易判断一组回答里谁更好,而不是精确给每条回答一个绝对价值。

所以 GRPO 的关键关键词不是“省资源”,而是“相对比较更贴合推理偏好监督”。

#171. GRPO 为什么常被认为适合推理模型或 DeepSeek-R1 这类路线?

#知识点

  • 多候选比较天然适合推理任务
  • 奖励更关注相对好坏
  • 便于塑形 reasoning behavior
  • 减少 critic 误差放大

#详细解答

GRPO 常被认为适合推理模型,是因为推理任务里“相对好坏”往往比“绝对分数”更可靠。比如同一道数学题的多条推理链,你也许很难给每条链一个稳定绝对值,但通常更容易判断哪条更接近正确、哪条更完整、哪条更像高质量 reasoning。

这使得 GRPO 很适合用来塑形推理行为。它不是只在最终答案上打分,而是通过同组样本的相对比较,把模型逐渐推向更长、更稳、更像高质量思维链的输出模式。

DeepSeek-R1 语境里,大家频繁提 GRPO,本质上就是因为这条技术路线强调:推理行为可以通过相对偏好信号被塑出来,而不一定非得依赖传统 value-based RL。

#172. GRPO 相比 PPO 的优势是不是只在于省掉 value model?

#知识点

  • 不只是省显存/省模型
  • 相对基线更贴合偏好排序
  • 可能更稳
  • 但也有组采样成本

#详细解答

不是。省掉 value model 只是最表层的工程优势之一,真正更重要的是:GRPO 的训练信号形式和很多偏好任务更契合。它直接利用同组候选之间的相对差异做优化,而不是先额外训练一个 critic 去估值。

这样做的潜在收益有两个:第一,减少了 value 估计误差对策略学习的拖累;第二,在推理任务里,相对排序往往比绝对值更稳,更容易得到有效监督。

当然它也不是白拿好处。为了做组内比较,你需要对同一个 prompt 采样多条响应,这本身会带来额外采样成本;如果组内样本质量都很差,或者奖励排序本身噪声很强,GRPO 也会受影响。所以正确答法一定要讲优势和代价两面。

#173. GRPODPO 的边界是什么?什么时候更像 RL,什么时候更像偏好学习?

#知识点

  • DPO 更像离线偏好优化
  • GRPO 仍有 on-policy 味道
  • 多响应采样
  • 奖励/排序驱动

#详细解答

DPOGRPO 都会利用“谁更好谁更差”的信息,但它们的边界很重要。DPO 更像把偏好数据直接转成监督目标,通常偏离线学习范式;而 GRPO 仍然保留明显 RL 味道,因为它依赖当前策略去采样响应,再根据组内相对好坏做更新,带有 on-policy 优化特征。

所以一个更稳妥的概括是:DPO 更接近“基于偏好对的数据驱动优化”,GRPO 更接近“基于当前策略采样的相对奖励优化”。前者工程更轻,后者更像在训练过程中持续塑形行为。

面试官爱问这题,通常是在看你是否会把所有“偏好优化方法”混成一团。

#174. GRPO 会怎样影响稳定性、样本效率和推理行为塑形?

#知识点

  • 稳定性取决于组内比较质量
  • 样本效率与组大小有关
  • 更容易塑 reasoning style
  • 仍可能 reward hacking

#详细解答

GRPO 对稳定性的帮助,主要来自组内相对比较可能比绝对 reward 更稳;但这并不代表它天然稳定,因为如果组内采样质量差、排序噪声大,训练照样会抖。它的样本效率也不是简单“更高”或“更低”,而是取决于组大小、采样质量和奖励构造方式。

它比较突出的优点,是在推理行为塑形上往往更直接。因为你可以明确鼓励“更完整的推理链”“更合理的中间步骤”“更一致的最终答案”,模型容易逐步学出特定 reasoning style。

但它同样可能出现 reward hacking、模式固化、长度偏置等问题,所以不能把它神化成“推理优化银弹”。

#175. 如果面试官让你比较 RLHF / PPO / GRPO / DPO / ORPO / IPO,你怎么快速讲清关系?

#知识点

  • 先讲共同目标
  • 再按训练信号分层
  • 在线 RL vs 直接偏好优化
  • critic / reward / pairwise preference

#详细解答

一个很稳的讲法是先讲共同目标:这些方法都在试图让模型输出更符合人类偏好,而不是只拟合原始语料。然后再按训练信号和训练范式分层。

RLHF + PPO 这一支,是“先训 reward model,再做在线强化学习”;GRPO 仍然属于 RL/策略优化大类,但更强调组内相对比较,弱化对 value model 的依赖;DPO / IPO / ORPO 这类,则更接近直接偏好优化路线,不走完整在线 RL,而是把偏好关系直接写进目标函数。

如果你这样讲,面试官会感觉你在画方法谱系图,而不是背一串缩写。

#176. 如果你要补齐 RL 算法这条知识线,最值得准备的追问有哪些?

#知识点

  • PPO clip / KL / advantage / value
  • GRPO group comparison
  • DPO 边界
  • reward hacking
  • 评估与排障

#详细解答

如果要把 RL 算法这条线准备扎实,我建议最少拿稳五类追问。第一类是 PPO 核心机制:clip、advantage、critic、KL 约束分别在干什么。第二类是 GRPO:为什么组内相对比较适合推理模型,它和 PPO/DPO 的边界在哪。第三类是偏好学习谱系:RLHFDPOIPOORPO 的共同目标和信号差异。第四类是失败模式:reward hacking、长度偏置、KL 漂移、value 不稳。第五类是工程视角:你如何判断训练真的变好了,而不是只把指标刷高了。

能把这五类问题讲清楚,基本就不只是“知道 PPO 和 GRPO 是什么”,而是已经具备了面试里的连续作答能力。