#二、GRPO 与偏好优化高频题
#170. GRPO 的核心思想是什么?它和普通 PPO 最本质的不同在哪?
#知识点
- group relative comparison
- 同 prompt 多响应
- 组内相对优势
- 弱化对 value model 的依赖
#详细解答
GRPO(Group Relative Policy Optimization)的核心思想,是对同一个 prompt 采样出一组候选回答,然后在这组回答内部做相对比较,用“谁比谁更好”来构造训练信号,而不是像传统 PPO 那样强依赖一个单独训练出来的 value model 去估计 baseline。
它和普通 PPO 最本质的不同,不只是“省了一个 critic”,而是把优势估计从“状态价值基线”转成了“组内相对排序基线”。这特别适合推理类任务,因为很多时候我们更容易判断一组回答里谁更好,而不是精确给每条回答一个绝对价值。
所以 GRPO 的关键关键词不是“省资源”,而是“相对比较更贴合推理偏好监督”。
#171. GRPO 为什么常被认为适合推理模型或 DeepSeek-R1 这类路线?
#知识点
- 多候选比较天然适合推理任务
- 奖励更关注相对好坏
- 便于塑形 reasoning behavior
- 减少 critic 误差放大
#详细解答
GRPO 常被认为适合推理模型,是因为推理任务里“相对好坏”往往比“绝对分数”更可靠。比如同一道数学题的多条推理链,你也许很难给每条链一个稳定绝对值,但通常更容易判断哪条更接近正确、哪条更完整、哪条更像高质量 reasoning。
这使得 GRPO 很适合用来塑形推理行为。它不是只在最终答案上打分,而是通过同组样本的相对比较,把模型逐渐推向更长、更稳、更像高质量思维链的输出模式。
在 DeepSeek-R1 语境里,大家频繁提 GRPO,本质上就是因为这条技术路线强调:推理行为可以通过相对偏好信号被塑出来,而不一定非得依赖传统 value-based RL。
#172. GRPO 相比 PPO 的优势是不是只在于省掉 value model?
#知识点
- 不只是省显存/省模型
- 相对基线更贴合偏好排序
- 可能更稳
- 但也有组采样成本
#详细解答
不是。省掉 value model 只是最表层的工程优势之一,真正更重要的是:GRPO 的训练信号形式和很多偏好任务更契合。它直接利用同组候选之间的相对差异做优化,而不是先额外训练一个 critic 去估值。
这样做的潜在收益有两个:第一,减少了 value 估计误差对策略学习的拖累;第二,在推理任务里,相对排序往往比绝对值更稳,更容易得到有效监督。
当然它也不是白拿好处。为了做组内比较,你需要对同一个 prompt 采样多条响应,这本身会带来额外采样成本;如果组内样本质量都很差,或者奖励排序本身噪声很强,GRPO 也会受影响。所以正确答法一定要讲优势和代价两面。
#173. GRPO 和 DPO 的边界是什么?什么时候更像 RL,什么时候更像偏好学习?
#知识点
DPO更像离线偏好优化GRPO仍有 on-policy 味道- 多响应采样
- 奖励/排序驱动
#详细解答
DPO 和 GRPO 都会利用“谁更好谁更差”的信息,但它们的边界很重要。DPO 更像把偏好数据直接转成监督目标,通常偏离线学习范式;而 GRPO 仍然保留明显 RL 味道,因为它依赖当前策略去采样响应,再根据组内相对好坏做更新,带有 on-policy 优化特征。
所以一个更稳妥的概括是:DPO 更接近“基于偏好对的数据驱动优化”,GRPO 更接近“基于当前策略采样的相对奖励优化”。前者工程更轻,后者更像在训练过程中持续塑形行为。
面试官爱问这题,通常是在看你是否会把所有“偏好优化方法”混成一团。
#174. GRPO 会怎样影响稳定性、样本效率和推理行为塑形?
#知识点
- 稳定性取决于组内比较质量
- 样本效率与组大小有关
- 更容易塑 reasoning style
- 仍可能 reward hacking
#详细解答
GRPO 对稳定性的帮助,主要来自组内相对比较可能比绝对 reward 更稳;但这并不代表它天然稳定,因为如果组内采样质量差、排序噪声大,训练照样会抖。它的样本效率也不是简单“更高”或“更低”,而是取决于组大小、采样质量和奖励构造方式。
它比较突出的优点,是在推理行为塑形上往往更直接。因为你可以明确鼓励“更完整的推理链”“更合理的中间步骤”“更一致的最终答案”,模型容易逐步学出特定 reasoning style。
但它同样可能出现 reward hacking、模式固化、长度偏置等问题,所以不能把它神化成“推理优化银弹”。
#175. 如果面试官让你比较 RLHF / PPO / GRPO / DPO / ORPO / IPO,你怎么快速讲清关系?
#知识点
- 先讲共同目标
- 再按训练信号分层
- 在线 RL vs 直接偏好优化
- critic / reward / pairwise preference
#详细解答
一个很稳的讲法是先讲共同目标:这些方法都在试图让模型输出更符合人类偏好,而不是只拟合原始语料。然后再按训练信号和训练范式分层。
RLHF + PPO 这一支,是“先训 reward model,再做在线强化学习”;GRPO 仍然属于 RL/策略优化大类,但更强调组内相对比较,弱化对 value model 的依赖;DPO / IPO / ORPO 这类,则更接近直接偏好优化路线,不走完整在线 RL,而是把偏好关系直接写进目标函数。
如果你这样讲,面试官会感觉你在画方法谱系图,而不是背一串缩写。
#176. 如果你要补齐 RL 算法这条知识线,最值得准备的追问有哪些?
#知识点
PPOclip / KL / advantage / valueGRPOgroup comparisonDPO边界- reward hacking
- 评估与排障
#详细解答
如果要把 RL 算法这条线准备扎实,我建议最少拿稳五类追问。第一类是 PPO 核心机制:clip、advantage、critic、KL 约束分别在干什么。第二类是 GRPO:为什么组内相对比较适合推理模型,它和 PPO/DPO 的边界在哪。第三类是偏好学习谱系:RLHF、DPO、IPO、ORPO 的共同目标和信号差异。第四类是失败模式:reward hacking、长度偏置、KL 漂移、value 不稳。第五类是工程视角:你如何判断训练真的变好了,而不是只把指标刷高了。
能把这五类问题讲清楚,基本就不只是“知道 PPO 和 GRPO 是什么”,而是已经具备了面试里的连续作答能力。