#一、高频问题速览
- 什么是 test-time compute(测试时计算)?为什么 reasoning model 特别重视它?
- self-consistency(自一致性)是什么?为什么它常比单次 greedy decoding 更强?
- best-of-n / rejection sampling 的核心思想是什么?它和
RL有什么关系? - verifier / judge model 在 reasoning 系统里到底做什么?
Outcome Reward Model (ORM)和Process Reward Model (PRM)有什么区别?- 为什么 process supervision 往往比只看 final answer 更细粒度?代价又是什么?
- 合成推理数据(synthetic reasoning data)为什么重要?它的主要风险是什么?
- 推理蒸馏(reasoning distillation)到底在蒸馏什么?
- 为什么长
CoT蒸馏有时会损害泛化? - 为什么 reasoning 模型容易出现 length bias / overthinking?
Tree of Thoughts、beam search、MCTS这类搜索方法各自在解决什么问题?- self-consistency、majority voting、verifier reranking 三者怎么选?
- 什么时候该用工具 / 程序执行器,而不是只靠自然语言推理?
- 结果奖励(outcome reward)和过程奖励(process reward)各自适合什么任务?
- reasoning post-training 里,
rejection sampling SFT、DPO、GRPO/PPO怎么分工? - 如何评估 reasoning model,不只是看
pass@1? - 为什么 test-time compute scaling 不是无限加 sample 就行?
- 小模型蒸馏大模型 reasoning 时,最容易丢掉什么?
- verifier、reward model、judge 之间的边界是什么?
- 如果模型“想得更长但结果没变好”,你会怎么排查?
#就地速答
- 问:什么是 test-time compute(测试时计算)?为什么 reasoning model 特别重视它?
答:它指的是在推理阶段额外花算力做采样、搜索、验证或工具调用,而不是只靠一次前向直接出答案;reasoning 任务常存在“多想几次就更可能做对”的特征,所以这条线非常关键。
- 问:self-consistency(自一致性)是什么?为什么它常比单次 greedy decoding 更强?
答:它会对同一问题采样多条推理链,再按最终答案聚合;如果单次解码容易卡在某条局部错误路径,多样采样后多数正确答案更容易浮出来。
- 问:best-of-n / rejection sampling 的核心思想是什么?它和
RL有什么关系?答:先生成多条候选,再用打分器或规则选最好的,或者把好样本留下来做后续训练;它本质更像“离线筛好样本再学”,不像
RL那样在线做信用分配。 - 问:verifier / judge model 在 reasoning 系统里到底做什么?
答:它负责把“生成”和“评判”拆开:生成器负责出候选,verifier 负责判断哪条更可信、更正确,常用于 rerank、过滤合成数据或控制搜索。
- 问:
Outcome Reward Model (ORM)和Process Reward Model (PRM)有什么区别?答:
ORM更关心最终答案或整条输出值不值得奖励;PRM更关心中间步骤是否在正确推进,监督更细,但标注和训练成本也更高。 - 问:为什么 process supervision 往往比只看 final answer 更细粒度?代价又是什么?
答:因为它能告诉模型“哪一步错了”,不只是最后错了;但它需要更贵的过程标注,也更容易引入标注噪声和格式约束。
- 问:合成推理数据(synthetic reasoning data)为什么重要?它的主要风险是什么?
答:因为人工长推理数据太贵,teacher 生成能快速放大规模;但它也会把 teacher 的偏差、套路化表达和错误捷径一起放大。
- 问:推理蒸馏(reasoning distillation)到底在蒸馏什么?
答:不只是蒸馏最终答案,还在蒸馏问题拆解方式、步骤顺序、检查习惯、工具使用模式和“何时继续思考”的行为模式。
- 问:为什么长
CoT蒸馏有时会损害泛化?答:因为学生可能学到的是“像老师那样说得很完整”,而不是“真正保留探索、怀疑和修正能力”,结果在
OOD数学题上反而更僵。 - 问:为什么 reasoning 模型容易出现 length bias / overthinking?
答:因为 reward、judge 或训练数据很容易把“更长”误当成“更好”,模型就会学会多写、重复和拖长,而不一定真的多推理出了有效信息。
- 问:
Tree of Thoughts、beam search、MCTS这类搜索方法各自在解决什么问题?答:它们都在解决“单条链路容易走偏”的问题,只是分支、打分和回溯策略不同:有的更像宽搜,有的更像保留前几名,有的更像边搜索边估值。
- 问:self-consistency、majority voting、verifier reranking 三者怎么选?
答:如果答案空间明确、可投票,self-consistency/majority voting 很稳;如果候选答案多样但有较强 verifier,reranking 往往更有优势。
- 问:什么时候该用工具 / 程序执行器,而不是只靠自然语言推理?
答:当任务需要精确计算、代码执行、数据库查询、符号搜索或外部环境反馈时,工具往往比“纯口算式推理”更可靠。
- 问:结果奖励(outcome reward)和过程奖励(process reward)各自适合什么任务?
答:最终结果易验证时更适合 outcome reward;长链条、稀疏反馈、容易“瞎蒙对”的任务更适合加入 process reward。
- 问:reasoning post-training 里,
rejection sampling SFT、DPO、GRPO/PPO怎么分工?答:
RS-SFT更适合先把高质量轨迹蒸进去,DPO更适合离线偏好优化,GRPO/PPO更适合在线塑形策略行为,但成本和不稳定性更高。 - 问:如何评估 reasoning model,不只是看
pass@1?答:还要看
pass@k、固定 test-time compute 下的收益、长度归一化表现、对改写/OOD 的鲁棒性、judge/verifier 校准和成本时延曲线。 - 问:为什么 test-time compute scaling 不是无限加 sample 就行?
答:因为样本相关性会越来越强,verifier 也有上限,边际收益会快速递减;算力和时延成本还会持续上升。
- 问:小模型蒸馏大模型 reasoning 时,最容易丢掉什么?
答:最容易丢的是探索性、回退修正、对不确定性的表达,以及复杂任务里“知道自己还没想清楚”的能力。
- 问:verifier、reward model、judge 之间的边界是什么?
答:三者都在打分,但 verifier 更偏任务正确性检查,reward model 更偏训练优化信号,judge 更偏评测或比较器;它们可以重叠,但职责最好分清。
- 问:如果模型“想得更长但结果没变好”,你会怎么排查?
答:先看长度是不是被错误奖励了,再看候选是否真的更有多样性、verifier 是否可靠、工具链是否有效,以及额外 token 是否只是重复废话。