#一、高频问题速览

  1. 什么是 test-time compute(测试时计算)?为什么 reasoning model 特别重视它?
  2. self-consistency(自一致性)是什么?为什么它常比单次 greedy decoding 更强?
  3. best-of-n / rejection sampling 的核心思想是什么?它和 RL 有什么关系?
  4. verifier / judge model 在 reasoning 系统里到底做什么?
  5. Outcome Reward Model (ORM)Process Reward Model (PRM) 有什么区别?
  6. 为什么 process supervision 往往比只看 final answer 更细粒度?代价又是什么?
  7. 合成推理数据(synthetic reasoning data)为什么重要?它的主要风险是什么?
  8. 推理蒸馏(reasoning distillation)到底在蒸馏什么?
  9. 为什么长 CoT 蒸馏有时会损害泛化?
  10. 为什么 reasoning 模型容易出现 length bias / overthinking?
  11. Tree of Thoughts、beam search、MCTS 这类搜索方法各自在解决什么问题?
  12. self-consistency、majority voting、verifier reranking 三者怎么选?
  13. 什么时候该用工具 / 程序执行器,而不是只靠自然语言推理?
  14. 结果奖励(outcome reward)和过程奖励(process reward)各自适合什么任务?
  15. reasoning post-training 里,rejection sampling SFTDPOGRPO/PPO 怎么分工?
  16. 如何评估 reasoning model,不只是看 pass@1
  17. 为什么 test-time compute scaling 不是无限加 sample 就行?
  18. 小模型蒸馏大模型 reasoning 时,最容易丢掉什么?
  19. verifier、reward model、judge 之间的边界是什么?
  20. 如果模型“想得更长但结果没变好”,你会怎么排查?

#就地速答

  • 问:什么是 test-time compute(测试时计算)?为什么 reasoning model 特别重视它?

    答:它指的是在推理阶段额外花算力做采样、搜索、验证或工具调用,而不是只靠一次前向直接出答案;reasoning 任务常存在“多想几次就更可能做对”的特征,所以这条线非常关键。

  • 问:self-consistency(自一致性)是什么?为什么它常比单次 greedy decoding 更强?

    答:它会对同一问题采样多条推理链,再按最终答案聚合;如果单次解码容易卡在某条局部错误路径,多样采样后多数正确答案更容易浮出来。

  • 问:best-of-n / rejection sampling 的核心思想是什么?它和 RL 有什么关系?

    答:先生成多条候选,再用打分器或规则选最好的,或者把好样本留下来做后续训练;它本质更像“离线筛好样本再学”,不像 RL 那样在线做信用分配。

  • 问:verifier / judge model 在 reasoning 系统里到底做什么?

    答:它负责把“生成”和“评判”拆开:生成器负责出候选,verifier 负责判断哪条更可信、更正确,常用于 rerank、过滤合成数据或控制搜索。

  • 问:Outcome Reward Model (ORM)Process Reward Model (PRM) 有什么区别?

    答:ORM 更关心最终答案或整条输出值不值得奖励;PRM 更关心中间步骤是否在正确推进,监督更细,但标注和训练成本也更高。

  • 问:为什么 process supervision 往往比只看 final answer 更细粒度?代价又是什么?

    答:因为它能告诉模型“哪一步错了”,不只是最后错了;但它需要更贵的过程标注,也更容易引入标注噪声和格式约束。

  • 问:合成推理数据(synthetic reasoning data)为什么重要?它的主要风险是什么?

    答:因为人工长推理数据太贵,teacher 生成能快速放大规模;但它也会把 teacher 的偏差、套路化表达和错误捷径一起放大。

  • 问:推理蒸馏(reasoning distillation)到底在蒸馏什么?

    答:不只是蒸馏最终答案,还在蒸馏问题拆解方式、步骤顺序、检查习惯、工具使用模式和“何时继续思考”的行为模式。

  • 问:为什么长 CoT 蒸馏有时会损害泛化?

    答:因为学生可能学到的是“像老师那样说得很完整”,而不是“真正保留探索、怀疑和修正能力”,结果在 OOD 数学题上反而更僵。

  • 问:为什么 reasoning 模型容易出现 length bias / overthinking?

    答:因为 reward、judge 或训练数据很容易把“更长”误当成“更好”,模型就会学会多写、重复和拖长,而不一定真的多推理出了有效信息。

  • 问:Tree of Thoughts、beam search、MCTS 这类搜索方法各自在解决什么问题?

    答:它们都在解决“单条链路容易走偏”的问题,只是分支、打分和回溯策略不同:有的更像宽搜,有的更像保留前几名,有的更像边搜索边估值。

  • 问:self-consistency、majority voting、verifier reranking 三者怎么选?

    答:如果答案空间明确、可投票,self-consistency/majority voting 很稳;如果候选答案多样但有较强 verifier,reranking 往往更有优势。

  • 问:什么时候该用工具 / 程序执行器,而不是只靠自然语言推理?

    答:当任务需要精确计算、代码执行、数据库查询、符号搜索或外部环境反馈时,工具往往比“纯口算式推理”更可靠。

  • 问:结果奖励(outcome reward)和过程奖励(process reward)各自适合什么任务?

    答:最终结果易验证时更适合 outcome reward;长链条、稀疏反馈、容易“瞎蒙对”的任务更适合加入 process reward。

  • 问:reasoning post-training 里,rejection sampling SFTDPOGRPO/PPO 怎么分工?

    答:RS-SFT 更适合先把高质量轨迹蒸进去,DPO 更适合离线偏好优化,GRPO/PPO 更适合在线塑形策略行为,但成本和不稳定性更高。

  • 问:如何评估 reasoning model,不只是看 pass@1

    答:还要看 pass@k、固定 test-time compute 下的收益、长度归一化表现、对改写/OOD 的鲁棒性、judge/verifier 校准和成本时延曲线。

  • 问:为什么 test-time compute scaling 不是无限加 sample 就行?

    答:因为样本相关性会越来越强,verifier 也有上限,边际收益会快速递减;算力和时延成本还会持续上升。

  • 问:小模型蒸馏大模型 reasoning 时,最容易丢掉什么?

    答:最容易丢的是探索性、回退修正、对不确定性的表达,以及复杂任务里“知道自己还没想清楚”的能力。

  • 问:verifier、reward model、judge 之间的边界是什么?

    答:三者都在打分,但 verifier 更偏任务正确性检查,reward model 更偏训练优化信号,judge 更偏评测或比较器;它们可以重叠,但职责最好分清。

  • 问:如果模型“想得更长但结果没变好”,你会怎么排查?

    答:先看长度是不是被错误奖励了,再看候选是否真的更有多样性、verifier 是否可靠、工具链是否有效,以及额外 token 是否只是重复废话。