79. 一、高频问题速览 - 大模型面试题库

#一、高频问题速览

什么是 test-time compute（测试时计算）？为什么 reasoning model 特别重视它？
self-consistency（自一致性）是什么？为什么它常比单次 greedy decoding 更强？
best-of-n / rejection sampling 的核心思想是什么？它和 RL 有什么关系？
verifier / judge model 在 reasoning 系统里到底做什么？
Outcome Reward Model (ORM) 和 Process Reward Model (PRM) 有什么区别？
为什么 process supervision 往往比只看 final answer 更细粒度？代价又是什么？
合成推理数据（synthetic reasoning data）为什么重要？它的主要风险是什么？
推理蒸馏（reasoning distillation）到底在蒸馏什么？
为什么长 CoT 蒸馏有时会损害泛化？
为什么 reasoning 模型容易出现 length bias / overthinking？
Tree of Thoughts、beam search、MCTS 这类搜索方法各自在解决什么问题？
self-consistency、majority voting、verifier reranking 三者怎么选？
什么时候该用工具 / 程序执行器，而不是只靠自然语言推理？
结果奖励（outcome reward）和过程奖励（process reward）各自适合什么任务？
reasoning post-training 里，rejection sampling SFT、DPO、GRPO/PPO 怎么分工？
如何评估 reasoning model，不只是看 pass@1？
为什么 test-time compute scaling 不是无限加 sample 就行？
小模型蒸馏大模型 reasoning 时，最容易丢掉什么？
verifier、reward model、judge 之间的边界是什么？
如果模型“想得更长但结果没变好”，你会怎么排查？

#就地速答

问：什么是 test-time compute（测试时计算）？为什么 reasoning model 特别重视它？
答：它指的是在推理阶段额外花算力做采样、搜索、验证或工具调用，而不是只靠一次前向直接出答案；reasoning 任务常存在“多想几次就更可能做对”的特征，所以这条线非常关键。
问：self-consistency（自一致性）是什么？为什么它常比单次 greedy decoding 更强？
答：它会对同一问题采样多条推理链，再按最终答案聚合；如果单次解码容易卡在某条局部错误路径，多样采样后多数正确答案更容易浮出来。
问：best-of-n / rejection sampling 的核心思想是什么？它和 RL 有什么关系？
答：先生成多条候选，再用打分器或规则选最好的，或者把好样本留下来做后续训练；它本质更像“离线筛好样本再学”，不像 RL 那样在线做信用分配。
问：verifier / judge model 在 reasoning 系统里到底做什么？
答：它负责把“生成”和“评判”拆开：生成器负责出候选，verifier 负责判断哪条更可信、更正确，常用于 rerank、过滤合成数据或控制搜索。
问：Outcome Reward Model (ORM) 和 Process Reward Model (PRM) 有什么区别？
答：ORM 更关心最终答案或整条输出值不值得奖励；PRM 更关心中间步骤是否在正确推进，监督更细，但标注和训练成本也更高。
问：为什么 process supervision 往往比只看 final answer 更细粒度？代价又是什么？
答：因为它能告诉模型“哪一步错了”，不只是最后错了；但它需要更贵的过程标注，也更容易引入标注噪声和格式约束。
问：合成推理数据（synthetic reasoning data）为什么重要？它的主要风险是什么？
答：因为人工长推理数据太贵，teacher 生成能快速放大规模；但它也会把 teacher 的偏差、套路化表达和错误捷径一起放大。
问：推理蒸馏（reasoning distillation）到底在蒸馏什么？
答：不只是蒸馏最终答案，还在蒸馏问题拆解方式、步骤顺序、检查习惯、工具使用模式和“何时继续思考”的行为模式。
问：为什么长 CoT 蒸馏有时会损害泛化？
答：因为学生可能学到的是“像老师那样说得很完整”，而不是“真正保留探索、怀疑和修正能力”，结果在 OOD 数学题上反而更僵。
问：为什么 reasoning 模型容易出现 length bias / overthinking？
答：因为 reward、judge 或训练数据很容易把“更长”误当成“更好”，模型就会学会多写、重复和拖长，而不一定真的多推理出了有效信息。
问：Tree of Thoughts、beam search、MCTS 这类搜索方法各自在解决什么问题？
答：它们都在解决“单条链路容易走偏”的问题，只是分支、打分和回溯策略不同：有的更像宽搜，有的更像保留前几名，有的更像边搜索边估值。
问：self-consistency、majority voting、verifier reranking 三者怎么选？
答：如果答案空间明确、可投票，self-consistency/majority voting 很稳；如果候选答案多样但有较强 verifier，reranking 往往更有优势。
问：什么时候该用工具 / 程序执行器，而不是只靠自然语言推理？
答：当任务需要精确计算、代码执行、数据库查询、符号搜索或外部环境反馈时，工具往往比“纯口算式推理”更可靠。
问：结果奖励（outcome reward）和过程奖励（process reward）各自适合什么任务？
答：最终结果易验证时更适合 outcome reward；长链条、稀疏反馈、容易“瞎蒙对”的任务更适合加入 process reward。
问：reasoning post-training 里，rejection sampling SFT、DPO、GRPO/PPO 怎么分工？
答：RS-SFT 更适合先把高质量轨迹蒸进去，DPO 更适合离线偏好优化，GRPO/PPO 更适合在线塑形策略行为，但成本和不稳定性更高。
问：如何评估 reasoning model，不只是看 pass@1？
答：还要看 pass@k、固定 test-time compute 下的收益、长度归一化表现、对改写/OOD 的鲁棒性、judge/verifier 校准和成本时延曲线。
问：为什么 test-time compute scaling 不是无限加 sample 就行？
答：因为样本相关性会越来越强，verifier 也有上限，边际收益会快速递减；算力和时延成本还会持续上升。
问：小模型蒸馏大模型 reasoning 时，最容易丢掉什么？
答：最容易丢的是探索性、回退修正、对不确定性的表达，以及复杂任务里“知道自己还没想清楚”的能力。
问：verifier、reward model、judge 之间的边界是什么？
答：三者都在打分，但 verifier 更偏任务正确性检查，reward model 更偏训练优化信号，judge 更偏评测或比较器；它们可以重叠，但职责最好分清。
问：如果模型“想得更长但结果没变好”，你会怎么排查？
答：先看长度是不是被错误奖励了，再看候选是否真的更有多样性、verifier 是否可靠、工具链是否有效，以及额外 token 是否只是重复废话。