#Reasoning 后训练专项强化题库(第十一批:Verifier、拒绝采样、蒸馏与 Test-Time Scaling)
前面的题库已经把 Transformer、训练系统、推理系统、RAG、Agent、RLHF/GRPO、优化器和数学基础铺得比较全,但如果目标是大模型算法岗,接下来最该补的不是后端八股,而是 reasoning 模型这条线里最容易被连续追问的“后训练与测试时扩展”问题。
因为 2025-2026 年大模型算法面试里,一个很明显的趋势是:面试官不再满足于问“GRPO 是什么”“CoT 有什么用”,而是会继续追到 verifier 怎么工作、PRM/ORM 怎么分、rejection sampling 和 RL 的边界是什么、为什么长链路蒸馏会伤害泛化、test-time compute 为什么能提升推理但又不是无限有效。这一节就是把这条知识线单独拉出来,补成可直接展开的专项题库。
#核心术语先对齐
Verifier指用于判断候选解答好坏的模型或规则;PRM更关注推理过程中的中间步骤,ORM更关注最终答案;rejection sampling通过生成多个候选再筛选提升质量;test-time compute指推理阶段投入更多搜索、采样或验证计算来换取更高成功率。
reasoning 后训练的核心边界是:更多思考不一定总是更好。计算预算、验证器质量、任务可验证性、采样多样性、长链路错误累积和蒸馏损失都会影响最终收益。面试回答要避免把 CoT、RL、verifier 和 test-time scaling 混成一个模糊概念。
#阅读顺序
- 先读第 79 章问题速览,确认 reasoning 后训练的主要题型。
- 再读第 80 章逐题详细解答,重点看 verifier、拒绝采样、蒸馏和测试时扩展。
- 复盘时用“训练信号 - 推理预算 - 验证机制 - 失败边界”四个维度检查。
#常见误区
不要把 reasoning 等同于“输出更长的 CoT”。真正的问题是模型如何获得更可靠的中间搜索、如何筛选候选、如何把验证信号变成训练信号,以及推理阶段多花的计算是否真的转化为成功率。长答案如果只是重复“多思考”,没有讲验证器和预算,就不够。
也不要把 verifier 当成无成本裁判。验证器本身可能偏置、过拟合、被模型利用,PRM 的步骤级监督也可能奖励表面合理但最终错误的推理链。回答时要补任务可验证性、采样多样性、验证成本、延迟预算和线上回退策略。
这条线最适合用对比表复盘:SFT 提供模仿信号,RL/GRPO 提供偏好或奖励优化,rejection sampling 提供候选筛选,distillation 把强推理轨迹压回学生模型,test-time compute 在推理阶段换成功率。每种方法都要写清收益、代价和失败模式,避免把“后训练”当成一个笼统词。