78. Reasoning 后训练专项强化题库（第十一批：Verifier、拒绝采样、蒸馏与 Test-Time Scaling）

#Reasoning 后训练专项强化题库（第十一批：Verifier、拒绝采样、蒸馏与 Test-Time Scaling）

前面的题库已经把 Transformer、训练系统、推理系统、RAG、Agent、RLHF/GRPO、优化器和数学基础铺得比较全，但如果目标是大模型算法岗，接下来最该补的不是后端八股，而是 reasoning 模型这条线里最容易被连续追问的“后训练与测试时扩展”问题。

因为 2025-2026 年大模型算法面试里，一个很明显的趋势是：面试官不再满足于问“GRPO 是什么”“CoT 有什么用”，而是会继续追到 verifier 怎么工作、PRM/ORM 怎么分、rejection sampling 和 RL 的边界是什么、为什么长链路蒸馏会伤害泛化、test-time compute 为什么能提升推理但又不是无限有效。这一节就是把这条知识线单独拉出来，补成可直接展开的专项题库。

#核心术语先对齐

Verifier指用于判断候选解答好坏的模型或规则；PRM更关注推理过程中的中间步骤，ORM更关注最终答案；rejection sampling通过生成多个候选再筛选提升质量；test-time compute指推理阶段投入更多搜索、采样或验证计算来换取更高成功率。

reasoning 后训练的核心边界是：更多思考不一定总是更好。计算预算、验证器质量、任务可验证性、采样多样性、长链路错误累积和蒸馏损失都会影响最终收益。面试回答要避免把 CoT、RL、verifier 和 test-time scaling 混成一个模糊概念。

#阅读顺序

先读第 79 章问题速览，确认 reasoning 后训练的主要题型。
再读第 80 章逐题详细解答，重点看 verifier、拒绝采样、蒸馏和测试时扩展。
复盘时用“训练信号 - 推理预算 - 验证机制 - 失败边界”四个维度检查。

#常见误区

不要把 reasoning 等同于“输出更长的 CoT”。真正的问题是模型如何获得更可靠的中间搜索、如何筛选候选、如何把验证信号变成训练信号，以及推理阶段多花的计算是否真的转化为成功率。长答案如果只是重复“多思考”，没有讲验证器和预算，就不够。

也不要把 verifier 当成无成本裁判。验证器本身可能偏置、过拟合、被模型利用，PRM 的步骤级监督也可能奖励表面合理但最终错误的推理链。回答时要补任务可验证性、采样多样性、验证成本、延迟预算和线上回退策略。

这条线最适合用对比表复盘：SFT 提供模仿信号，RL/GRPO 提供偏好或奖励优化，rejection sampling 提供候选筛选，distillation 把强推理轨迹压回学生模型，test-time compute 在推理阶段换成功率。每种方法都要写清收益、代价和失败模式，避免把“后训练”当成一个笼统词。