#Reasoning 后训练专项强化题库(第十一批:Verifier、拒绝采样、蒸馏与 Test-Time Scaling)

前面的题库已经把 Transformer、训练系统、推理系统、RAGAgentRLHF/GRPO、优化器和数学基础铺得比较全,但如果目标是大模型算法岗,接下来最该补的不是后端八股,而是 reasoning 模型这条线里最容易被连续追问的“后训练与测试时扩展”问题。

因为 2025-2026 年大模型算法面试里,一个很明显的趋势是:面试官不再满足于问“GRPO 是什么”“CoT 有什么用”,而是会继续追到 verifier 怎么工作、PRM/ORM 怎么分、rejection sampling 和 RL 的边界是什么、为什么长链路蒸馏会伤害泛化、test-time compute 为什么能提升推理但又不是无限有效。这一节就是把这条知识线单独拉出来,补成可直接展开的专项题库。