Self-Verified Distillation：模型如何把自验证变成后训练数据引擎

核心判断

这篇论文最重要的结论是：同一个语言模型作为生成器时可能产生大量噪声，但作为验证器时仍可能提供更高 precision 的筛选信号。只要通过验证的样本分布优于原始自生成样本，SFT 就能把一次性数据构造成本变成测试时的单次生成收益。

+16.7Qwen3-4B 在 math held-out 汇总上的 pass@1 提升。

+11.1Qwen3-4B 在 science held-out 汇总上的 pass@1 提升。

+8.3Qwen3-4B 在 coding held-out 汇总上的 pass@1 提升。

168UQ-TTC 在最佳 math 设置下每个测试题最多需要的推理调用数。

核心 insight：模型不必完全知道真答案，也可能知道哪些答案更不像错答案。这种不完美但高精度的自验证能力，可以被转化成后训练数据。

问题背景

后训练 reasoning model 通常依赖标准答案、人工标注、工具反馈、外部 teacher model、reward model 或 verifier。Self-Verified Distillation 刻意把这些依赖拿掉：只给模型一批无标签 seed questions，不使用已有答案和 reasoning traces，让模型自己生成候选解、自己判断哪些候选解可以训练。

这个设定的难点很直接：普通 self-training 会把模型自己的错答案重新喂给模型，导致错误被强化。论文把问题转成 generator-validator consistency：模型作为 generator 的行为，是否能被模型作为 validator 的行为有效筛选。验证器不需要完美，但必须比原始生成分布更高精度。

更强约束

没有 ground-truth final answer，没有外部 teacher，没有工具反馈，也没有训练好的外部 verifier。

更清晰目标

目标不是证明模型能无限自举，而是验证自验证过滤能否构造比原始自生成更有用的 SFT 数据。

更贴近部署

把多次采样和验证放到离线数据构造阶段，测试时仍保持单次模型调用。

机制拆解

Self-Verified Distillation 的流程很短，但每一步都有明确失败条件。它不是简单“生成更多数据”，而是用更宽的候选池和更严格的验证器共同提高训练样本质量。

1. Seed Questions

从 OpenThoughts 派生数据中只取问题文本，丢弃答案和推理轨迹，保持无标签设定。

2. Candidate Sampling

每个问题采样 n 个候选解。n 控制探索宽度，让验证器有更多候选可选。

3. UQ Verification

每个候选解经过 cycle-consistency、factuality、total correctness 三阶段检查，每阶段重复 v 次。

4. SFT

只把全阶段、全重复 judge call 都通过的样本加入训练集，再对原模型做监督微调。

为什么 UQ-style verifier 比一句 correctness prompt 更强

简单 correctness prompt 直接问“这个答案是否正确”，实现容易，但容易漏掉答非所问、局部事实错误、推理过程不完整等问题。UQ-style verifier 把判断拆成三个互补问题：答案是否真的在回答原题，答案内部是否有事实、算术或逻辑错误，答案是否完整解决原题。这个结构让 verifier 不只是更严格，而是覆盖了更多失败模式。

计算分配的关键：n 太小而 v 太大时，验证器可能把可训练样本筛得过少；n 足够大时，强验证才有充足候选可挑。探索宽度和过滤强度必须配合。

实验信号

论文中最有价值的部分不是最终分数本身，而是消融实验显示了“过滤质量”比“自生成数据数量”更关键。

实验观察	含义	解读
未过滤自生成数据在 coding 上会让 Qwen3-4B 低于初始模型。	自生成本身不是收益来源。	没有验证的自训练可能强化错误轨迹，尤其是 code 这种错误可执行但模式复杂的任务。
完整 UQ verifier 在 math 上优于简单 correctness verifier。	验证结构比单纯严格度重要。	拆分检查可以覆盖答非所问、事实错误、解法不完整等不同失败面。
Qwen3-4B 收益最强，0.6B 收益更小且 HLE 略降。	模型能力和 seed 难度需要匹配。	太弱的模型可能既不会生成好解，也不会可靠验证；太强的模型可能已吃掉部分 easy seed 收益。
UQ-TTC 每题最多 168 次推理，SVD 测试时只需 1 次。	离线摊销 test-time compute。	这使方法更接近真实部署：训练阶段付验证成本，线上保持低延迟。

因此，这篇工作的工程价值可以概括为：把测试时的多样本搜索和验证，迁移到训练数据构造阶段；把昂贵的 per-query verification cost 变成一次性数据资产；再用 SFT 让模型在单次推理时继承一部分验证收益。

工程启发

如果把这套方法放进真实 post-training 流水线，最关键的不是一次性跑出更高分，而是把 seed 选择、候选采样、验证器审计和训练集回放做成可观测闭环。每一批被接受的数据都应该保留问题来源、候选数量、各阶段 judge 结果、拒绝原因和训练后指标变化，否则很难判断收益来自更好推理，还是来自 verifier 偏好被模型模仿。

另一个直接启发是把 test-time compute 分成两类：线上临时投入和离线数据资产化。前者适合高价值、低吞吐、可等待任务；后者适合把昂贵验证提前摊销到训练阶段。Self-Verified Distillation 的价值就在于把一部分线上搜索收益前移，但它仍需要持续监控 accepted sample 的多样性、错误率和领域覆盖。

术语解释

Self-Verified Distillation

这里指模型用自己的输出构造候选训练数据，再用自己的验证判断筛选数据，最后通过监督微调学习这些被接受的样本。

Generator-Validator Consistency

指模型作为生成器和作为验证器时能力是否一致。如果验证器视角能比生成分布更准确地识别好答案，自验证就有利用价值。

UQ Verification

UQ 指 Unsolved Questions，这里借用其 oracle-free validation 思路，用多阶段 prompt verifier 检查候选答案，而不依赖标准答案。

Cycle Consistency

指从候选答案反推出它似乎在回答的问题，再和原始问题比较，判断答案是否真正对应原题。

Factuality Check

指检查候选答案中是否存在事实、数字、公式、算术、逻辑或误导性解释错误。

Total Correctness

指判断答案是否完整、正确、足够详细地解决原题。部分正确、高层概述或缺关键步骤的答案会被拒绝。

UQ-TTC

Test-time compute baseline，在每个测试题上临时采样多个答案并运行同样的验证流程，性能可能提升但推理成本很高。

Near-frontier Capability

指模型偶尔能解出、但 pass@1 不稳定的能力区域。Self-Verified Distillation 更像是在回收这一区域的能力，而不是凭空创造完全不会的技能。

边界与风险

这篇工作不应被解读成“LLM 可以完全脱离外部数据无限自我进化”。更准确的结论是：在 math、science、coding 这些相对可验证的 reasoning 任务上，prompt-based self-verification 可以作为一个低依赖的数据过滤器，为 post-training 提供额外信号。

不能保证验证正确

多阶段和重复投票只是降低误接受率。模型仍可能接受错误答案、拒绝有用答案，或在不同领域表现出不均匀的判断能力。

可能过拟合 verifier 偏好

训练数据来自 verifier 接受的样本，模型可能学到更像“会被自己接受”的答案风格，而不一定只学到真实推理能力。

seed 分布决定上限

seed questions 太容易会很快耗尽收益；太难则模型既不会生成高质量候选，也无法稳定识别正确解。

泛化还需更多材料

目前主要证据集中在 Qwen3 0.6B、4B、8B 和三个 reasoning 域；对长程 agent、多模态、开放写作任务不能直接外推。

最需要警惕的误读：Self-Verified Distillation 证明的是“自验证过滤可以构造有用数据”，不是“模型不再需要外部世界、工具、标签或人类监督”。

复盘问题

读完这篇笔记后，最应该追问四件事：验证器在哪些任务上比生成器更可靠，accepted 样本是否真的覆盖了模型 near-frontier capability，SFT 是否只是学习 verifier 偏好的表达风格，以及离线验证成本能否被后续线上调用量摊平。只有这四个问题都能回答，才能判断这套方法是否值得进入实际训练流水线。

这个判断必须持续复核。

证据边界与资料索引

本文依据 Tony Lee 的 X thread、作者公开资料、arXiv metadata、论文 PDF 正文和本地文本抽取结果整理。原 X 帖是普通 thread，不是 X long-form article；thread 中图片未作为独立证据使用，核心数字和方法以 arXiv v1 正文为准。论文版本为 arXiv:2605.26132v1，后续若有新版、代码仓库或更多复现实验，本文判断需要相应更新。