Self-Distillation 的两面性：World-Bayesian 与 Self-Bayesian 推理

Thesis

关键不是自蒸馏好不好，而是它蒸馏掉了什么

作者 Jeonghye Kim 把 MSRA 实习期间围绕 self-distillation 与 exploration 的四篇工作，压缩成一个更 general 的判断：同一种训练技术，在不同推理反馈结构里可能方向相反。agent 长程任务有环境状态、失败反馈和奖励，自蒸馏能把外部世界经验内化进参数；数学和纯符号推理没有即时环境反馈，模型很大程度上依赖自己说出的“wait / perhaps / hmm”来触发回看、换路和纠错。

一句话判断：如果错误检测来自外部世界，自蒸馏常常是在压缩经验；如果错误检测只能来自模型内部的不确定性外显，自蒸馏可能是在删除推理系统的刹车。

所以，这不是“长 CoT vs 短 CoT”的审美问题，也不是“teacher trace 更干净所以更好”的工程常识问题。真正的问题是：teacher 的轨迹为什么看起来更干净？是因为它吸收了可验证的外部反馈，还是因为它已经知道答案，因此不再需要真实求解者会经历的怀疑和检查？

Problem

为什么同样的 self-distillation 会一边提升、一边退化

自蒸馏通常被理解成让模型从自己或更强版本的输出里学习：保留正确解法、压缩轨迹、减少无效探索。这在很多后训练流程里很自然，因为它看起来同时改善效率、稳定性和样本利用率。帖子挑战的是这个默认假设：如果 teacher 的轨迹缺少不确定性，那么 student 学到的可能不是“更强推理”，而是“更自信地沿着单一路径走下去”。

作者先在 long-horizon agent 场景里看到正向结果：带 memory 的 agent 从失败经验、环境反馈和文本 tip 中获得可迁移信息，再通过 hybrid on-policy / off-policy optimization 把这些信息写进模型参数。这个过程符合直觉，因为 agent 任务的错误检测由环境提供。

但当她把这个思路移到 single-turn math reasoning 时，多个实现和模型上都出现类似现象：早期短暂提升，随后性能下降。这个差异迫使问题从“蒸馏方法怎么调”转成“模型在没有外部反馈时如何知道自己正在错”。

图示对比 world-Bayesian reasoning 与 self-Bayesian reasoning 中自蒸馏的相反作用 — 原帖配图把两类推理拆开：world-Bayesian reasoning 中，自蒸馏吸收 world knowledge；self-Bayesian reasoning 中，普通自蒸馏可能让学生模仿 teacher 的确定性轨迹，反向蒸馏则尝试强化学生成功偏离 teacher 的探索。

Terms

几个概念先对齐

这些术语很容易被读成新瓶装旧酒，但在这条研究线里它们分别对应不同的训练信号来源和失败模式。

Self-Distillation

这里指模型从自己、强 teacher、带提示 teacher 或更丰富条件下的轨迹中学习。它不只传递答案，也会传递轨迹风格、犹豫程度、检查习惯和探索偏好。

World-Bayesian Reasoning

指推理依赖外部环境交互的任务。环境会告诉模型动作是否有效、状态如何变化、奖励是否出现，因此错误检测信号主要来自世界。

Self-Bayesian Reasoning

指主要依赖模型内部知识和文本轨迹完成的推理，例如数学题。外部 verifier 缺位时，模型只能靠内部不确定性来触发检查和换路。

Epistemic Verbalization

指模型把“不确定、怀疑、可能错了”显式写进 token 轨迹，例如 wait、hmm、perhaps。它不是装饰词，而可能是触发后续控制动作的开关。

RLVR

指 reinforcement learning with verifiable rewards，即用可验证答案或程序性检查给奖励的后训练方式。它比纯偏好奖励更硬，但仍会受到探索质量影响。

Teacher Signal

指 teacher 在每个 token、轨迹或答案上的监督方向。它有时是纠偏信息，有时是保守约束；关键要看 student 偏离 teacher 时是否仍然成功。

Mechanism

错误检测信号决定了蒸馏的方向

外部世界给反馈：蒸馏是经验压缩

在 agent 场景里，模型通过行动看到环境反应。失败、成功、状态变化、reward 和文本 tip 都是外部反馈。自蒸馏把这些经验写进参数，降低未来推理时重新探索的成本。

输入：轨迹、memory、失败经验、环境反馈。
处理：把文本反馈和成功/失败经验转成训练信号。
输出：不依赖 inference-time memory 时也能少走弯路。
主要风险：反馈覆盖不全时，可能把局部环境策略过拟合进模型。

没有外部反馈：蒸馏可能删除纠错触发器

在数学推理里，teacher 如果已经知道答案，它的轨迹自然更确定、更少怀疑。student 模仿这种轨迹后，也会减少不确定性表达，导致走偏时缺少回看和改路机制。

输入：正确答案、提示、teacher 的干净轨迹。
处理：压缩为更短、更确定、更少犹豫的推理风格。
输出：分布内可能更利落，OOD 上更容易 silent divergence。
主要风险：把“答案已知后的 hindsight trace”误当成真实求解策略。

模型进入不充分信息状态。

推理轨迹已经偏离正确方向，但最终答案还没暴露错误；这时如果没有外部 verifier，模型不会天然知道自己错了。

不确定性外显触发控制动作。

“wait / hmm / perhaps” 的功能不是提供内容，而是让模型重新检查假设、回溯中间结论、尝试另一条路径。

普通自蒸馏可能降低这种触发概率。

teacher 因为知道答案而更少表达不确定性，student 学到的就是更少怀疑。推理轨迹变干净，但错误恢复能力变弱。

反向利用 teacher signal 可以保留成功探索。

如果 student 偏离 teacher 但仍然答对，这些 token 可能代表有价值的自驱动探索，而不是应被压制的噪声。

最容易误读的点：作者不是说模型应该更啰嗦，也不是说所有 “wait” token 都有价值。她说的是，在没有外部错误检测的任务里，某些不确定性外显承担了控制功能；盲目蒸馏掉它，会伤害鲁棒推理。

Evidence Chain

四篇工作如何组成同一条证据链

原帖列出的四篇工作不是平行罗列，而是从 agent 正例、机制解释、退化诊断到反向训练方案的递进。

[1] Agent 正例

EMPO²

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization 关注 long-horizon LLM agent 的 exploration。它用 memory 与文本反馈帮助 agent 从失败中积累经验，再通过混合 on-policy / off-policy 优化写入参数；论文报告 ScienceWorld 上相对 GRPO 提升 128.6%，WebShop 上提升 11.3%。

[2] 机制解释

Strategic Information Allocation

Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty 把 reasoning 中的信息分成 procedural information 与 epistemic verbalization。后者帮助模型在 silent divergence 前重新分配计算和检查路径。

[3] 退化诊断

Self-Distillation Degradation

Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs? 直接指出，数学推理中的自蒸馏可能压制 epistemic verbalization。teacher 越像“已经知道答案”，student 越可能学到过度自信的短轨迹，OOD 性能最高报告下降 40%。

[4] 反向方案

Rebellious Student / RLRT

Rebellious Student: Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR 不是无条件靠近 teacher，而是在正确 rollout 中强化 student 偏离 teacher 且仍然成功的 token，把它们视为 self-driven reasoning。

工作	任务类型	错误检测信号	对 self-distillation 的含义
EMPO²	长程 agent 任务	环境状态、reward、失败反馈	把外部世界反馈压缩进参数，通常是正向作用
Strategic Information Allocation	内部推理机制分析	不确定性外显触发自我检查	解释 “wait / hmm” 这类 token 为什么可能有功能性
Self-Distillation Degradation	数学推理与 OOD 泛化	被 teacher 的确定性轨迹削弱	普通自蒸馏可能删除纠错触发器
RLRT	RLVR reasoning exploration	正确 rollout 中的成功偏离	teacher signal 可以反向使用，以奖励 student 的有效探索

Implications

对后训练的直接启发

先判断任务的 feedback topology

训练策略不应先问“要不要蒸馏”，而应先问“错误检测信号在哪里”。coding 任务有单测时更接近 world-Bayesian，写代码前的设计推理又更接近 self-Bayesian；研究 agent、网页 agent、数学证明也常常是混合结构。后训练应该按阶段处理，而不是给所有轨迹套同一种 teacher imitation。

不要只奖励最终答案，也要保留控制动作

如果训练只看最终 answer correctness，模型可能学会把轨迹变短、变干净、变确定，却没有学会如何在不充分信息下纠错。更合理的对象是 reasoning behavior：什么时候暂停、什么时候验证中间结论、什么时候回溯假设、什么时候换一条路径。

teacher 不是单调正则项

teacher signal 有两种角色：失败轨迹上，它可能是纠偏信息；成功轨迹上，student 偏离 teacher 的 token 可能是有价值的新路径。RLRT 的重要性在于把 teacher-student disagreement 从“错误”重新解释为“需要条件化判断的探索信号”。

工程判断：对有 verifier 的任务，可以更积极地蒸馏环境反馈；对无 verifier 或 weak verifier 的任务，要显式保护不确定性、检查和回溯行为。否则短轨迹提升可能只是把错误发现能力转移到了看不见的风险里。

Limits

边界与风险

world-Bayesian 与 self-Bayesian 不是绝对二分。真实任务通常交替出现外部验证和内部规划：coding agent 会先做无验证的设计，再跑测试获得外部反馈；浏览器 agent 会在局部步骤里看到页面变化，但高层目标是否正确仍可能需要内部判断。因此，这套框架更像诊断工具，而不是任务分类标签。

epistemic verbalization 也不必永远以自然语言 token 存在。未来可以用 value head、process verifier、latent control token、search controller 或工具化检查来承担同样功能。当前论文之所以关注 “wait / hmm / perhaps”，是因为这些 token 在现有 CoT 与 RLVR 训练里可见、可统计、可干预。

最后，鼓励不确定性不等于鼓励冗长。模型输出更多犹豫词不一定更强；真正要保留的是能触发有效验证和路径切换的 calibrated uncertainty。没有后续控制动作的犹豫，只是另一种风格噪声。

Sources

证据边界与资料索引

本文基于原 X 线程及其四条论文补充帖、原帖配图、公开论文页面与项目页面整理。X 线程正文由本地 Twitter/X adapter 读取；公开网页侧主要用于核验论文题名、摘要、版本日期、公开结果和链接边界。Grok 检索曾尝试调用，但本地会话未能提交，因此未作为事实来源。