Tech Analysis · 2026-05-28

Self-Distillation 的两面性:World-Bayesian 与 Self-Bayesian 推理

这条 X 线程的核心判断是:自蒸馏不是总能增强推理。它在有外部环境反馈的 agent 任务里像经验压缩,在纯内部数学推理里却可能压掉模型发现自己走偏所需的不确定性外显。

Thesis

关键不是自蒸馏好不好,而是它蒸馏掉了什么

作者 Jeonghye Kim 把 MSRA 实习期间围绕 self-distillation 与 exploration 的四篇工作,压缩成一个更 general 的判断:同一种训练技术,在不同推理反馈结构里可能方向相反。agent 长程任务有环境状态、失败反馈和奖励,自蒸馏能把外部世界经验内化进参数;数学和纯符号推理没有即时环境反馈,模型很大程度上依赖自己说出的“wait / perhaps / hmm”来触发回看、换路和纠错。

一句话判断:如果错误检测来自外部世界,自蒸馏常常是在压缩经验;如果错误检测只能来自模型内部的不确定性外显,自蒸馏可能是在删除推理系统的刹车。

所以,这不是“长 CoT vs 短 CoT”的审美问题,也不是“teacher trace 更干净所以更好”的工程常识问题。真正的问题是:teacher 的轨迹为什么看起来更干净?是因为它吸收了可验证的外部反馈,还是因为它已经知道答案,因此不再需要真实求解者会经历的怀疑和检查?

Problem

为什么同样的 self-distillation 会一边提升、一边退化

自蒸馏通常被理解成让模型从自己或更强版本的输出里学习:保留正确解法、压缩轨迹、减少无效探索。这在很多后训练流程里很自然,因为它看起来同时改善效率、稳定性和样本利用率。帖子挑战的是这个默认假设:如果 teacher 的轨迹缺少不确定性,那么 student 学到的可能不是“更强推理”,而是“更自信地沿着单一路径走下去”。

作者先在 long-horizon agent 场景里看到正向结果:带 memory 的 agent 从失败经验、环境反馈和文本 tip 中获得可迁移信息,再通过 hybrid on-policy / off-policy optimization 把这些信息写进模型参数。这个过程符合直觉,因为 agent 任务的错误检测由环境提供。

但当她把这个思路移到 single-turn math reasoning 时,多个实现和模型上都出现类似现象:早期短暂提升,随后性能下降。这个差异迫使问题从“蒸馏方法怎么调”转成“模型在没有外部反馈时如何知道自己正在错”。

图示对比 world-Bayesian reasoning 与 self-Bayesian reasoning 中自蒸馏的相反作用
原帖配图把两类推理拆开:world-Bayesian reasoning 中,自蒸馏吸收 world knowledge;self-Bayesian reasoning 中,普通自蒸馏可能让学生模仿 teacher 的确定性轨迹,反向蒸馏则尝试强化学生成功偏离 teacher 的探索。
Terms

几个概念先对齐

这些术语很容易被读成新瓶装旧酒,但在这条研究线里它们分别对应不同的训练信号来源和失败模式。

Self-Distillation

这里指模型从自己、强 teacher、带提示 teacher 或更丰富条件下的轨迹中学习。它不只传递答案,也会传递轨迹风格、犹豫程度、检查习惯和探索偏好。

World-Bayesian Reasoning

指推理依赖外部环境交互的任务。环境会告诉模型动作是否有效、状态如何变化、奖励是否出现,因此错误检测信号主要来自世界。

Self-Bayesian Reasoning

指主要依赖模型内部知识和文本轨迹完成的推理,例如数学题。外部 verifier 缺位时,模型只能靠内部不确定性来触发检查和换路。

Epistemic Verbalization

指模型把“不确定、怀疑、可能错了”显式写进 token 轨迹,例如 wait、hmm、perhaps。它不是装饰词,而可能是触发后续控制动作的开关。

RLVR

指 reinforcement learning with verifiable rewards,即用可验证答案或程序性检查给奖励的后训练方式。它比纯偏好奖励更硬,但仍会受到探索质量影响。

Teacher Signal

指 teacher 在每个 token、轨迹或答案上的监督方向。它有时是纠偏信息,有时是保守约束;关键要看 student 偏离 teacher 时是否仍然成功。

Mechanism

错误检测信号决定了蒸馏的方向

外部世界给反馈:蒸馏是经验压缩

在 agent 场景里,模型通过行动看到环境反应。失败、成功、状态变化、reward 和文本 tip 都是外部反馈。自蒸馏把这些经验写进参数,降低未来推理时重新探索的成本。

  • 输入:轨迹、memory、失败经验、环境反馈。
  • 处理:把文本反馈和成功/失败经验转成训练信号。
  • 输出:不依赖 inference-time memory 时也能少走弯路。
  • 主要风险:反馈覆盖不全时,可能把局部环境策略过拟合进模型。

没有外部反馈:蒸馏可能删除纠错触发器

在数学推理里,teacher 如果已经知道答案,它的轨迹自然更确定、更少怀疑。student 模仿这种轨迹后,也会减少不确定性表达,导致走偏时缺少回看和改路机制。

  • 输入:正确答案、提示、teacher 的干净轨迹。
  • 处理:压缩为更短、更确定、更少犹豫的推理风格。
  • 输出:分布内可能更利落,OOD 上更容易 silent divergence。
  • 主要风险:把“答案已知后的 hindsight trace”误当成真实求解策略。
1
模型进入不充分信息状态。

推理轨迹已经偏离正确方向,但最终答案还没暴露错误;这时如果没有外部 verifier,模型不会天然知道自己错了。

2
不确定性外显触发控制动作。

“wait / hmm / perhaps” 的功能不是提供内容,而是让模型重新检查假设、回溯中间结论、尝试另一条路径。

3
普通自蒸馏可能降低这种触发概率。

teacher 因为知道答案而更少表达不确定性,student 学到的就是更少怀疑。推理轨迹变干净,但错误恢复能力变弱。

4
反向利用 teacher signal 可以保留成功探索。

如果 student 偏离 teacher 但仍然答对,这些 token 可能代表有价值的自驱动探索,而不是应被压制的噪声。

最容易误读的点:作者不是说模型应该更啰嗦,也不是说所有 “wait” token 都有价值。她说的是,在没有外部错误检测的任务里,某些不确定性外显承担了控制功能;盲目蒸馏掉它,会伤害鲁棒推理。
Evidence Chain

四篇工作如何组成同一条证据链

原帖列出的四篇工作不是平行罗列,而是从 agent 正例、机制解释、退化诊断到反向训练方案的递进。

[1] Agent 正例

EMPO²

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization 关注 long-horizon LLM agent 的 exploration。它用 memory 与文本反馈帮助 agent 从失败中积累经验,再通过混合 on-policy / off-policy 优化写入参数;论文报告 ScienceWorld 上相对 GRPO 提升 128.6%,WebShop 上提升 11.3%。

[2] 机制解释

Strategic Information Allocation

Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty 把 reasoning 中的信息分成 procedural information 与 epistemic verbalization。后者帮助模型在 silent divergence 前重新分配计算和检查路径。

[3] 退化诊断

Self-Distillation Degradation

Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs? 直接指出,数学推理中的自蒸馏可能压制 epistemic verbalization。teacher 越像“已经知道答案”,student 越可能学到过度自信的短轨迹,OOD 性能最高报告下降 40%。

[4] 反向方案

Rebellious Student / RLRT

Rebellious Student: Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR 不是无条件靠近 teacher,而是在正确 rollout 中强化 student 偏离 teacher 且仍然成功的 token,把它们视为 self-driven reasoning。

工作 任务类型 错误检测信号 对 self-distillation 的含义
EMPO² 长程 agent 任务 环境状态、reward、失败反馈 把外部世界反馈压缩进参数,通常是正向作用
Strategic Information Allocation 内部推理机制分析 不确定性外显触发自我检查 解释 “wait / hmm” 这类 token 为什么可能有功能性
Self-Distillation Degradation 数学推理与 OOD 泛化 被 teacher 的确定性轨迹削弱 普通自蒸馏可能删除纠错触发器
RLRT RLVR reasoning exploration 正确 rollout 中的成功偏离 teacher signal 可以反向使用,以奖励 student 的有效探索
Implications

对后训练的直接启发

先判断任务的 feedback topology

训练策略不应先问“要不要蒸馏”,而应先问“错误检测信号在哪里”。coding 任务有单测时更接近 world-Bayesian,写代码前的设计推理又更接近 self-Bayesian;研究 agent、网页 agent、数学证明也常常是混合结构。后训练应该按阶段处理,而不是给所有轨迹套同一种 teacher imitation。

不要只奖励最终答案,也要保留控制动作

如果训练只看最终 answer correctness,模型可能学会把轨迹变短、变干净、变确定,却没有学会如何在不充分信息下纠错。更合理的对象是 reasoning behavior:什么时候暂停、什么时候验证中间结论、什么时候回溯假设、什么时候换一条路径。

teacher 不是单调正则项

teacher signal 有两种角色:失败轨迹上,它可能是纠偏信息;成功轨迹上,student 偏离 teacher 的 token 可能是有价值的新路径。RLRT 的重要性在于把 teacher-student disagreement 从“错误”重新解释为“需要条件化判断的探索信号”。

工程判断:对有 verifier 的任务,可以更积极地蒸馏环境反馈;对无 verifier 或 weak verifier 的任务,要显式保护不确定性、检查和回溯行为。否则短轨迹提升可能只是把错误发现能力转移到了看不见的风险里。
Limits

边界与风险

world-Bayesian 与 self-Bayesian 不是绝对二分。真实任务通常交替出现外部验证和内部规划:coding agent 会先做无验证的设计,再跑测试获得外部反馈;浏览器 agent 会在局部步骤里看到页面变化,但高层目标是否正确仍可能需要内部判断。因此,这套框架更像诊断工具,而不是任务分类标签。

epistemic verbalization 也不必永远以自然语言 token 存在。未来可以用 value head、process verifier、latent control token、search controller 或工具化检查来承担同样功能。当前论文之所以关注 “wait / hmm / perhaps”,是因为这些 token 在现有 CoT 与 RLVR 训练里可见、可统计、可干预。

最后,鼓励不确定性不等于鼓励冗长。模型输出更多犹豫词不一定更强;真正要保留的是能触发有效验证和路径切换的 calibrated uncertainty。没有后续控制动作的犹豫,只是另一种风格噪声。