Tilde Research · X thread · 2026-04-28

Nitrobrew：不是新 loss，是让 full-logit distillation 真正跑得动的系统技巧

这份页面解读 Tilde Research 关于 Nitrobrew 的推文线程、官方长文、开源实现和 VeRL PR。重点是：它到底解决什么瓶颈，为什么 hidden state 可以替代 logits，chunked online KL 怎么省显存，以及哪些结论可以相信、哪些还只是合理推断。

Executive summary

一句话结论

Nitrobrew 的核心价值不是提出一个新的蒸馏目标，而是把 full-vocabulary logit distillation 的通信和显存瓶颈重新参数化：老师不再传完整 logits，而是传最后 hidden state；loss 端用老师 unembedding 重建 logits，并按 vocabulary 分块流式计算 KL。

60x官方长文给出的 hidden-state 通信量下降上限，取决于 vocabulary size 与 d_model 的比例。

37x官方 TL;DR 中 online divergence 避免完整 logits 物化后的峰值内存下降量级。

1.5-3xNemo-RL 与 VeRL 的 on-policy distillation 端到端吞吐提升范围；3x 是代表性 headline。

Thread anatomy

推文线程在讲什么

线程共 8 段。它的叙事结构很清楚：先说 OPD 已经成为 post-training stack 的关键组件；再指出现有开源实现慢，常靠 top-k logits 截断省通信；然后提出 Nitrobrew 的两个步骤：传 hidden states、用 chunked online KL 算 divergence；最后给框架结果、开源仓库、VeRL PR 和官方长文。

段落	原推文主张	技术含义
1/8	Nitrobrew 让 logit distillation loss 计算快 100x、内存省 50%、OPD 快 3x。	这是 headline，具体成立条件要看 sequence length、vocab size、teacher/student 分布式拓扑。
2/8	OPD 有前景，但现有实现慢；top-k truncation 会导致 pathological bias。	问题不是 KL 本身，而是完整 logits 的通信、显存和框架集成成本。
3/8	unembedding matrix low-rank；Nitrobrew 发送 hidden states 作为 logits 的无损压缩。	logits 是 `W_U h`，当 `d_model << V` 时，传 `h` 比传 `z` 小很多。
4/8	只传 residual stream 最后 hidden state，按需重算 logits；chunked online KL 让它 memory-efficient。	通信省在 `V -> d_model`，显存省在不物化 `[B,T,V]`。
5/8	在 Nemo-RL 和 VeRL 的 Qwen OPD 上实现约 3x throughput。	这是系统吞吐评估，不是单独证明模型质量全面超过 top-k。
6/8	探索 spectral compression。	进一步把 hidden state 从 `d_model` 压到更低 rank，但这一步不再严格 lossless。
7/8	开源代码，提交 VeRL PR；DeepSeek-V4 独立发现类似核心 idea。	强调独立实现与开源框架集成，而不是声称唯一原创。
8/8	给出完整博客和招聘链接。	长文包含算法、成本分解、profiling、training setup 和附录。

Problem framing

真正的问题：不是蒸馏不懂，而是 full logits 太贵

知识蒸馏里，老师模型不仅给学生一个正确 token，还给学生整个 vocabulary 上的概率分布。这个分布比 hard label 更丰富，因为它包含老师的不确定性、校准和对候选 token 的相对偏好。logit distillation 通常让学生分布接近老师分布，常用 KL divergence。

问题是 vocabulary 太大。若 batch 为 `B`、序列长度为 `T`、词表大小为 `V`，完整 logits tensor 是 `[B,T,V]`。当 `V` 是 152k，`T` 是 8192 时，即使只算一次 loss，也会有巨大通信量和显存压力。

OPD 为什么更痛

On-policy distillation 的训练数据来自当前学生模型自己的 rollout。每一步大致是：学生生成回答，老师在这条学生轨迹上打分，学生用老师分布更新。因为 rollout 会随学生参数变化，老师打分不能完全离线预计算。

Prompt从 prompt 数据集采样问题。

Student rollout学生按当前策略生成回答 token。

Teacher scoring老师对同一条学生生成轨迹输出分布。

KL loss比较老师和学生在每个位置的 softmax 分布。

Update学生沿 KL 梯度更新，下一轮 rollout 改变。

如果老师和学生在不同 GPU 或不同节点上，老师的完整 logits 必须传到 loss 所在设备。这里的瓶颈不是公式复杂，而是每个 token 传 `V` 个数这件事太笨重。

Mechanism

Nitrobrew 的两个动作

Nitrobrew 把“传完整 logits、存完整 logits、再算 KL”拆成两个更便宜的动作：传 hidden state；在本地按块重建 logits 并流式累加 KL。

logits z = W_U h
hidden state h 是 logits 的紧凑生成参数

动作一：传 h，不传 z 老师最后 hidden state `h_T` 的维度是 `d_model`；完整 logits `z_T` 的维度是 `V`。通常 `d_model << V`，所以传 `h_T` 可以显著少传数据。只要 loss 端有老师 unembedding `W_U^T`，就能重建 `z_T = W_U^T h_T`。

动作二：chunked online KL 不把 `[B,T,V]` logits 建出来，而是在 vocabulary 维度按块计算学生和老师 logits，用 online log-sum-exp 累加 partition function 和期望项。每块用完即丢。

for each vocab block v0:v1:
    z_student = h_student @ W_student[v0:v1].T
    z_teacher = h_teacher @ W_teacher[v0:v1].T
    update online softmax / log-sum-exp accumulators
    update KL numerator terms
discard this block and continue

这就是为什么它可以同时解决通信和显存：通信从 `V` 维 logits 变成 `d_model` 维 hidden state；显存从完整 `[B,T,V]` 变成 `[B,T,chunk_V]` 的临时工作集。

Why not top-k

top-k 省钱，但改了问题本身

top-k truncation 的诱惑很强：完整词表 152k，只传 top-128 或 top-512，通信量会大幅下降。但它是 lossy approximation，而且偏差不是随机噪声那么简单。

不连续截断

第 k 名和第 k+1 名 token 的概率可能几乎一样，但 top-k 会完整保留一个、彻底丢弃另一个。很小的 logit 扰动就会让某个 token 从“没有任何训练信号”跳到“有训练信号”。

丢掉长尾校准

老师分布尾部包含“哪些 token 不该选”“老师有多不确定”“候选答案的相对排序”等信息。top-k 只让学生看老师最自信的一小段，容易把蒸馏变成更硬的局部模仿。

所以 Nitrobrew 的立场是：如果能以可接受系统成本计算 full-vocabulary KL，就不应该默认接受 top-k 的分布偏差。它不是说 top-k 永远不能用，而是说 top-k 以前常常是被系统成本逼出来的选择。

Evidence

官方评估到底评了什么

这里要把“系统效率评估”和“模型质量评估”分开看。Nitrobrew 的强证据主要在系统效率：loss computation、峰值内存、通信量、end-to-end step throughput。模型质量部分更谨慎：官方说在小规模 MATH OPD 上与 top-k baseline competitive，但 full-vocabulary 的长期收益更可能在更大规模上体现。

评估维度	设置/指标	结论含义	边界
通信成本	每个 token 传输 floats 数：naive 是 `V`，Nitrobrew 是 `d_model`，SVD-Nitrobrew 是 rank `k`。	当 vocabulary 远大于 hidden dimension，通信量大幅降低。	跨节点训练收益最大；同节点 NVLink 场景可能没有这么痛。
显存	naive KL 需要 materialize teacher/student logits；Nitrobrew 只保留 vocab block 的 working set。	把峰值工作集从 `O(BTV)` 降到 `O(BT·chunk_V)`。	仍要有 unembedding、hidden states、模型权重和训练 activations 的其他成本。
吞吐	Nemo-RL、VeRL 中 Qwen student/teacher pairs；长上下文 OPD step time。	官方报告 1.5-3x 常见端到端提升，部分配置更高。	取决于模型大小、序列长度、框架 overhead 和硬件拓扑。
训练质量	Qwen3-1.7B/8B，MATH 约 7,500 problems，2 epochs，MATH-lighteval。	Nitrobrew 与 top-k baselines 在小规模上 competitive。	还不能直接推出 full-logit 在所有任务上显著优于 top-k。

Implementation reality

工程落地：简单 idea，不等于简单集成

开源仓库本身是一个 barebones implementation，核心函数是 `forward_kl` 和 `reverse_kl`。README 展示的输入包括学生 hidden states、老师 hidden states、学生 unembedding、老师 unembedding 和 temperature。梯度只流向学生 hidden state 和学生 unembedding，老师参数固定。

仓库实现

实现用 `torch.compile` 包装 chunked forward/backward。forward KL 的梯度形式是 `p - q`，reverse KL 的梯度是 `p * (log p - log q - KL)`。这些都按 vocabulary block 重算，而不是保存完整 logits。

VeRL PR

PR #6194 把 Nitrobrew 接入 VeRL 的 distillation trainer：新增 nitrobrew loss mode、teacher hidden states branch、teacher unembed 注册、FSDP/Megatron variant、Ray teacher worker 和测试。

from nitrobrew import forward_kl, reverse_kl

loss = forward_kl(
    xs,  # student hidden states [B, T, D_s]
    xt,  # teacher hidden states [B, T, D_t]
    ws,  # student unembedding [V, D_s]
    wt,  # teacher unembedding [V, D_t]
    temperature=1.0,
    reduction="mean",
    chunk_V=2048,
)

因此，Nitrobrew 不是只改一个 loss 函数就结束。真正难点在训练框架：老师如何返回 hidden states、学生侧如何拿到老师 unembedding、tensor parallel 或 FSDP 下 unembedding 如何切分、Ray actor/vLLM 如何传输 `[S,d_comp]` hidden states、测试如何覆盖 CPU/GPU 与异步 teacher worker。

My insight

我的判断：这是 post-training 基础设施层的关键小刀

A-systems insight

我认为 Nitrobrew 最有价值的地方，是把一个“大家理论上想用 full distribution，但工程上被迫 top-k”的局面改写了。它没有试图发明更复杂的蒸馏目标，而是指出：logits 本来就是 hidden state 乘 unembedding 得来的，为什么要跨设备传 logits 本身？

这种 insight 典型地属于 ML systems：数学关系很朴素，但只有放进分布式 OPD 的通信路径里，才会变成数量级收益。它不是模型能力 breakthrough，却可能改变 post-training pipeline 的默认 baseline。

我会怎么使用这个结论

如果团队正在做 reasoning model post-training，且老师比学生大、rollout 长、vocab 大、跨节点通信明显，那么 Nitrobrew 值得优先集成或至少复现 benchmark。它最可能带来的是成本曲线变化：以前 full-logit KL 太贵，只能 top-k；现在 full-logit KL 可能成为默认可跑选项。

我不会怎么过度解读

我不会把它解读成“full-logit distillation 已经证明全面优于 top-k”。官方训练质量证据还相对有限，小规模 MATH 上更多是 competitive。真正的质量收益，尤其是校准、长尾、不确定性学习，仍需要更大规模、更长训练和更丰富任务来验证。

最值得继续追的问题

第一，full-vocabulary KL 对 reasoning 能力、拒答校准、长尾 token 行为到底有多大增益？第二，SVD/autoencoder 类 hidden-state compression 是否能在接近 lossless 的情况下进一步逼近 top-k 的通信成本？第三，不同 KL 方向在 OPD 中的稳定性和 hyperparameter 是否需要重新调？官方也提醒 full KL 和 top-k KL 是 qualitatively different loss functions，不能直接复用同一套超参。

Sources

来源与覆盖边界

这份页面基于推文线程、官方长文、开源 README、核心实现文件和 VeRL PR。它不是独立复现实验报告；所有性能数字来自 Tilde 官方材料和 PR 描述，未在本机重新跑 GPU benchmark。

X thread https://x.com/tilderesearch/status/2049218141730005127

Official blog https://blog.tilderesearch.com/blog/nitrobrew

GitHub repo https://github.com/tilde-research/nitrobrew-release

VeRL PR https://github.com/verl-project/verl/pull/6194