Ricardo Notes
X Thread Reading · 2026-05-25

Shannon Scaling Law:当 token noise 的指数超过 signal 指数

rosinality 的一句话抓住了这篇论文最尖锐的推论:如果 \(D^\delta\) 的噪声增长长期快于 \(D^\beta\) 的信号增长,那么“继续加 token 必然降低 loss”的单调信念不再成立;但这不是说今天的大模型一多训练就会坏,而是说 scaling law 需要显式建模 SNR。

Source Map

读了什么,如何核验

本次材料链条是:rosinality 对一条引用帖做简短判断;引用帖来自 @gm8xx8,对《LLMs as Noisy Channels》做摘要;真正需要分析的是论文里的 Shannon Scaling Law 公式、实验设置和指数解释。

1. rosinality 原帖

原帖只有一句话:如果 token noise exponent 总是大于 signal exponent,增加训练 tokens 最终会让 loss 开始上升。OpenCLI 抓取时间为 2026-05-25,线程 API 只返回主帖,没有额外回复。

status/2058824080837456031 1 条主帖

2. gm8xx8 引用帖

引用帖把论文称为 Shannon Scaling Law,强调 LLM 训练可看作 noisy channel:model size 对应 bandwidth,tokens 对应 signal,data/model/perturbation 对应 noise。帖子附图保存为本地证据图。

status/2058757168862482523 1 张配图

3. arXiv 论文

论文题名为《LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws》,作者 Xu Ouyang 等,arXiv 提交日期为 2026-05-22,注释为 Accepted by ICML 2026。本地 PDF 经 `pdfinfo` 核验为 22 页。

arXiv:2605.23901 Pythia / OLMo2
gm8xx8 对 Shannon Scaling Law 论文的 X 摘要截图
上游引用帖的视觉摘要。报告正文不依赖截图 OCR,而是以 X API 文本、arXiv 元数据和 PDF 正文为主。
Problem

这篇论文想修正什么 scaling law 直觉

传统 OpenAI / Chinchilla 风格 scaling law 的默认形状是单调的:参数 \(N\) 越大、训练 tokens \(D\) 越多,loss 越低,只是边际收益递减。问题是,真实系统里有几类现象不是单调曲线能解释的。

经典 scaling law 的盲点

单调 power law 很适合拟合“干净 pretraining 轨迹中的前半段”:更多参数、更长训练通常降低 test loss。但它很难解释三类反例:训练太久后退化、低比特量化后大模型/长训练点反而更差、SFT 学习率较大时出现 loss basin。

论文要捕捉的对象

作者把这些反例归为同一件事:有效信号没有继续支撑扩张,而噪声项随参数、token 或扰动快速放大。于是 loss surface 从“向右下持续变好”的开放等高线,变成中间有最优区、边界重新升高的 U 型 basin。

不要误读

论文不是说 Chinchilla 结论完全错了,也不是说继续 pretraining 总会立刻变差。更精确的说法是:Chinchilla 类单调规律是高 SNR、扰动较小、训练区间尚未跨过反转点时的局部近似。

Mechanism

Shannon Scaling Law 的公式机制

作者借用 Shannon-Hartley theorem 的形状,而不是声称 LLM 真的等同于通信信道。核心映射是:模型大小 \(N\) 类比 bandwidth,训练 tokens \(D\) 类比 signal power,噪声由数据噪声、模型交互噪声和不可约噪声组成。

Full Shannon Scaling Law
\[ C_{\mathrm{LLM}} = aN^{\alpha} \log_2 \left( 1 + \frac{bD^{\beta}} {c(DN)^{\gamma} + dD^{\delta} + e} \right) \] \[ L(N, D) = \frac{1}{C_{\mathrm{LLM}}} \]
其中 \(a,b,c,d,e,\alpha,\beta,\gamma,\delta\) 是拟合正参数;\(D^\beta\) 是 token signal,\(D^\delta\) 是 data-induced noise,\((DN)^\gamma\) 是 data-model interaction noise,\(e\) 是不可约 noise floor。

先把容量写成 SNR 函数

Shannon-Hartley 的直觉是:capacity 与 bandwidth 成正相关,并且与 \(\log(1 + S/N)\) 成正相关。论文把 \(S/N\) 改写成 token signal 除以几类训练噪声。

再把 loss 写成容量倒数

\(L=1/C\) 是一个建模选择:capacity 越高,test loss 越低;capacity 接近 0,loss 会很大。这个连接让信号和噪声的变化直接变成 loss landscape 的形状变化。

U 型曲线来自分母增长过快

当 \(D^\beta\) 的增长无法抵消 \(D^\delta\) 或 \((DN)^\gamma\) 的增长时,SNR 开始下降。于是继续增加 token 或模型大小不再提升 capacity,loss 反而上升。

论文前两张图:SFT loss basin 与 Shannon Scaling Law 示意
论文第 2 页截图:Figure 1 展示 pretraining 与 downstream SFT loss landscape 的形状差异;Figure 2 展示作者的 Shannon Scaling Law 架构。
Evidence

实验到底评估了什么

论文不是直接训练一个前沿 frontier model,而是在公开 checkpoint 网格上评估 test loss,并对不同扰动下的 loss surface 做拟合和外推。评估对象是 scaling law 的拟合/预测能力,不是模型能力榜单。

设置

  • 模型族:Pythia-dedup 160M、410M、1B、2.8B、6.9B、12B;OLMo2 1B、7B、13B、32B stage-1 checkpoints。
  • 拟合目标:这些 checkpoint 在 Wikitext-2 上的 test loss。
  • 扰动:Gaussian weight noise、GPTQ 4/3/2-bit quantization、GSM8K/SiQA/StarCoder-Python SFT。
  • 比较对象:OpenAI law、Chinchilla law、QiD、Law of Precision、作者扩展的 symmetric/asymmetric laws。

关键结果

  • Gaussian noise:Pythia 平均 \(R^2=0.9613\pm0.03\),OLMo2 平均 \(R^2=0.9585\pm0.06\);10 dB 高噪声下仍能拟合 U 型区域。
  • SFT:在 GSM8K、SiQA、StarCoder 上平均 \(R^2\) 分别为 0.936、0.916、0.937,单调 law 在高学习率扰动下出现负 \(R^2\)。
  • 量化:GPTQ 2-bit 极端区间中,传统 power law 明显崩塌;Shannon law 在 Pythia 2-bit 仍有 \(R^2=0.9602\)。
  • 联合外推:只用 \(\le 6.9B\) 与 \(\le 180B\) tokens 拟合,预测 12B、180.4B-307B tokens 区间,full law pooled \(R^2=0.847\)。
论文 Figure 4:不同 Gaussian noise 水平下 Pythia loss contours
论文第 8 页截图:Gaussian noise 从低到高时,loss contour 从近似单调转向有 basin 的非单调形状。这里的“加 token 变差”是在噪声增强、SNR 下降后的 loss surface 上观察到的。
Exponent Reading

rosinality 关注的 \(\delta > \beta\)

rosinality 的解读来自论文 Table 9:作者比较了 model size 轴上的 bandwidth exponent \(\alpha\) 与 model noise exponent \(\gamma\),以及 token 轴上的 signal exponent \(\beta\) 与 data noise exponent \(\delta\)。

有益项 噪声项 论文观察 含义
模型大小 \(N\) \(N^\alpha\):更大 bandwidth / representation space \((DN)^\gamma\):模型与训练步数耦合的 interaction noise 高 SNR 时 \(\alpha>\gamma\),强扰动时可反转为 \(\gamma>\alpha\) 模型变大通常有用,但在强扰动或低 SNR 下,大模型也可能放大噪声。
训练 tokens \(D\) \(D^\beta\):从更多 tokens 得到的信息信号 \(D^\delta\):数据噪声、矛盾、模糊、typo、训练轨迹累积噪声 Table 9 中 \(\delta\) 持续大于 \(\beta\),包括 pretraining setting 在该拟合模型内,足够大的 \(D\) 会让噪声增长压过信号增长,token 轴存在远端反转可能。
我对这句话的严格版本

“token noise exponent is always larger than signal exponent” 不应翻译成“每多训练一点都会变差”。它的严格含义是:在作者拟合出的幂律结构里,随着 \(D\to\infty\),\(\frac{D^\beta}{D^\delta}\to0\);因此如果其他条件不改变,SNR 会在某个足够远的 token budget 后下降,loss 可能出现 U 型反转。

论文第 11 页:外推表格与 exponent comparison table
论文第 11 页截图:Table 8 给出联合外推结果,Table 9 给出 \(\alpha,\gamma,\beta,\delta\) 的拟合指数。rosinality 的判断主要对应 Table 9 的 token 轴结论。
Interpretation

rosinality 这句话对在哪里,容易误读在哪里

这条 X 的价值在于抓住论文最反常识的极限推论:token 不是纯 signal,token 也携带 noise;当 token noise 的幂指数更高时,训练更久不是无条件安全的。

成立的地方

如果模型继续吃相同分布、相同质量、相同去重程度的数据,并且优化与模型结构没有主动提高信息密度或降低噪声,那么 \(D^\delta\) 超过 \(D^\beta\) 的模型确实预示:继续加 token 的边际收益会先下降,最终可能变成负收益。

需要收紧的地方

“eventually loss would start to increase” 是模型内外推,不是已经在 frontier pretraining 中无条件实证的自然定律。现实训练会改变数据过滤、dedup、curriculum、sampling mixture、optimizer、regularization、模型架构和 checkpoint selection,这些都会改变有效 \(\beta,\delta,\gamma\)。

更准确的工程读法不是“别再加 token”,而是“别把 token count 当成纯净 signal count;继续扩 scale 时,必须同时报告数据质量、噪声来源、扰动强度和 SNR proxy。”
Limits

这篇论文的边界与风险

论文提出了一个很有启发的形状,但它仍是经验 scaling law,不是从 SGD、数据分布和 Transformer 表示动力学严格推导出的物理定律。

1. Shannon 类比可能过强

\(N\) 到 bandwidth、\(D\) 到 signal power 的映射很清楚,但只是建模类比。LLM 训练不是固定编码器/信道/解码器的通信过程,数据分布和模型状态会共同演化。

2. loss target 较窄

实验主要用 Wikitext-2 test loss 拟合扰动后的 checkpoint。它能说明 perplexity/loss surface 形状,但不能直接推出 downstream reasoning、agentic coding、long-context 能力也同样 U 型。

3. 反转点依赖数据工程

\(D^\delta\) 不是天然常数。高质量去重、合成数据校验、curriculum、domain balancing 和更好的目标函数都可能改变噪声增长速度,让反转点后移。

4. 参数量不等于有效 bandwidth

同样参数量的 architecture、MoE routing、attention 机制、tokenizer 和 optimizer 可以给出完全不同的有效容量。用 \(N^\alpha\) 概括 bandwidth 是必要简化。

5. 拟合参数多

full law 有 9 个拟合常数。论文用简化 law 和外推实验回应过拟合风险,但生产决策中仍需要足够的 \(N\times D\) 网格和 held-out validation 才能信任。

6. 过训练不是单一机制

SFT 高学习率、低比特量化、Gaussian weight noise、预训练继续加 token 是不同扰动。统一模型很有用,但不要把所有 loss basin 都解释成同一种数据噪声。

Practical Implications

对训练决策有什么启发

如果接受这篇论文的方向,训练规划应该从“给定 compute 下尽量扩大 N 和 D”升级为“在扩大 N 和 D 的同时测量并压低噪声增长”。

做小规模 \(N \times D\) 网格,而不是单条曲线

论文最有价值的外推来自同时跨模型大小和 token checkpoint 拟合。只看单一模型的 training loss 曲线,很难识别 \((DN)^\gamma\) 这种交互噪声。

把数据质量视为 scaling variable

token count 需要拆成 raw token、dedup token、high-quality token、domain-relevant token。真正应该提升的是有效 signal density,而不是机械提高 \(D\)。

后训练要避免把扰动当成训练收益

SFT/RL 阶段的学习率、数据混合和格式化会改变 loss basin。checkpoint 选择不能只看训练集任务指标,也要看 general loss、OOD eval 和表示稳定性。

量化策略要和训练阶段联合评估

低比特 quantization 不是简单把所有模型向上平移 loss;它可能改变 loss surface 的形状。越大、越长训练的模型在低比特下未必总是越稳。

Insight

这篇材料真正教了什么

这条 X 和这篇论文最重要的地方,是把 scaling 的讨论从“资源越多越好”推进到“资源是否仍在提高有效 SNR”。

我认为这里最有价值的不是 Shannon 这个名字,而是 denominator 里的三个噪声项。它提醒我们:LLM scaling 的关键矛盾正在从稀缺 compute 逐渐转向稀缺高密度信号。早期 scaling 里,新增 token 大多提供新信息;到了更大规模,新增 token 更可能包含重复、矛盾、低质格式、错解、污染 benchmark 的轨迹、不可学习的长尾和优化扰动。

这也解释了为什么近年的训练工程越来越强调数据过滤、合成数据 verifier、curriculum、domain mixture、post-training 数据隔离和 evaluation hygiene。它们不是边缘清洁工作,而是在推迟 \(\delta>\beta\) 导致的反转点,或者直接改变有效 \(\delta\)。

所以,rosinality 的评论可以理解为一个很好的“极限提醒”:如果我们只会把 token 当作 signal,那么 scaling law 会过于乐观;如果我们开始把 token 同时看作 signal carrier 和 noise carrier,就会更自然地解释为什么同样的 compute,在不同数据工程和扰动条件下会得到完全不同的 scaling shape。

Reproducibility

本地抓取与核验记录

以下命令已在本地执行,用于获取 X 线程、作者资料、arXiv 元数据、PDF、正文文本和报告图片资源。

opencli twitter thread "https://x.com/rosinality/status/2058824080837456031" --limit 80 -f json --trace retain-on-failure
opencli web read --url "https://x.com/rosinality/status/2058824080837456031" --stdout true --download-images true --wait 5 -f json --trace retain-on-failure
opencli twitter thread "https://x.com/gm8xx8/status/2058757168862482523" --limit 80 -f json --trace retain-on-failure
opencli arxiv paper "2605.23901" -f json --trace retain-on-failure
curl -L "https://arxiv.org/pdf/2605.23901" -o "results/rosinality-x-2058824080837456031/2605.23901.pdf"
pdfinfo "results/rosinality-x-2058824080837456031/2605.23901.pdf"
pdftotext -layout "results/rosinality-x-2058824080837456031/2605.23901.pdf" "results/rosinality-x-2058824080837456031/2605.23901.txt"
pdftoppm -f 2 -l 2 -png -r 160 "results/rosinality-x-2058824080837456031/2605.23901.pdf" "notes/tech-analysis/rosinality-shannon-scaling-law-assets/page"