rosinality：Shannon Scaling Law 与 Token Noise 极限解读

Problem

这篇论文想修正什么 scaling law 直觉

传统 OpenAI / Chinchilla 风格 scaling law 的默认形状是单调的：参数 \(N\) 越大、训练 tokens \(D\) 越多，loss 越低，只是边际收益递减。问题是，真实系统里有几类现象不是单调曲线能解释的。

经典 scaling law 的盲点

单调 power law 很适合拟合“干净 pretraining 轨迹中的前半段”：更多参数、更长训练通常降低 test loss。但它很难解释三类反例：训练太久后退化、低比特量化后大模型/长训练点反而更差、SFT 学习率较大时出现 loss basin。

论文要捕捉的对象

作者把这些反例归为同一件事：有效信号没有继续支撑扩张，而噪声项随参数、token 或扰动快速放大。于是 loss surface 从“向右下持续变好”的开放等高线，变成中间有最优区、边界重新升高的 U 型 basin。

不要误读

论文不是说 Chinchilla 结论完全错了，也不是说继续 pretraining 总会立刻变差。更精确的说法是：Chinchilla 类单调规律是高 SNR、扰动较小、训练区间尚未跨过反转点时的局部近似。

Mechanism

Shannon Scaling Law 的公式机制

作者借用 Shannon-Hartley theorem 的形状，而不是声称 LLM 真的等同于通信信道。核心映射是：模型大小 \(N\) 类比 bandwidth，训练 tokens \(D\) 类比 signal power，噪声由数据噪声、模型交互噪声和不可约噪声组成。

Full Shannon Scaling Law

\[ C_{\mathrm{LLM}} = aN^{\alpha} \log_2 \left( 1 + \frac{bD^{\beta}} {c(DN)^{\gamma} + dD^{\delta} + e} \right) \] \[ L(N, D) = \frac{1}{C_{\mathrm{LLM}}} \]

其中 \(a,b,c,d,e,\alpha,\beta,\gamma,\delta\) 是拟合正参数；\(D^\beta\) 是 token signal，\(D^\delta\) 是 data-induced noise，\((DN)^\gamma\) 是 data-model interaction noise，\(e\) 是不可约 noise floor。

先把容量写成 SNR 函数

Shannon-Hartley 的直觉是：capacity 与 bandwidth 成正相关，并且与 \(\log(1 + S/N)\) 成正相关。论文把 \(S/N\) 改写成 token signal 除以几类训练噪声。

再把 loss 写成容量倒数

\(L=1/C\) 是一个建模选择：capacity 越高，test loss 越低；capacity 接近 0，loss 会很大。这个连接让信号和噪声的变化直接变成 loss landscape 的形状变化。

U 型曲线来自分母增长过快

当 \(D^\beta\) 的增长无法抵消 \(D^\delta\) 或 \((DN)^\gamma\) 的增长时，SNR 开始下降。于是继续增加 token 或模型大小不再提升 capacity，loss 反而上升。

论文前两张图：SFT loss basin 与 Shannon Scaling Law 示意 — 论文第 2 页截图：Figure 1 展示 pretraining 与 downstream SFT loss landscape 的形状差异；Figure 2 展示作者的 Shannon Scaling Law 架构。

Evidence

实验到底评估了什么

论文不是直接训练一个前沿 frontier model，而是在公开 checkpoint 网格上评估 test loss，并对不同扰动下的 loss surface 做拟合和外推。评估对象是 scaling law 的拟合/预测能力，不是模型能力榜单。

设置

模型族：Pythia-dedup 160M、410M、1B、2.8B、6.9B、12B；OLMo2 1B、7B、13B、32B stage-1 checkpoints。
拟合目标：这些 checkpoint 在 Wikitext-2 上的 test loss。
扰动：Gaussian weight noise、GPTQ 4/3/2-bit quantization、GSM8K/SiQA/StarCoder-Python SFT。
比较对象：OpenAI law、Chinchilla law、QiD、Law of Precision、作者扩展的 symmetric/asymmetric laws。

关键结果

Gaussian noise：Pythia 平均 \(R^2=0.9613\pm0.03\)，OLMo2 平均 \(R^2=0.9585\pm0.06\)；10 dB 高噪声下仍能拟合 U 型区域。
SFT：在 GSM8K、SiQA、StarCoder 上平均 \(R^2\) 分别为 0.936、0.916、0.937，单调 law 在高学习率扰动下出现负 \(R^2\)。
量化：GPTQ 2-bit 极端区间中，传统 power law 明显崩塌；Shannon law 在 Pythia 2-bit 仍有 \(R^2=0.9602\)。
联合外推：只用 \(\le 6.9B\) 与 \(\le 180B\) tokens 拟合，预测 12B、180.4B-307B tokens 区间，full law pooled \(R^2=0.847\)。

论文 Figure 4：不同 Gaussian noise 水平下 Pythia loss contours — 论文第 8 页截图：Gaussian noise 从低到高时，loss contour 从近似单调转向有 basin 的非单调形状。这里的“加 token 变差”是在噪声增强、SNR 下降后的 loss surface 上观察到的。

Exponent Reading

rosinality 关注的 \(\delta \gt \beta\)

rosinality 的解读来自论文 Table 9：作者比较了 model size 轴上的 bandwidth exponent \(\alpha\) 与 model noise exponent \(\gamma\)，以及 token 轴上的 signal exponent \(\beta\) 与 data noise exponent \(\delta\)。

轴	有益项	噪声项	论文观察	含义
模型大小 \(N\)	\(N^\alpha\)：更大 bandwidth / representation space	\((DN)^\gamma\)：模型与训练步数耦合的 interaction noise	高 SNR 时 \(\alpha\gt\gamma\)，强扰动时可反转为 \(\gamma\gt\alpha\)	模型变大通常有用，但在强扰动或低 SNR 下，大模型也可能放大噪声。
训练 tokens \(D\)	\(D^\beta\)：从更多 tokens 得到的信息信号	\(D^\delta\)：数据噪声、矛盾、模糊、typo、训练轨迹累积噪声	Table 9 中 \(\delta\) 持续大于 \(\beta\)，包括 pretraining setting	在该拟合模型内，足够大的 \(D\) 会让噪声增长压过信号增长，token 轴存在远端反转可能。

我对这句话的严格版本

“token noise exponent is always larger than signal exponent” 不应翻译成“每多训练一点都会变差”。它的严格含义是：在作者拟合出的幂律结构里，随着 \(D\to\infty\)，\(\frac{D^\beta}{D^\delta}\to0\)；因此如果其他条件不改变，SNR 会在某个足够远的 token budget 后下降，loss 可能出现 U 型反转。

论文第 11 页：外推表格与 exponent comparison table — 论文第 11 页截图：Table 8 给出联合外推结果，Table 9 给出 \(\alpha,\gamma,\beta,\delta\) 的拟合指数。rosinality 的判断主要对应 Table 9 的 token 轴结论。

Interpretation

rosinality 这句话对在哪里，容易误读在哪里

这条 X 的价值在于抓住论文最反常识的极限推论：token 不是纯 signal，token 也携带 noise；当 token noise 的幂指数更高时，训练更久不是无条件安全的。

成立的地方

如果模型继续吃相同分布、相同质量、相同去重程度的数据，并且优化与模型结构没有主动提高信息密度或降低噪声，那么 \(D^\delta\) 超过 \(D^\beta\) 的模型确实预示：继续加 token 的边际收益会先下降，最终可能变成负收益。

需要收紧的地方

“eventually loss would start to increase” 是模型内外推，不是已经在 frontier pretraining 中无条件实证的自然定律。现实训练会改变数据过滤、dedup、curriculum、sampling mixture、optimizer、regularization、模型架构和 checkpoint selection，这些都会改变有效 \(\beta,\delta,\gamma\)。

更准确的工程读法不是“别再加 token”，而是“别把 token count 当成纯净 signal count；继续扩 scale 时，必须同时报告数据质量、噪声来源、扰动强度和 SNR proxy。”

Limits

这篇论文的边界与风险

论文提出了一个很有启发的形状，但它仍是经验 scaling law，不是从 SGD、数据分布和 Transformer 表示动力学严格推导出的物理定律。

1. Shannon 类比可能过强

\(N\) 到 bandwidth、\(D\) 到 signal power 的映射很清楚，但只是建模类比。LLM 训练不是固定编码器/信道/解码器的通信过程，数据分布和模型状态会共同演化。

2. loss target 较窄

实验主要用 Wikitext-2 test loss 拟合扰动后的 checkpoint。它能说明 perplexity/loss surface 形状，但不能直接推出 downstream reasoning、agentic coding、long-context 能力也同样 U 型。

3. 反转点依赖数据工程

\(D^\delta\) 不是天然常数。高质量去重、合成数据校验、curriculum、domain balancing 和更好的目标函数都可能改变噪声增长速度，让反转点后移。

4. 参数量不等于有效 bandwidth

同样参数量的 architecture、MoE routing、attention 机制、tokenizer 和 optimizer 可以给出完全不同的有效容量。用 \(N^\alpha\) 概括 bandwidth 是必要简化。

5. 拟合参数多

full law 有 9 个拟合常数。论文用简化 law 和外推实验回应过拟合风险，但生产决策中仍需要足够的 \(N\times D\) 网格和 held-out validation 才能信任。

6. 过训练不是单一机制

SFT 高学习率、低比特量化、Gaussian weight noise、预训练继续加 token 是不同扰动。统一模型很有用，但不要把所有 loss basin 都解释成同一种数据噪声。

Practical Implications

对训练决策有什么启发

如果接受这篇论文的方向，训练规划应该从“给定 compute 下尽量扩大 N 和 D”升级为“在扩大 N 和 D 的同时测量并压低噪声增长”。

做小规模 \(N \times D\) 网格，而不是单条曲线

论文最有价值的外推来自同时跨模型大小和 token checkpoint 拟合。只看单一模型的 training loss 曲线，很难识别 \((DN)^\gamma\) 这种交互噪声。

把数据质量视为 scaling variable

token count 需要拆成 raw token、dedup token、high-quality token、domain-relevant token。真正应该提升的是有效 signal density，而不是机械提高 \(D\)。

后训练要避免把扰动当成训练收益

SFT/RL 阶段的学习率、数据混合和格式化会改变 loss basin。checkpoint 选择不能只看训练集任务指标，也要看 general loss、OOD eval 和表示稳定性。

量化策略要和训练阶段联合评估

低比特 quantization 不是简单把所有模型向上平移 loss；它可能改变 loss surface 的形状。越大、越长训练的模型在低比特下未必总是越稳。

Insight

这篇材料真正教了什么

这条 X 和这篇论文最重要的地方，是把 scaling 的讨论从“资源越多越好”推进到“资源是否仍在提高有效 SNR”。

我认为这里最有价值的不是 Shannon 这个名字，而是 denominator 里的三个噪声项。它提醒我们：LLM scaling 的关键矛盾正在从稀缺 compute 逐渐转向稀缺高密度信号。早期 scaling 里，新增 token 大多提供新信息；到了更大规模，新增 token 更可能包含重复、矛盾、低质格式、错解、污染 benchmark 的轨迹、不可学习的长尾和优化扰动。

这也解释了为什么近年的训练工程越来越强调数据过滤、合成数据 verifier、curriculum、domain mixture、post-training 数据隔离和 evaluation hygiene。它们不是边缘清洁工作，而是在推迟 \(\delta\gt\beta\) 导致的反转点，或者直接改变有效 \(\delta\)。

所以，rosinality 的评论可以理解为一个很好的“极限提醒”：如果我们只会把 token 当作 signal，那么 scaling law 会过于乐观；如果我们开始把 token 同时看作 signal carrier 和 noise carrier，就会更自然地解释为什么同样的 compute，在不同数据工程和扰动条件下会得到完全不同的 scaling shape。

术语解释与概念边界

Shannon entropy: 衡量信息不确定性的量。用于语言建模时，它帮助理解 token 分布里到底有多少不可压缩噪声。
Scaling law: 描述模型规模、数据量、算力和 loss 之间经验关系的规律；它是预算决策工具，不是物理定律。
Token noise: 训练文本中不可预测或不应学习的随机性，例如标注差异、格式噪声、重复和低质量内容。
不可约误差: 即使模型和数据继续变大也难以消除的误差下限，通常来自任务本身的不确定性或数据噪声。

Source Map

证据边界与资料索引

本次材料链条是：rosinality 对一条引用帖做简短判断；引用帖来自 @gm8xx8，对《LLMs as Noisy Channels》做摘要；真正需要分析的是论文里的 Shannon Scaling Law 公式、实验设置和指数解释。

1. rosinality 原帖

原帖只有一句话：如果 token noise exponent 总是大于 signal exponent，增加训练 tokens 最终会让 loss 开始上升。该帖为单条主帖，没有额外回复。

status/2058824080837456031 1 条主帖

2. gm8xx8 引用帖

引用帖把论文称为 Shannon Scaling Law，强调 LLM 训练可看作 noisy channel：model size 对应 bandwidth，tokens 对应 signal，data/model/perturbation 对应 noise。

status/2058757168862482523 1 张配图

3. arXiv 论文

论文题名为《LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws》，作者 Xu Ouyang 等，arXiv 提交日期为 2026-05-22，注释为 Accepted by ICML 2026，全文共 22 页。

arXiv:2605.23901 Pythia / OLMo2

gm8xx8 对 Shannon Scaling Law 论文的 X 摘要截图 — 上游引用帖的视觉摘要。报告正文不依赖截图 OCR，而是以 X API 文本、arXiv 元数据和 PDF 正文为主。

Shannon Scaling Law：当 token noise 的指数超过 signal 指数

这篇论文想修正什么 scaling law 直觉

经典 scaling law 的盲点

论文要捕捉的对象

Shannon Scaling Law 的公式机制

先把容量写成 SNR 函数

再把 loss 写成容量倒数

U 型曲线来自分母增长过快

实验到底评估了什么

设置

关键结果

rosinality 关注的 \(\delta \gt \beta\)

rosinality 这句话对在哪里，容易误读在哪里

成立的地方

需要收紧的地方

这篇论文的边界与风险

1. Shannon 类比可能过强

2. loss target 较窄

3. 反转点依赖数据工程

4. 参数量不等于有效 bandwidth

5. 拟合参数多

6. 过训练不是单一机制

对训练决策有什么启发

做小规模 \(N \times D\) 网格，而不是单条曲线

把数据质量视为 scaling variable

后训练要避免把扰动当成训练收益

量化策略要和训练阶段联合评估

这篇材料真正教了什么

术语解释与概念边界

证据边界与资料索引

1. rosinality 原帖

2. gm8xx8 引用帖

3. arXiv 论文