rosinality / Proxy Metrics
X Thread Deep Reading

用专家轨迹里的 token 统计,提前预测模型能力

rosinality 转发的这篇论文真正有价值的地方,不是又提出一个新 benchmark,而是把“模型最终能不能答对”拆成专家解题轨迹上成百上千个局部预测事件:候选模型看到专家前缀时,是否把专家下一步 token 放在高位、是否在关键位置不确定、是否只会预测常见 token。

01 · Source Map

这条 X 帖到底指向什么

原帖不是长线程,只有一条主帖;短链之一解析到 arXiv 论文,另一条是配图页。因此解读重点应放在论文方法本身,以及 rosinality 为什么强调 token-level statistics、expert trajectories 和 smooth predictive power。

X 原帖内容

rosinality 的核心评论是:用 expert trajectories 上的 token-level statistics 来衡量模型能力,而且这些统计量带权重聚合后,比传统指标更平滑、预测力更强,可能非常有用。

这里的关键词有三个:token-level statisticsweight on expert trajectoriessmooth predictive power。它们对应论文的核心机制,而不是社交媒体上的泛泛赞美。

论文标题和摘要截图
原帖配图之一:论文首页,标题为 Forecasting Downstream Performance of LLMs With Proxy Metrics。
材料获取方式用于报告中的作用
X 原帖 opencli twitter thread 抓取 JSON,确认只有 1 条主帖和 2 张媒体图 确定 rosinality 的关注点:用专家轨迹上的 token 统计做能力度量
arXiv 论文 解析短链到 arXiv:2605.18607,下载 PDF 并用 pdfinfo 核验 31 页 读取方法、公式、实验设置、结果和限制
GitHub README 读取 McGill-NLP/proxy-metrics README 核对可复现 pipeline:生成 expert trajectories、计算 proxy metrics、拟合 RankSVM 或 sparse proxy
02 · Problem

它要解决的不是“怎么评模型”,而是“怎么提前做研发决策”

模型研发里很多决策必须在目标模型完全训练好之前做:选架构、选预训练数据、选 post-training recipe、是否继续烧算力。但常用信号有明显缺陷。

Cross-entropy loss 太泛

普通预训练 loss 很平滑,适合看训练是否正常,但它衡量的是模型对通用文本分布的平均拟合,不一定反映数学、代码、科学推理这些 downstream 能力。

两个模型 loss 很接近,可能在实际推理任务上差很多。

直接 benchmark 太贵也太稀疏

目标 benchmark 可能需要专家判分、代码执行、长环境交互,成本高;早期 checkpoint 或小 proxy model 还没能力答对,准确率可能长期接近随机水平。

这时 accuracy 不提供稳定排序信号。

下游 scaling law 也不稳

把 downstream accuracy 直接对 compute 或 loss 拟合,在很多任务上外推并不可靠。原因是 accuracy 是阈值化结果,容易突然跳变;loss 又太 task-agnostic。

这篇论文的转向:不要等模型自己生成最终答案,也不要只看通用 loss;拿一条高质量专家解题轨迹,强制候选模型沿着这条轨迹做 next-token prediction,从每个 token 的预测分布里读出“它是否跟得上专家”。
03 · Mechanism

方法一步一步拆开

输入不是模型自由生成的答案,而是 task instance 加专家轨迹。候选模型只做 teacher-forced forward pass:给它专家前缀,看它下一 token 的分布。

论文 Figure 2 方法图
论文 Figure 2:对专家轨迹每个 token,读取候选模型 next-token distribution,计算 core metric 和 weighting scheme,再聚合成 proxy metric。

输入与中间对象

  1. 有一个任务实例 \(x^{(i)}\),例如一道 AIME 数学题或 USACO 编程题。
  2. 有专家轨迹 \(y^{(i)}\),可以是人类解法,也可以是强开源/闭源模型写出的 reasoning trace。
  3. 候选模型 \(M\) 在每个位置 \(t\) 看到 \(x^{(i)}\) 和专家前缀 \(y_{<t}^{(i)}\),输出下一个 token 的分布 \(p_M(\cdot \mid x^{(i)}, y_{<t}^{(i)})\)。

为什么这比最终答题更早有信号

小模型可能无法从头生成完整正确解,但当专家已经给出前文时,它可能能识别下一步应该是某个变量名、公式、关键数字或推理连接词。

这种“跟得上专家轨迹”的能力,比最后是否一次性答对更连续、更密集,也更适合早期 checkpoint 和小 proxy model。

\[ \Phi_j(M; x^{(i)}, y^{(i)}) = \frac{\sum_{t=1}^{T^{(i)}} s_j \cdot m_{j,t}^{(i)} \cdot w_{j,t}^{(i)}}{\sum_{t=1}^{T^{(i)}} w_{j,t}^{(i)}} \]
含义:第 j 个 proxy metric = 每个 token 的核心统计量 m 乘以 token 权重 w,再按权重平均;符号 s 保证“越大越好”。
组成部分具体怎么计算直觉解释
Core metrics cross-entropy、top-k accuracy、entropy、expert token rank、reciprocal rank、margin、wrong-confidence mass 等 问的是:模型是不是把专家 token 放在高位?分布是很确定还是很散?如果错了,是不是错得很自信?
Weighting schemes uniform、probability、expert-disagreement、entropy、inverse entropy、frequency、inverse frequency、Gaussian-NLL kernel 问的是:哪些 token 更值得看?常见标点和功能词通常没区分度,稀有变量名、关键术语、高不确定位置更可能暴露能力差异。
80 个 proxy metrics 10 类 core metrics × 8 类权重 不是押注单一指标,而是形成一个低维指标库,再根据任务/模型群体选择或学习组合。
论文实践细节也重要:他们默认只用 expert trajectory 的最后 1000 个 token,且不滤掉错误轨迹,以模拟现实中的 imperfect expert;多专家时对专家和实例取平均。
04 · Evidence

三组实验分别评的是什么

论文不是只在一个场景上展示相关性,而是把 proxy metrics 放进模型选择、数据选择、训练外推三个研发决策场景里测试。

论文 Figure 1 页面截图
Figure 1 页面:左侧展示跨模型排序的相关性,右侧展示 DataDecide 数据选择的 compute/decision-accuracy Pareto 前沿。
实验评估对象指标主要结果它证明了什么
跨模型家族排序 18 个 reasoning-capable 模型,覆盖 6 个 base families 和 6 种 post-training recipes;任务包括 AIME、HMMT、GPQA、USACO、MMLU-Pro、SuperGPQA Spearman rank correlation \( \rho \):proxy 排名和真实 downstream accuracy 排名是否一致 FineWeb CE loss 平均 \( \rho=0.36 \);univariate proxy \(0.54\);3-sparse proxy \(0.78\);linear/RBF RankSVM \(0.81\) 专家轨迹上的 token 统计,比通用 loss 更能排序异构 reasoning 模型。
预训练数据选择 DataDecide 的 25 个候选 corpus;用 4M 到 90M 小 proxy models 预测 1B target model 的 OLMES 表现排序 Decision accuracy:任意两个 corpus 的优劣顺序是否预测正确 best proxy 在约 \(10^{-5}\) target compute 下达到 0.85 以上 decision accuracy;要用小模型直接 downstream evaluation 达到类似效果,需要约 \(10^4\) 倍更多 compute 即使小模型还答不对题,也能通过“是否跟得上 expert CoT”判断哪个 corpus 更好。
训练中外推 OLMo-3-7B pretraining checkpoints 和 OLMo-3-7B-Think post-training checkpoints NMAE/RMSE:用早期 checkpoint 拟合 proxy 或 loss,再预测后期 downstream accuracy 的误差 proxy-to-accuracy fit 在 18× compute horizon 上平均 RMSE 0.024,约为 CE loss 0.059 和 compute 0.055 的一半 proxy 既有 loss 的平滑性,又因为专家轨迹而带任务条件化,外推漂移更小。
论文 Table 2 页面截图
Table 2 附近页面:跨模型家族排序中,RankSVM proxy 明显强于 FineWeb CE loss 和 rBridge。
论文 Table 3 和 Figure 4 页面截图
Table 3/Figure 4 附近页面:用 proxy 外推 HellaSwag 等 OLMES downstream accuracy,误差显著低于 validation CE loss fit。
为什么 rosinality 说 smooth:最终 accuracy 是离散的,尤其在 hard benchmark 上早期经常全是 0 或接近随机;但每个 expert token 的 rank、top-k 命中、entropy 是连续变化的。训练推进时,这些局部统计可以形成更平滑的曲线。
05 · How To Read It

这套指标到底在测什么,不在测什么

它不是在评“模型自由解题能力”的完整替代品,而是在测一个更细的东西:候选模型在被放到专家解题路径上时,局部预测分布是否像一个懂这类任务的模型。

测得到

局部 reasoning compatibility

如果专家下一步是关键变量、定理名称、代码 token 或数值,强模型应该更容易把它排到 top-k 或给更合理概率。这个信号和“会不会跟着专家走”有关。

部分测到

任务条件化能力

因为统计是在目标任务的 expert trajectories 上算的,所以比 FineWeb loss 更接近任务。但它仍依赖 expert trace 是否代表真实任务能力。

测不到完整

自由生成与探索能力

teacher forcing 条件下“能预测下一 token”,不等于模型自己能从空白状态规划、探索、纠错并完成任务。它更像诊断信号,不是最终验收。

一个容易误解的点:proxy metric 不是“让模型学习专家轨迹”的训练 loss,而是“用专家轨迹读取模型状态”的评估/预测工具。它可以帮助选模型、选数据、判断训练是否值得继续,但不能单独证明模型在真实部署中已经可靠。
06 · Insight

我的判断:它最有价值的是把 eval 变成“可早期读出的能力显微镜”

这篇工作的实用意义不在于某一个具体 proxy metric,比如 inverse-frequency top-1 accuracy,而在于它提供了一个非常可扩展的评估范式。

最终答案是一个低带宽信号;专家轨迹上的 token 分布是一条高带宽诊断曲线。 这解释了为什么它能在小模型、早期 checkpoint、昂贵 benchmark 不可用时提供排序信号。

真正的新意

过去很多 proxy 要么看通用 loss,要么看小模型直接 benchmark accuracy,要么要求访问 teacher/expert 的 logprobs。这里更灵活:只需要专家写出的离散 token,所以人类专家、闭源强模型、领域专家与 AI 协作生成的轨迹都能成为信号源。

这对前沿模型研发很重要:最稀缺的不是“再跑一个完整 benchmark”,而是在昂贵决策前获得足够早、足够细、足够任务相关的反馈。

适合用的场景不该过度外推的场景
比较多个 candidate checkpoint、recipe、数据混合方案,尤其目标 benchmark 昂贵或早期准确率无信号时 把 proxy score 当成最终线上质量、可靠性或安全性的充分证明
有高质量专家轨迹的数学、代码、科学推理、专业任务 专家轨迹质量很差、风格单一,或任务强依赖自由探索和环境互动的 agentic setting
训练中 monitoring:观察某个 downstream 能力相关 proxy 是否沿平滑曲线改善 跨架构、跨规模、跨 MoE 系统直接套用同一个 proxy metric,而不做 held-in calibration
07 · Limits

论文自己的边界也要读清楚

结果很有启发,但还不是“一个 proxy 预测所有能力”的定理。作者在限制部分给了几个关键边界。

没有 universal proxy

不同场景选出的最佳 proxy 不一样。跨模型排序、数据选择、具体 benchmark 外推,各自依赖不同 core metric 和 weighting scheme。

训练外推证据范围窄

training-time forecasting 主要基于 OLMo-3-7B 和 OLMo-3-7B-Think 的公开 checkpoint。是否对更多架构、规模、MoE 成立仍需要实证。

任务覆盖还不完整

跨模型排序是 hard reasoning;数据选择和 downstream extrapolation 用 OLMES 多选任务。论文没有证明 open-ended writing、long-context retrieval、agentic evaluation 都适用。

实践建议:把它当作研发决策中的 ranking/forecasting instrument,而不是最终 evaluation 的替代。最好保留少量 held-in downstream scores 来选择 proxy 或拟合 ranker,再在 held-out 任务上验证泛化。
08 · Reproducibility

本次读取与校验证据

本报告用 OpenCLI 读取 X 原帖,用 arXiv 官方页面/PDF 与 GitHub README 交叉核验。可复现材料保存在 SheSheBot 仓库的 results 目录。

opencli twitter thread "https://x.com/rosinality/status/2056644552375632273" --limit 80 -f json --trace retain-on-failure
curl -Ls -o /dev/null -w '%{url_effective}\n%{http_code}\n' "https://t.co/1o4icqBadt"
curl -L -o results/rosinality-thread-2056644552375632273/2605.18607.pdf "https://arxiv.org/pdf/2605.18607"
pdfinfo results/rosinality-thread-2056644552375632273/2605.18607.pdf
pdftotext -layout results/rosinality-thread-2056644552375632273/2605.18607.pdf results/rosinality-thread-2056644552375632273/2605.18607.txt
本地文件内容
results/rosinality-thread-2056644552375632273/thread-2056644552375632273.jsonX 原帖 JSON
results/rosinality-thread-2056644552375632273/2605.18607.pdfarXiv PDF,31 页,标题和作者已核验
results/rosinality-thread-2056644552375632273/2605.18607.clean.txtPDF 抽取清理文本,用于检索方法和实验
results/rosinality-thread-2056644552375632273/github-proxy-metrics-readme.mdGitHub README,说明 score/proxy/ranker pipeline
/Users/xxx/Downloads/rosinality-proxy-metrics-assets/报告使用的本地图片资源