X / Zhihu Reading Report · 2026-05-20

大模型测试的下半场

这篇文章的核心不是说传统评测已经没用,而是说:当 Agent 成为 Model + Harness 的生产系统后,前沿模型评测的主战场必须从“模型脑内会不会”迁移到“模型知不知道该如何解决”。

1. 我读了什么,如何核验

这条 X 帖不是完整论文式 thread,而是一条英文导读。它最关键的信息藏在短链里:短链解析到知乎文章《大模型测试的下半场》。因此解读重点应该放在“X 摘要 + 知乎原文 + Claw-Eval 指标背景”的三角关系上。

X 原帖

ZhihuFrontier/status/2056408194801635391

OpenCLI 抓到 1 条 root tweet,包含四张图卡和短链。原帖定位为 Part 1,Part 2 尚未包含在该状态中。

知乎原文

大模型测试的下半场

直接 HTTP 返回 403,但 OpenCLI browser-backed read 成功抽取正文。本文的主要论证来自这里。

外部核验

Claw-Eval 页面确认指标包括 Pass^3Pass@3、Completion、Robustness、Safety、Avg Score。

Pass@k / Pass^k 解释参考 Phil SchmidHippocampus's Garden

X thread media card 1
X 图卡 1:文章的评测范式迁移背景。
X thread media card 2
X 图卡 2:传统 benchmark 天花板。
X thread media card 3
X 图卡 3:Delegation Intelligence。
X thread media card 4
X 图卡 4:知识获取与工具委派示例。
可靠性边界:Claw-Eval leaderboard 是动态页面,本报告只使用 2026-05-20 抽取到的指标结构作为上下文,不把其中模型名和分数当成长期固定事实。ProgramBench 在快速检索中没有得到干净权威来源,因此本文仅按原文举例处理,不展开额外 claim。

2. 作者到底想解决什么问题

作者的问题意识可以概括为一句话:我们正在用单轮问答时代的尺子,衡量一个由模型、工具、环境、执行器和验证器共同组成的新系统。

传统 LLM eval 的隐含对象通常是“裸模型”:给一个 prompt,看它能否在内部知识和内部推理里生成答案。但 Agent 系统的对象变了:它不是只有模型权重,还有 system prompt、检索工具、代码执行器、浏览器、文件系统、shell、外部 API、测试环境、trajectory 记录和验证器。这就是原文说的 Agent = Model + Harness

一旦对象变了,评测目标也会变。过去问“模型知道不知道 X 公司营收”,现在更应该问“模型能否意识到这是时效性问题,应该联网查,并且交叉验证来源”。过去问“模型能不能心算复杂概率”,现在更应该问“模型能否判断这个问题更适合写程序模拟或符号求解”。

好的 eval 是能力地图

它不只是输出排行榜,而是告诉我们模型在哪类环境、哪类路径、哪类工具选择上稳定,在哪些地方会失败。

好的 eval 推进方法论

step-level scoring、trajectory analysis、LLM-as-a-judge、机器可验证状态等,都是比单点分数更长期的工程进展。

好的 eval 打开想象力

OSWorld 和 SWE-Bench 的价值不只是难题,而是告诉社区“模型可以被放进真实操作环境和代码仓库里做事”。

我的理解:这篇文章真正强调的是“评测的对象迁移”。当对象从裸模型变成 Agent 系统时,继续只测静态知识、纯脑内推理和最终答案,就会漏掉生产系统里最关键的决策质量。

3. 为什么传统 benchmark 在前沿 Agent 场景里开始失真

作者没有简单否定传统 benchmark,而是在限定边界:当基础能力还没补齐时,传统 eval 仍然很重要;但对前沿模型和 Agent 系统来说,部分传统任务的边际价值下降了。

传统评测类型 原本测什么 Agent 时代的失真点 更应该测什么
知识 QA 模型参数中是否存有事实知识。 web search 成为默认能力后,死记硬背静态知识的意义下降,尤其是时效信息。 是否知道该查、查哪里、如何交叉验证、如何标注时间与来源。
长链推理题 模型能否在自然语言链条中完成多步推导。 概率、组合、状态模拟等问题常常用代码更稳定;高分可能来自工具路径,而非脑内推理。 是否能选择直接推理、代码执行、检索、符号工具或验证流程。
函数级 coding 补全函数、修局部 bug。 真实 coding agent 要读仓库、改多文件、跑测试、理解历史和依赖。 repo-level 修改、环境构建、测试反馈、跨文件一致性和长期任务恢复。
关键边界:“传统 benchmark 失去意义”不是绝对命题。对小模型、垂直领域、基础能力查漏补缺,传统评测仍是低成本诊断工具。作者真正反对的是:对前沿 Agent 继续把大量资源押在静态知识和纯脑内题上,却忽略工具委派、路径稳定性和安全。

4. Delegation Intelligence:不是“会用工具”,而是“知道该怎么解决”

Delegation Intelligence 可以翻译为“委派智能”。它不是鼓励模型盲目多调用工具,也不是把所有能力外包给工具,而是评估模型是否能把任务拆给合适的外部机制,并回收、验证、整合结果。

一个强工程师不会心算 2^37 * 1.0732,会用计算器;不会凭记忆回答 2026 年财报,会查公告;不会读到一半就相信个人博客,会看研究设计、样本和日期。作者说的智能,更多是这种路径选择能力

维度 具体在测什么 好表现 坏表现
Tool-use judgment 什么时候调工具、调哪个工具、参数怎么设、是否需要工具。 时效问题联网;数值问题用代码;文件任务用 shell 和测试。 需要当前信息却凭训练记忆答;能直接回答却乱搜;工具参数乱猜。
Information synthesis & verification 多源信息是否加权,而不是平均。 优先采信官方公告、论文、RCT、代码和可复现实验;标注旧来源和弱来源。 把 Nature RCT、个人博客和过时综述等权平均。
Path selection 在直接推理、代码、检索、阅读、验证、人审之间选路。 能先判断任务形状,再选择低风险、可验证、成本合适的路径。 一条路走到黑;不知道何时停止;没有验证步骤。

这比“工具调用成功率”更严格。一个模型可以会调用浏览器,但如果它不知道什么时候应该联网,或者不知道搜索结果要按可靠性加权,它仍然缺乏委派智能。

5. Pass@k、Pass-all-k / Pass^k 和 Stability Gap

原文最有操作价值的一点,是把 Agent 可靠性从“偶尔成功”推进到“连续稳定成功”。这就是 Pass@k 与 Pass-all-k / Pass^k 的区别。

Pass@k:至少一次成功

如果一个任务运行多次,只要 k 次里有一次成功,就算覆盖到了成功路径。它适合“可以筛选答案”的场景,比如代码生成里有单元测试,生成多个候选后挑一个通过的。

\[ \mathrm{Pass@}k = 1 - \frac{\binom{n-c}{k}}{\binom{n}{k}} \]
Pass^k / Pass-all-k:每次都成功

它关心连续 k 次独立运行是否都成功。对真实 Agent 产品更苛刻,因为用户通常不能接受“多试几次总有一次对”。

\[ \mathrm{Pass}^{k} \approx \left(\frac{c}{n}\right)^k \]

举一个直观例子:某客服 Agent 单次成功率 70%。如果给 3 次机会,Pass@3 可能看起来接近 97%,因为至少有一次成功很容易;但连续 3 次都成功的 Pass^3 只有 34.3%。这正是生产可靠性和 benchmark 乐观分数之间的落差。

\[ \mathrm{Stability\ Gap} = \mathrm{Pass@}k - \mathrm{Pass\text{-}all\text{-}}k \]

这个 gap 的解释非常直接:gap 大,说明模型有时能做对,但路径不稳定,可能靠随机采样或偶然工具路径;gap 小,说明它的决策路径比较稳定。对 Agent 来说,稳定性本身就是能力,因为真实用户购买的是连续服务质量,而不是排行榜上“至少一次成功”的希望。

指标 insight:Pass@k 更像“探索覆盖率”,Pass^k 更像“生产可靠性”。前者鼓励多试,后者惩罚波动。Agent eval 同时报告二者,比只报告平均成功率更能暴露模型是否真的知道该怎么做。

6. Claw-Eval 实践:结果 + 路径 + 成本 + 安全

原文用 Claw-Eval 作为实践例子。外部核验显示,Claw-Eval 官方页公开展示 Pass^3Pass@3、Completion、Robustness、Safety、Avg Score,并给出 Pass^3 与 Token Efficiency 的散点视图。这和文章主张一致:Agent 评测不能只看最终完成,还要看稳定性、鲁棒性、安全和成本。

评测层 文章中的主张 为什么重要
结果正确性 优先使用可验证任务:单元测试、数值答案、文件 diff、API 状态。 减少 LLM judge 和人工主观性,让结果可复现。
路径合理性 记录工具调用 trajectory,并承认一题多解。 同样正确的答案,可能来自更安全、更低成本或更鲁棒的路径。
Token Efficiency 做对还不够,要看消耗了多少 token、工具调用和轨迹长度。 生产系统中成本和延迟是能力的一部分;50k token 做对和 5k token 做对不应等价。
Model Instinct 有些模型无需完整读完材料就能指出关键段落;有些必须全量搜索后才收敛。 这可能解释为什么两个 accuracy 相同的模型,在真实工作流中的效率和可用性差很多。
Safety Agent 会操作文件、网络和外部系统,因此安全应是一票否决维度。 能完成任务但会删错文件、泄露信息或调用禁用工具的 Agent,不能算强。

这里最值得注意的是“路径合理性”。如果评测强行规定一条黄金路径,就会把真正的智能压扁成流程复刻;但如果完全不看路径,只看最终答案,又无法区分模型是否靠偶然、过度搜索、错误工具、泄漏答案或高成本暴力试出来。好的 Agent eval 必须在这两端之间找到平衡:允许多路径,但要求路径可审计。

7. “模型直觉”为什么很重要,也为什么很难测

文章里最有前瞻性的概念是 Model Instinct。作者观察到,不同模型在 trajectory 里的“第一判断”差异很大:有的模型看论文目录就知道 method section 关键段落在哪,有的模型看代码目录就能猜到核心文件,有的模型在信息不足时的初始判断已经接近最终答案。

这不是普通 accuracy。两个模型最终都做对,一个可能是读遍所有来源才做对,另一个可能是一开始就走对路径。Token efficiency 可以部分反映这种差异,但不够精确,因为低 token 可能来自粗糙跳步,高 token 也可能来自必要验证。

可能的测量方式
  • 记录第一轮计划是否命中最终有效路径。
  • 统计无效工具调用比例。
  • 比较早停版本与完整运行版本的答案质量差距。
  • 看模型是否能在证据不足时表达正确不确定性,而不是过早自信。
主要风险
  • “直觉”可能是训练集泄漏或 benchmark 熟悉度。
  • 工具和检索索引质量会干扰模型自身判断。
  • 过度奖励快速路径可能惩罚必要的安全验证。
  • 不同 harness 的 prompt 和工具描述会显著改变第一判断。

我的判断是:Model Instinct 值得测,但不应该被神秘化。它可以被拆成可操作变量:第一计划命中率、无效探索成本、早期证据定位能力、错误自信率、路径修正速度。真正有用的不是给“直觉”起一个漂亮名字,而是把它还原成 trajectory 里的可统计行为。

8. 这篇文章的局限与容易误读的地方

误读 1:传统能力不重要了

不对。作者明确保留边界:小模型、垂直模型、基础能力查漏补缺仍需要传统 eval。问题只是前沿 Agent 的主战场不应停留在旧题型。

误读 2:工具越多越强

也不对。Delegation Intelligence 不是工具数量,而是选择策略。乱搜、乱跑代码、乱调 API 只会提高成本和风险。

误读 3:Pass^k 越高就一切解决

Pass^k 衡量连续成功,但仍需要看任务分布、环境稳定性、安全 veto 和成本。单一指标不能代表完整能力。

误读 4:模型能力可以和 harness 完全分开

文章反而提醒我们,harness mismatch 会严重影响横向比较。同一个模型换工具集、prompt 或执行环境后,表现可能大幅变化。

还有一个更深的限制:Agent eval 的复现性很难。web search 结果会漂移,模型 endpoint 会限流,browser 自动化会卡住,容器资源会变化。此时评测样本不是“题目 + 答案”,而是“题目 + 环境快照 + harness + 工具状态 + trajectory + 最终状态”。缺任何一项,分数都可能难解释。

9. 我的核心 insight

这篇文章真正有价值的地方,是把“智能”从静态能力重新定义为动态资源调度:知道什么时候依赖参数,什么时候依赖工具,什么时候依赖证据,什么时候依赖验证。

在单轮问答时代,我们习惯把模型看成一个“答案生成器”。因此 eval 的自然形态是:题目、标准答案、正确率。Agent 时代更像把模型放进一个工作系统里,模型要决定:要不要查?查什么?信谁?要不要写代码?代码结果怎么验证?工具失败怎么办?成本是否过高?是否触碰安全边界?

所以,评测也要从“答案评测”升级到“决策过程评测”。这不意味着最终答案不重要,而是最终答案必须和路径、稳定性、成本、安全一起看。否则我们会奖励两类错误能力:一类是偶然成功,一类是高成本暴力成功。

如果要把这篇文章变成实际评测设计,我会落到五个字段:final correctnesspath auditabilityrepeated reliabilitycost efficiencysafety veto。这五个字段加起来,才更接近 Agent 在生产里真正要交付的能力。

10. 本次可复现命令

opencli list -f yaml | rg -i "twitter|x.com"
opencli twitter --help
opencli twitter thread --help
opencli web read --help
opencli twitter thread "https://x.com/ZhihuFrontier/status/2056408194801635391" --limit 80 -f json --trace retain-on-failure
curl -Ls -o /dev/null -w '%{url_effective}\n%{http_code}\n' "https://t.co/q9722vRvuG"
opencli web read --url "https://zhuanlan.zhihu.com/p/2039705880090911522" --stdout true --download-images false --wait 5 -f json --trace retain-on-failure

本地材料见 results/zhihu-frontier-x-2056408194801635391/;最终报告和图像资源位于 Downloads。