Paper Note · Agentic RL · 2026-06-08

RAGEN-2:Entropy 没塌,不代表 Agent 还在看输入

RAGEN-2 最有价值的地方,不是又给 Agent RL 加了一个过滤 trick,而是把“推理是否健康”的诊断对象从 token 随机性改成了输入依赖性:一个模型可以保持很高的 token-level entropy,却对不同任务说同一套模板。论文把这种静默失败定义为 template collapse,用 mutual information proxy 诊断它,并用 reward variance 解释为什么低 SNR 更新会把多轮 agent 推向输入无关的流畅废话。

Template Collapse Mutual Information Reward Variance SNR-Aware Filtering Agentic RL

核心判断:这篇论文改写的是“训练健康度”的问题定义

这篇论文真正反直觉的结论是:高 entropy 并不等于高 reasoning diversity。更准确地说,高 entropy 只说明同一个输入下模型还能产生多种 token 变化;它不说明模型面对不同输入时会改变推理策略。一个 agent 可以在每个任务里都写出“Let’s analyze carefully / identify key facts / choose the best action”这类表面不同的长推理,但这些推理不再携带当前状态、当前网页、当前数学条件或当前代码错误的信息。

RAGEN-2 将这种失败命名为 template collapse:reasoning trace 看起来流畅、格式正确、甚至 token-level entropy 还很高,但它不再是输入条件化的推理,而是跨输入复用的模板。对多轮 agent 来说,这比普通低熵塌缩更危险,因为它会被 reward、format validity、response length、甚至 entropy 共同掩盖。

一句话记忆:不要只问模型“输出有没有变化”,要问“这些变化是否由输入驱动”。RAGEN-2 的 MI proxy 本质上是在问:给定一段推理,我们能不能猜出它来自哪个 prompt?如果猜不出来,说明推理已经不太看输入。

问题背景:为什么 Agent RL 会被模板推理骗过

在 RLHF、RLVR 和 agentic RL 中,训练监控通常盯着几类指标:reward 是否上涨、KL 是否过大、entropy 是否塌缩、输出格式是否有效、平均长度是否异常。这个监控体系隐含了一个假设:如果输出仍然多样、仍然合法、reward 没有立刻掉,那么 reasoning 过程大概率还健康。RAGEN-2 说这个假设不成立。

多轮 agent 的 reward 经常稀疏、延迟、含噪,而且大多只评价最终 action 或最终答案。模型写出的中间 reasoning 很少被直接监督。于是出现一种优化捷径:模型不一定要让 reasoning 真正解释状态,只要保留一套通用的“思考样式”,再通过 action 或答案偶尔拿到 reward,就能继续被训练强化。

传统 entropy 看什么

它主要看给定同一输入时 token 分布是否尖锐,回答的是“模型还有没有随机性 / 多样措辞”。

Agent 真正需要什么

它需要 reasoning 随环境状态、工具返回、页面内容、错误日志和任务目标变化,回答的是“模型有没有根据输入更新策略”。

template collapse 的盲点

模板可以包含很多 token 随机性,因此 entropy 看起来没塌;但跨任务看,推理骨架几乎一样。

这也是为什么这篇论文对 coding agent、web agent、tool-use agent 特别重要:越是长程闭环任务,越容易出现“看似一直在思考,实际只是不断重申流程”的失败。人类读日志时会被自然语言流畅度欺骗,训练仪表盘也会被局部 entropy 欺骗。

机制拆解:从 entropy 到 mutual information

论文的诊断框架把 reasoning quality 拆成两个正交维度:同一输入下是否多样,以及不同输入之间是否可区分。前者是 entropy 关心的,后者才是 template collapse 破坏的。

1. 基本对象:输入是完整上下文,输出是 reasoning trace

论文研究的是 closed-loop multi-turn agent RL。每一轮 agent 看到上下文,生成 reasoning tokens 和 action tokens,再从环境得到 reward。这里的输入 \(X\) 不是单句 prompt,而是当前 turn 之前模型可见的完整 context:system prompt、历史 observations、历史 actions、历史 reasoning,以及当前环境状态。\(Z\) 是这一轮生成的 reasoning token sequence,通常不包括 action token 和边界标记。

核心分解

论文用信息论恒等式把 reasoning diversity 拆开:

\[H(Z) = I(X; Z) + H(Z|X)\]

其中 \(H(Z|X)\) 是 within-input diversity,表示同一个输入下 reasoning 有多分散;\(I(X;Z)\) 是 input dependence,表示 reasoning 里包含多少关于输入的信息。

2. 四种推理状态:template collapse 为什么最隐蔽

状态 \(H(Z|X)\) \(I(X;Z)\) 直观解释 训练风险
Diverse Reasoning 同一问题有多种合理路径,不同问题有明显不同推理。 理想状态,但要防止过度随机。
Template Collapse 输出表面多样,但跨输入共享同一套模板。 最容易骗过 entropy 和 format 检查。
Compressed Reasoning 推理简洁确定,但仍然依赖输入。 不一定坏;可能是模型学会了更短路径。
Low-Entropy Collapse 输出既单一,又不看输入。 传统 entropy 也能较容易发现。

这个表的关键是:低 entropy 不是唯一塌缩,高 entropy 也不是安全信号。如果训练只盯 \(H(Z|X)\),就会把 template collapse 误判为“推理仍然有多样性”。

3. MI proxy:用 in-batch cross-scoring 测“推理能否反推出输入”

真实 mutual information 很难直接计算。RAGEN-2 的做法是把它转成一个 retrieval 问题:如果一段 reasoning 真的是针对某个输入写的,那么这段 reasoning 在原输入下的 teacher-forced likelihood 应该高于在其他输入下的 likelihood。

1

取一批 prompts \(X_1,\ldots,X_P\)。

2

每个 prompt 采样 \(G\) 条 reasoning traces \(Z_{i,k}\)。

3

把每条 trace 放到所有 prompts 下打分。

4

形成矩阵 \(L_{i,k,j}=\log p_\theta(Z_{i,k}|X_j)\)。

5

检查原 prompt 是否得分最高。

两个基础量

\[\text{matched}_{i,k}=\frac{L_{i,k,i}}{|Z_{i,k}|}\]
\[\text{marginal}_{i,k}=\frac{1}{|Z_{i,k}|}\log\frac{1}{P}\sum_j \exp(L_{i,k,j})\]

matched 是 trace 在真实来源输入下的长度归一化 log-likelihood;marginal 是这条 trace 在 batch 内 prompt mixture 下的近似边际 log-likelihood。两者差越大,说明这条 reasoning 越像是被特定输入“塑形”的。

最容易解释的指标是 Retrieval-Acc:

\[\text{Acc}=\frac{1}{PG}\sum_{i,k}\mathbf{1}\left[\arg\max_j L_{i,k,j}=i\right]\]

如果发生 template collapse,一段 trace 放在哪个 prompt 下都差不多,retrieval accuracy 会接近随机猜测。若 \(P=64\),chance level 只有约 1.56%。这使得指标不仅可连续跟踪,还有一个直观的绝对参照。

4. 为什么会塌:低 reward variance 让 task gradient 失声

论文的机制解释是 SNR。对同一个 prompt,如果多条 rollout 的 reward 有明显差异,RL 能知道哪些轨迹更好,advantage 估计就有任务信号。反过来,如果同一个 prompt 下所有 rollout reward 几乎一样,无论全对、全错,还是奖励器无法区分,advantage 都接近零,task gradient 就弱。

reward variance 控制 task gradient 上界

\[\|g_{\text{task}}(x)\| \leq \sqrt{\operatorname{Var}(R|X=x)}\cdot \sqrt{\mathbb{E}[\|s(z;x)\|^2|X=x]}\]

直觉是:同一 prompt 内 reward 差异越小,advantage 越小,基于 reward 的方向性更新越弱。

与此同时,KL regularization 和 entropy regularization 并不会因为 reward variance 低而消失。它们是 reward-agnostic 的分布约束,会继续给每条 reasoning chain 施加相对统一的压力。当 task signal 弱而 regularizer 仍然存在时,总更新方向就更容易被输入无关成分主导,逐渐抹掉不同输入之间的 reasoning 差异。

5. SNR-Aware Filtering:不是挑“高分样本”,而是挑“可区分样本”

RAGEN-2 的干预很直接:每轮训练先按 prompt 分组采样多条 trajectories,计算组内 return variance,然后优先保留 reward variance 高的 prompt groups 做更新。注意它不是简单挑 reward 高的轨迹,而是挑同一 prompt 下 rollout 结果有分辨度的 prompts。高 reward variance 表示 reward 对轨迹选择敏感,advantage 更可能携带学习信号。

主策略是 top-p 风格的累计 variance mass,而不是固定 top-k。它按 reward variance 降序排列 prompt groups,保留最小前缀,使累计 variance 达到总 variance 的某个比例 \(\rho\)。这样当 batch 里只有少数 prompt 有信号时,更新会自动更集中;当很多 prompt 都有信号时,保留范围自然扩大。

关键证据:MI 先坏,性能后坏,entropy 没有报警

论文的证据链分三层:现象层证明 template collapse 可被观察到;机制层证明 reward variance 与 gradient SNR 相关;干预层证明按 reward variance 过滤能同时改善 MI 和任务性能。

1. 训练动态:MI 下降早于任务性能,而 entropy 仍然高

在训练曲线中,no-filter baseline 会出现一个典型模式:retrieval accuracy / MI proxy 先下降,说明 reasoning 开始变得输入无关;随后 task success rate 才恶化;conditional entropy 则没有给出同样清晰的预警。这个顺序很重要,因为它说明 template collapse 不是对性能下降的事后解释,而是可能作为早期诊断信号。

为什么这是有用诊断:如果 MI proxy 在 reward 下降前已经变差,训练系统就可以提前降学习率、提高采样多样性、切换数据分布、启用 SNR-aware filtering 或停止当前阶段,而不是等任务指标掉下去再救火。

2. 相关性:MI-family metrics 比 entropy 更能预测最终表现

论文对 entropy regularization、KL constraint、SNR-aware filtering 等不同干预做 sweep,比较各诊断指标与 task success 的 Spearman correlation。结果显示,MI-family metrics 与性能正相关;Trajectory MI-ZScore 约为 +0.39。相对地,Reasoning Entropy / Conditional Entropy 接近零或负相关,约在 -0.11 到 -0.14。

+0.39Trajectory MI-ZScore 与 task performance 的正相关量级。
-0.11~-0.14entropy 类指标在实验中的相关性方向反而可能误导。
chancetemplate collapse 下 retrieval accuracy 会接近随机匹配。

这个结果不应被理解为“entropy 永远没用”。更准确的解读是:entropy 是 within-input dispersion 指标,适合发现低熵塌缩;但它不是 input dependence 指标,因此不能作为 template collapse 的主监控。

3. 梯度桶实验:task gradient 随 reward variance 增强,regularizer 基本平坦

论文把 prompts 按 within-input reward variance 排成若干 bucket,分别测 task gradient norm 和 regularization gradient norm。结果符合 SNR 机制的核心预测:reward variance 越高,task gradient norm 越大;而 KL + entropy regularizer 的梯度强度在不同 bucket 间相对平坦。

这意味着低-RV prompts 的问题不是“完全没有更新”,而是有更新但方向不是由任务差异主导。这种更新仍然会改参数,却更可能造成输入无关漂移。这也是为什么 simply keep training 可能越来越糟:训练步数增加并不自动等于有效信号增加。

4. 干预效果:filtering 在多数任务、模型、算法上提升平均表现

论文在 Sokoban、FrozenLake、MetaMathQA、Countdown、SearchQA、WebShop、DeepCoder 等环境上测试;训练算法包括 PPO、DAPO、GRPO、Dr. GRPO;模型覆盖 Qwen2.5 多个尺度、Qwen2.5-VL 和 Llama3.2-3B。结果不是每个 cell 都提升,但整体显示 SNR-Aware Filtering 是一个稳健的信号增强 knob。

证据点 论文报告的现象 应该如何解读
PPO + Qwen2.5-3B baseline Sokoban 约 +16.0,FrozenLake 约 +10.9,平均约 +6.9。 多轮规划和导航任务尤其受益,因为模板 reasoning 会直接削弱状态依赖。
算法维度 PPO、DAPO、GRPO、Dr. GRPO 上平均多数为正。 filtering 不是某个 optimizer 的私有补丁,而是作用在 rollout/update 信号质量层。
模型尺度与类型 Qwen2.5 0.5B/1.5B/7B、Instruct、Llama3.2-3B、VL 设置都有改善案例。 template collapse 不是小模型独有;多模态 agent 也会出现输入依赖弱化。
top-p vs top-k Top-p filtering 通常优于固定 top-k。 高信号 prompt 的数量随训练阶段变化,固定保留比例会在低信号 batch 中继续吸入噪声。

5. 边界证据:高随机环境里 reward variance 可能失真

论文也展示了一个很重要的负面条件:在 FrozenLake 这类环境随机性增强时,filtering advantage 会减弱。原因是 reward variance 不再纯粹代表“轨迹质量可区分”,也可能代表 transition noise。此时保留高 variance prompt 未必是在保留高信号,也可能是在保留高环境噪声。

另一个有用诊断是 \(\operatorname{Std}(RV)/\operatorname{Mean}(RV)\)。当这个比值高,说明 batch 内 reward variance 分布有明显异质性,filtering 可以区分 signal-rich 和 noise-only prompts;当这个比值很低,所有 prompt 的 RV 都差不多,filtering 近似随机丢数据,收益就不稳。

术语解释:把几个容易混的概念先对齐

Template Collapse

指模型 reasoning 变成跨输入复用的模板:句子可能不同,结构可能完整,但与具体输入的耦合变弱。它不是“输出变短”或“格式坏掉”,而是“推理不再诊断输入”。

Conditional Entropy \(H(Z|X)\)

给定同一输入时,模型 reasoning 分布有多分散。它能反映 within-input diversity,但不能证明不同输入之间的 reasoning 有系统差异。

Mutual Information \(I(X;Z)\)

输入和 reasoning 之间的信息依赖。若 \(I(X;Z)\) 高,观察 reasoning 可以更好地推断它来自哪个输入;若低,reasoning 更像通用模板。

Retrieval-Acc

MI proxy 的离散版本:把一条 reasoning trace 放到 batch 内所有 prompts 下打分,看真实 prompt 是否排第一。它把“是否看输入”转成可解释的检索问题。

Reward Variance

同一 prompt 下多条 rollout return 的方差。高 RV 通常表示 reward 能区分不同轨迹,advantage 更有信号;但在高环境噪声下,高 RV 也可能只是随机性。

SNR-Aware Filtering

按 prompt-level reward variance 过滤训练更新,只把更可能含有任务区分信号的 prompt groups 用于梯度更新。它是信号增强方法,不是简单正样本筛选。

三个容易误读的点

误读一:entropy 没用了

不对。entropy 仍然能发现低熵模式坍缩,也能帮助维持探索。问题是 entropy 只能覆盖 \(H(Z|X)\) 这条轴,不能替代 \(I(X;Z)\)。真正的监控应该双轴化。

误读二:低 reward variance 都应该丢

不对。低 RV 可能是全对,也可能是全错。全错 prompt 可能需要 curriculum、额外探索或更细粒度 reward,而不是永远从训练中消失。filtering 是每轮更新的信号质量控制,不是数据永久删除。

误读三:MI proxy 就是真实 MI

不对。论文的指标是 scorer-based proxy,依赖 batch prompts、teacher-forced scoring、长度归一化和采样设置。它的价值在于趋势诊断和相对比较,而不是给出绝对 Shannon MI。

工程启发:Agent RL 仪表盘应该多一条“输入依赖性”主线

如果要把 RAGEN-2 落到实际训练系统,我会把它变成三组改动:监控、更新选择、失败分流。

监控层

  • 继续记录 reward、KL、entropy、format validity、response length。
  • 新增 prompt-level reward variance、zero-RV group ratio。
  • 周期性计算 MI proxy / retrieval accuracy,不必每步都算。
  • 按 turn 分开看 MI,尤其关注长程任务后半段是否更模板化。

训练层

  • 对 prompt groups 做 RV-based filtering,而不是只按轨迹 reward 做 best-of 选择。
  • 把 top-p keep mass 作为 per-task knob,避免固定 top-k 在低信号阶段误保留噪声。
  • 当 RV 分布不异质时降低 filtering 强度,避免随机丢数据。
  • 低 RV 但重要的 hard prompts 进入 curriculum 或 replay,而不是永久丢弃。

调试层

  • 对 MI 下降的 batch 做人工抽样,检查是否出现通用 planning 话术。
  • 把 reasoning trace 与 prompt 做反向匹配,观察混淆矩阵中的相似任务簇。
  • 区分格式问题、长度问题和输入依赖问题,避免用 format validity 替代语义诊断。
  • 在环境随机性高的任务里增加 deterministic replay 或分离环境噪声估计。
对 coding agent 的直接启发:不要只看 pass rate 和平均 reasoning length。一个 coding agent 可能开始反复说“inspect files → identify bug → patch → run tests”,但不再引用具体文件、错误堆栈、测试失败或 API 约束。此时 entropy 可能正常,真正要看的应是 reasoning 是否能被匹配回具体 issue 和代码上下文。

研究意义:从“输出多样性”转向“反事实输入可分性”

RAGEN-2 和近期很多 Agent RL 工作的共同趋势,是把训练问题从单纯的 policy optimization 推向 rollout 信号治理。以前大家常问:reward model 好不好、KL 怎么调、GRPO 怎么归一化、entropy 要不要加。RAGEN-2 额外问了一个更基础的问题:当前 batch 的更新里到底有没有足够任务信号?如果没有,继续更新可能只是在把 agent 推向更流畅的平均模板。

这会改变我们评价 reasoning 的方式。很多“多样性”指标只看样本之间是否不同,比如 self-BLEU、embedding dispersion、response length variance。RAGEN-2 关心的是另一种更强的多样性:输出差异是否与输入差异对齐。这本质上是反事实思想:换一个输入,合理的 reasoning 分布应该随之改变;如果不变,那就是输入依赖性下降。

这个视角也能连接到更广的 agent failure:长期任务中的 belief collapse、信息寻求停滞、工具调用模板化、网页导航中的页面无关动作、代码修复中的固定 patch skeleton。它们共同的问题不是模型不会说话,而是模型的内部更新不再被外部状态充分调制。

边界与风险:这不是一个可以无脑打开的开关

reward variance 可能是噪声

在随机环境、非确定工具、网页状态波动、reward model 不稳定的任务里,高 RV 可能代表环境噪声,而不是轨迹质量差异。此时 filtering 会保留更吵的样本。

低 RV 可能包含困难学习区

如果所有 rollout 都失败,RV 也很低。但这些 prompt 可能正是模型需要突破的难题。只过滤会让训练绕开困难区域,需要配合 curriculum、探索增强或更细 reward。

MI proxy 有计算成本

in-batch cross-scoring 需要把 traces 放到多个 prompts 下打分。大 batch、长 reasoning、多 turn 场景下成本不可忽略,适合周期性诊断或抽样监控。

模型可能 Goodhart variance

如果 filtering 策略长期固定且可被模型间接利用,模型可能学会制造 reward variance,而不是制造真实信号。这需要和外部 eval、held-out prompts、人工审计结合。

隐藏 reasoning 场景不直接适用

如果生产模型不暴露 chain-of-thought,MI proxy 需要转向可见 plan、action trace、tool calls、state summaries 或其他代理变量。

实验仍以可控任务为主

论文覆盖任务很多,但仍主要是单 agent、可控环境。多 agent 协作、真实网页、真实用户任务中的 collapse 传播还需要单独研究。

最终 insight:健康推理不是“会变着花样说”,而是“会被状态改变”

RAGEN-2 对我最大的启发是:Agent RL 的核心风险之一,不是模型完全停止输出 reasoning,而是 reasoning 变成一种 reward-compatible 的表演。它保持格式、保持长度、保持流畅,也保持一些 token 级随机性;但它不再足够受输入约束。传统 entropy 监控会把这种表演误认为多样性,直到任务表现明显变差。

因此,后训练系统需要把“输入依赖性”提升为一等公民。对任何声称训练 agent reasoning 的系统,都应至少能回答三个问题:

  1. 同一个输入下,哪些 rollout 真正有可学习的 reward 差异?
  2. 不同输入之间,reasoning trace 是否仍然可区分?
  3. 当任务性能稳定但 MI 下降时,系统是否会把它当作早期故障而不是正常收敛?

如果这三个问题答不上来,就算 reward 曲线暂时好看,训练也可能只是在把 agent 调成更会讲模板话的执行器。

证据边界与资料索引

本文基于公开 X 原帖、arXiv 论文摘要与论文正文信息做机制解读。数值与实验结论以论文当前公开版本为准;社交平台页面可能随作者编辑、回复排序或访问状态变化。本文没有独立复现实验结果,也没有验证论文代码实现。