Ricardo Kevin Notes
X Thread · Agentic RL · MoE

KPop:用自适应 Mask 稳住 Agentic RL 的训练-推理错配

Jia Guo 关于 KPop 的推文和博客,真正值得关注的不是一个新的 mask trick,而是把大规模 MoE / agentic RL 里的 training-inference mismatch 变成可诊断、可约束的 token-level trust region。

01 · Thesis

核心判断

KPop 的工程价值在于承认 rollout engine 与 training engine 不可能总是完全一致,然后只更新那些两套 engine 都“足够信任”的 token。

一句话概括:IcePop 用固定概率比值区间判断 token 是否可信;KPop 用 token 二元事件上的 symmetric binary KL 判断 token 是否可信。前者是假设所有 token 的 ratio 噪声同质,后者让容忍度随 token probability 自适应变化。

这不是奖励函数创新,也不是新的 agent scaffold。它更像 policy gradient 前的一层 hard sample filter:可信 token 参与更新,不可信 token 直接跳过。这个设计非常符合大规模训练系统的现实,因为在 MoE、异步 rollout、serving/training 分离和长轨迹工具调用里,完全消除 training-inference mismatch 的成本很高。

Reported SWE 76.28%

作者博客报告 Ring-2.6-1T 在 SWE-bench Verified 的 pure RL 结果。

Baseline 70.8%

博客报告的 cold-start SFT baseline。

Updated Tokens 70-80%

作者称只更新约 70% 到 80% token 仍能稳定收敛。

02 · Terms

术语和概念边界

KPop

KPop 指作者提出的 adaptive masking rule:用 token 二元事件上的 symmetric binary KL 判断训练路径和推理路径是否足够一致。

IcePop

IcePop 指前置的 fixed ratio mask 思路,用 p_train / p_infer 是否落在固定区间来决定 token 是否参与更新。

Training-inference mismatch

这里的 mismatch 指 rollout 时的 inference engine 和训练回放时的 training engine 对同一 token 给出不同概率。

Binary KL

Binary KL 指把 sampled token 压成“当前 token / 非当前 token”的二元分布后计算 KL,而不是比较完整 vocabulary 分布。

Phi

phi 是 KPop 的阈值参数。双向 binary KL 都不超过该阈值时,token 才会被认为可用于 policy gradient 更新。

Rollout staleness

Rollout staleness 指异步 RL 中轨迹采样模型版本落后于当前训练模型。版本差越大,回放概率和采样概率越容易偏离。

03 · Problem

为什么会有 training-inference mismatch

在大规模 RL 中,轨迹通常由 inference engine 采样,训练时再由 training engine 重新计算 log probability 和梯度。两者可能因为 kernel、精度、batching、router、专家负载、cache、异步 staleness、serving/training 代码路径不同而给同一个 token 不同概率。

这个问题在 agentic RL 中更严重:轨迹更长,tool call 更多,每一步动作会改变后续状态。早期 token 的概率偏差会沿着多轮工具调用放大,最后表现为梯度噪声、reward 曲线抖动、甚至训练 collapse。

Rolloutinference engine 生成长轨迹、工具调用和终止动作。
Replaytraining engine 读取轨迹并重新计算 token logprob。
Mismatch同一 token 的 p_train 与 p_infer 出现偏差。
Gradient极端 ratio 或不可信 token 污染 policy gradient。
MaskKPop 只保留 binary KL 足够小的 token。
作者在回复中补充,实验使用 asynchronous RL,stale rollouts 通过 version-based staleness 控制;KPop 不依赖特定 kernel implementation 或 routing replay。这说明 KPop 试图作为训练算法层面的低侵入补丁,而不是替换训练基础设施。
04 · Method

从固定 ratio 到 binary KL

IcePop 的静态边界

IcePop 判断 token 是否可信的核心是概率比值:如果 p_train(y_t) / p_infer(y_t) 落在固定区间 [alpha, beta],该 token 参与更新;否则 mask 掉。

问题在于这个规则把所有 token 当作同质样本。低概率 token 的 ratio 天然更容易剧烈波动,而高概率 token 的绝对概率质量变化即使 ratio 不大,也可能改变分布语义。固定 ratio 既可能对低概率 token 过度敏感,也可能放过高概率 token 的重要偏差。

KPop 的二元事件视角

KPop 不比较完整 vocabulary 分布,而是把每个 sampled token 压成一个二元事件:当前 token 与非当前 token。这样就能用 binary KL 衡量训练路径和推理路径对这个 token 的分歧。

D_KL^B(p_train || p_infer)
= p_train * log(p_train / p_infer)
  + (1 - p_train) * log((1 - p_train) / (1 - p_infer))

最终 mask 需要双向 KL 都小于阈值 phi

M_KPop(t) = 1[D_KL^B(p_train || p_infer) <= phi]
          * 1[D_KL^B(p_infer || p_train) <= phi]

这就是作者强调的 one parameter。相比 [alpha, beta]phi 的几何意义更稳定:它限制的是二元概率分布的偏离程度,而不是一个对低概率区域非常敏感的裸 ratio。

低概率 token

ratio 可以很大,但对二元分布贡献可能仍小。KPop 不会像固定 ratio 那样天然过度惩罚。

高概率 token

ratio 可能不夸张,但概率质量变化已经重要。binary KL 会更敏感。

双向约束

forward-only 或 reverse-only 会留下单侧泄漏区域;symmetric KL 把接受区压回对角线附近。

05 · Evidence

实验应该怎么读

博客报告了两类实验:一类是 Ring-flash-2.0 上的混合复杂推理 RLVR,覆盖 math、coding、logic、STEM;另一类是 Ring-2.6-1T 上的 long-horizon SWE agentic RL。

维度 作者报告 我的解读
Reasoning RL Ring-flash-2.0,100B total、6.1B activated;KPop 稳定 reward,并在多项 benchmark 上优于 IcePop。 支持 KPop 对一般 MoE RL 的稳定性价值,但仍需要看不同任务上 phi 的敏感性。
SWE Agentic RL Ring-2.6-1T,1T total、63B activated;约 2,500 instances、1,550 repos、30+ languages。 这是更关键的场景,因为长轨迹和工具调用会放大 train/infer mismatch。
SWE-bench Verified 从 70.8% 到 76.28%,三次独立运行平均。 应理解为作者报告的系统级结果,受模型、agent scaffold、训练数据、sandbox、reward、防作弊和 KPop 共同影响。
Mask ratio KPop 可 mask 约 10% 到 30% token,仍保持训练收敛。 最有启发:长轨迹 RL 中有效梯度可能高度稀疏,token selection 本身可能成为提效方向。
需要谨慎的一点:我没有在 SWE-bench 官方站点搜索到 Ring-2.6-1T 或 76.28 的独立 leaderboard 条目。因此这里应该写成“作者博客报告的 SWE-bench Verified 结果”,而不是“官方排行榜已确认结果”。
06 · Limits

局限和风险

它治的是症状

如果 mismatch 来自 logprob bug、router 语义错误或训练/推理路径严重不等价,mask 只能止血,不能替代系统修复。

Hard mask 会引入 bias

被跳过的 token 恰好来自分布差异大的区域,可能既有噪声,也有有价值的新策略探索。

phi 仍需调参

博客显示数学/代码任务与逻辑任务偏好的约束松紧不同,KPop 不是完全免调参。

所以 KPop 更合理的定位是低侵入的训练稳定性组件,而不是 agentic RL 的完整解决方案。它的强处是简单、可接入、可诊断;边界是无法保证训练和推理路径真的一致。

07 · Practice

如果要复现或落地

  1. 先记录 logp_train(y_t)logp_infer(y_t)、position、token type、tool-call boundary、advantage、reward,而不是直接追大 benchmark。
  2. p_train vs p_infer scatter、binary KL histogram、mask ratio over steps,先确认 mismatch 是否真实存在。
  3. 对比无 mask、fixed ratio mask、asymmetric KL、symmetric KL 四个 baseline。
  4. 加一个 soft weighting 版本:按 KL 连续降权,验证 hard mask 是否必要。
  5. 在 agent 任务里按 segment 分析自然语言 token、工具名、参数 JSON、文件 diff、终止 token,找出最容易 mismatch 的部分。
  6. 单独测 rollout staleness:不同 version gap 下 KPop 是否仍稳定。
  7. 最后再看 benchmark,因为 agentic RL 很容易把 reward 曲线训练好,却把真实任务能力训练偏。
最值得继续追的问题不是 KPop 能否把一个模型刷到更高分,而是被 mask 掉的 20% 到 30% token 到底是什么。如果这些 token 主要是 off-policy 噪声、工具格式噪声和无效模板,那么 selective optimization 可能是 agentic RL 提效的长期方向。
08 · Evidence

证据边界与资料索引

X 原帖与 Notion 博客是核心材料;外部页面用于核验模型、环境和 benchmark 背景。文中的 SWE-bench Verified 数字按作者报告处理,未写成官方排行榜独立确认。