KPop：用自适应 Mask 稳住 Agentic RL 的训练-推理错配

01 · Thesis

核心判断

KPop 的工程价值在于承认 rollout engine 与 training engine 不可能总是完全一致，然后只更新那些两套 engine 都“足够信任”的 token。

一句话概括：IcePop 用固定概率比值区间判断 token 是否可信；KPop 用 token 二元事件上的 symmetric binary KL 判断 token 是否可信。前者是假设所有 token 的 ratio 噪声同质，后者让容忍度随 token probability 自适应变化。

这不是奖励函数创新，也不是新的 agent scaffold。它更像 policy gradient 前的一层 hard sample filter：可信 token 参与更新，不可信 token 直接跳过。这个设计非常符合大规模训练系统的现实，因为在 MoE、异步 rollout、serving/training 分离和长轨迹工具调用里，完全消除 training-inference mismatch 的成本很高。

Reported SWE 76.28%

作者博客报告 Ring-2.6-1T 在 SWE-bench Verified 的 pure RL 结果。

Baseline 70.8%

博客报告的 cold-start SFT baseline。

Updated Tokens 70-80%

作者称只更新约 70% 到 80% token 仍能稳定收敛。

02 · Terms

术语和概念边界

KPop

KPop 指作者提出的 adaptive masking rule：用 token 二元事件上的 symmetric binary KL 判断训练路径和推理路径是否足够一致。

IcePop

IcePop 指前置的 fixed ratio mask 思路，用 p_train / p_infer 是否落在固定区间来决定 token 是否参与更新。

Training-inference mismatch

这里的 mismatch 指 rollout 时的 inference engine 和训练回放时的 training engine 对同一 token 给出不同概率。

Binary KL

Binary KL 指把 sampled token 压成“当前 token / 非当前 token”的二元分布后计算 KL，而不是比较完整 vocabulary 分布。

Phi

phi 是 KPop 的阈值参数。双向 binary KL 都不超过该阈值时，token 才会被认为可用于 policy gradient 更新。

Rollout staleness

Rollout staleness 指异步 RL 中轨迹采样模型版本落后于当前训练模型。版本差越大，回放概率和采样概率越容易偏离。

03 · Problem

为什么会有 training-inference mismatch

在大规模 RL 中，轨迹通常由 inference engine 采样，训练时再由 training engine 重新计算 log probability 和梯度。两者可能因为 kernel、精度、batching、router、专家负载、cache、异步 staleness、serving/training 代码路径不同而给同一个 token 不同概率。

这个问题在 agentic RL 中更严重：轨迹更长，tool call 更多，每一步动作会改变后续状态。早期 token 的概率偏差会沿着多轮工具调用放大，最后表现为梯度噪声、reward 曲线抖动、甚至训练 collapse。

Rolloutinference engine 生成长轨迹、工具调用和终止动作。

Replaytraining engine 读取轨迹并重新计算 token logprob。

Mismatch同一 token 的 p_train 与 p_infer 出现偏差。

Gradient极端 ratio 或不可信 token 污染 policy gradient。

MaskKPop 只保留 binary KL 足够小的 token。

作者在回复中补充，实验使用 asynchronous RL，stale rollouts 通过 version-based staleness 控制；KPop 不依赖特定 kernel implementation 或 routing replay。这说明 KPop 试图作为训练算法层面的低侵入补丁，而不是替换训练基础设施。

04 · Method

从固定 ratio 到 binary KL

IcePop 的静态边界

IcePop 判断 token 是否可信的核心是概率比值：如果 p_train(y_t) / p_infer(y_t) 落在固定区间 [alpha, beta]，该 token 参与更新；否则 mask 掉。

问题在于这个规则把所有 token 当作同质样本。低概率 token 的 ratio 天然更容易剧烈波动，而高概率 token 的绝对概率质量变化即使 ratio 不大，也可能改变分布语义。固定 ratio 既可能对低概率 token 过度敏感，也可能放过高概率 token 的重要偏差。

KPop 的二元事件视角

KPop 不比较完整 vocabulary 分布，而是把每个 sampled token 压成一个二元事件：当前 token 与非当前 token。这样就能用 binary KL 衡量训练路径和推理路径对这个 token 的分歧。

D_KL^B(p_train || p_infer)
= p_train * log(p_train / p_infer)
  + (1 - p_train) * log((1 - p_train) / (1 - p_infer))

最终 mask 需要双向 KL 都小于阈值 phi：

M_KPop(t) = 1[D_KL^B(p_train || p_infer) <= phi]
          * 1[D_KL^B(p_infer || p_train) <= phi]

这就是作者强调的 one parameter。相比 [alpha, beta]，phi 的几何意义更稳定：它限制的是二元概率分布的偏离程度，而不是一个对低概率区域非常敏感的裸 ratio。

低概率 token

ratio 可以很大，但对二元分布贡献可能仍小。KPop 不会像固定 ratio 那样天然过度惩罚。

高概率 token

ratio 可能不夸张，但概率质量变化已经重要。binary KL 会更敏感。

双向约束

forward-only 或 reverse-only 会留下单侧泄漏区域；symmetric KL 把接受区压回对角线附近。

05 · Evidence

实验应该怎么读

博客报告了两类实验：一类是 Ring-flash-2.0 上的混合复杂推理 RLVR，覆盖 math、coding、logic、STEM；另一类是 Ring-2.6-1T 上的 long-horizon SWE agentic RL。

维度	作者报告	我的解读
Reasoning RL	Ring-flash-2.0，100B total、6.1B activated；KPop 稳定 reward，并在多项 benchmark 上优于 IcePop。	支持 KPop 对一般 MoE RL 的稳定性价值，但仍需要看不同任务上 phi 的敏感性。
SWE Agentic RL	Ring-2.6-1T，1T total、63B activated；约 2,500 instances、1,550 repos、30+ languages。	这是更关键的场景，因为长轨迹和工具调用会放大 train/infer mismatch。
SWE-bench Verified	从 70.8% 到 76.28%，三次独立运行平均。	应理解为作者报告的系统级结果，受模型、agent scaffold、训练数据、sandbox、reward、防作弊和 KPop 共同影响。
Mask ratio	KPop 可 mask 约 10% 到 30% token，仍保持训练收敛。	最有启发：长轨迹 RL 中有效梯度可能高度稀疏，token selection 本身可能成为提效方向。

需要谨慎的一点：我没有在 SWE-bench 官方站点搜索到 Ring-2.6-1T 或 76.28 的独立 leaderboard 条目。因此这里应该写成“作者博客报告的 SWE-bench Verified 结果”，而不是“官方排行榜已确认结果”。

06 · Limits

局限和风险

它治的是症状

如果 mismatch 来自 logprob bug、router 语义错误或训练/推理路径严重不等价，mask 只能止血，不能替代系统修复。

Hard mask 会引入 bias

被跳过的 token 恰好来自分布差异大的区域，可能既有噪声，也有有价值的新策略探索。

phi 仍需调参

博客显示数学/代码任务与逻辑任务偏好的约束松紧不同，KPop 不是完全免调参。

所以 KPop 更合理的定位是低侵入的训练稳定性组件，而不是 agentic RL 的完整解决方案。它的强处是简单、可接入、可诊断；边界是无法保证训练和推理路径真的一致。

07 · Practice

如果要复现或落地

先记录 logp_train(y_t)、logp_infer(y_t)、position、token type、tool-call boundary、advantage、reward，而不是直接追大 benchmark。
画 p_train vs p_infer scatter、binary KL histogram、mask ratio over steps，先确认 mismatch 是否真实存在。
对比无 mask、fixed ratio mask、asymmetric KL、symmetric KL 四个 baseline。
加一个 soft weighting 版本：按 KL 连续降权，验证 hard mask 是否必要。
在 agent 任务里按 segment 分析自然语言 token、工具名、参数 JSON、文件 diff、终止 token，找出最容易 mismatch 的部分。
单独测 rollout staleness：不同 version gap 下 KPop 是否仍稳定。
最后再看 benchmark，因为 agentic RL 很容易把 reward 曲线训练好，却把真实任务能力训练偏。

最值得继续追的问题不是 KPop 能否把一个模型刷到更高分，而是被 mask 掉的 20% 到 30% token 到底是什么。如果这些 token 主要是 off-policy 噪声、工具格式噪声和无效模板，那么 selective optimization 可能是 agentic RL 提效的长期方向。

08 · Evidence

证据边界与资料索引

X 原帖与 Notion 博客是核心材料；外部页面用于核验模型、环境和 benchmark 背景。文中的 SWE-bench Verified 数字按作者报告处理，未写成官方排行榜独立确认。

Jia Guo X 主帖：KPop 与 Ring-2.6-1T SWE-bench Verified 结果 KPop Notion 博客：Taming Training-Inference Mismatch in Reinforcement Learning with Adaptive Masking Regions Hugging Face：inclusionAI/Ring-2.6-1T GitHub：inclusionAI/AEnvironment SWE-bench 官方站点