IcePop 的静态边界
IcePop 判断 token 是否可信的核心是概率比值:如果 p_train(y_t) / p_infer(y_t) 落在固定区间 [alpha, beta],该 token 参与更新;否则 mask 掉。
问题在于这个规则把所有 token 当作同质样本。低概率 token 的 ratio 天然更容易剧烈波动,而高概率 token 的绝对概率质量变化即使 ratio 不大,也可能改变分布语义。固定 ratio 既可能对低概率 token 过度敏感,也可能放过高概率 token 的重要偏差。
KPop 的二元事件视角
KPop 不比较完整 vocabulary 分布,而是把每个 sampled token 压成一个二元事件:当前 token 与非当前 token。这样就能用 binary KL 衡量训练路径和推理路径对这个 token 的分歧。
D_KL^B(p_train || p_infer)
= p_train * log(p_train / p_infer)
+ (1 - p_train) * log((1 - p_train) / (1 - p_infer))
最终 mask 需要双向 KL 都小于阈值 phi:
M_KPop(t) = 1[D_KL^B(p_train || p_infer) <= phi]
* 1[D_KL^B(p_infer || p_train) <= phi]
这就是作者强调的 one parameter。相比 [alpha, beta],phi 的几何意义更稳定:它限制的是二元概率分布的偏离程度,而不是一个对低概率区域非常敏感的裸 ratio。
低概率 token
ratio 可以很大,但对二元分布贡献可能仍小。KPop 不会像固定 ratio 那样天然过度惩罚。
高概率 token
ratio 可能不夸张,但概率质量变化已经重要。binary KL 会更敏感。
双向约束
forward-only 或 reverse-only 会留下单侧泄漏区域;symmetric KL 把接受区压回对角线附近。