Elie Bakouch X thread reading · 2026-05-20
RL 数据重叠 · Mid-training · Exploration

Mid-training 见过类似 RL rollouts,会不会反而伤害后续 RL?

这条 X 帖真正问的是:当模型在 RL 之前已经用大量“像轨迹一样”的推理/工具调用文本继续预训练,后续 RL 得到的是更好的起点,还是一个探索空间被提前收窄的 policy prior?

原帖@eliebakouch
发布时间2026-05-18 UTC
核心外部来源MiniMax-M1 arXiv
报告结论风险真实,但不是一刀切

来源地图

MiniMax-M1 论文截图,强调 SFT 与 RL 数据严格隔离以避免 overlap
原帖附图来自 MiniMax-M1 论文 4.1 节附近。高亮句子的含义是:RL 数学数据会做 embedding 去重,并与 SFT 数据严格隔离,避免 SFT 到 RL 的泄漏削弱探索和训练有效性。

这条推文在问什么

作者不是在问“重复数据会不会让 loss 变低”这么简单的问题,而是在问:如果 mid-training 的语料已经像 RL rollouts,也就是包含长推理轨迹、工具使用轨迹、尝试与纠错路径,那么后续 RL 是否还会学到真正的新策略,还是只是在强化一个已经被文本预训练塑形过的行为分布。

几个词先对齐

在这里的具体含义 为什么关键
continual pretraining / mid-training 基础模型之后继续做 next-token 训练,通常加入更高比例的推理、代码、STEM、长上下文或轨迹类语料。 它不是 RL,没有 reward,但会改变模型最自然会生成什么样的解题路径。
RL rollouts / traces 模型在任务上生成的完整轨迹:可能包含思考、工具调用、执行结果、修正和最终答案。 如果这些轨迹被提前放进 mid-training,模型可能已经“背熟”某些路径或风格。
SFT cold start RL 前用高质量示范答案教模型基本的长 CoT、格式、反思和答题习惯。 它让 RL 更稳定,但如果和 RL 题目/解法重叠,reward 会变得不再纯粹。
exploration RL 采样时尝试不同解法、搜索路线、工具调用和中间假设,而不是只走熟悉模板。 推理 RL 的收益通常来自在 reward 反馈下发现更好的策略,而不是重复已有文本。

原帖的隐含假设

作者把 MiniMax-M1 的 SFT/RL overlap 经验外推到更早、更大规模的 mid-training 阶段:如果 SFT 数据泄漏到 RL 会削弱探索,那么 trillions-token 级别的“轨迹类预训练”是否也会产生类似效果?更细的问题是:如果题目相同,但轨迹来自另一个模型,这算不算危险 overlap?

这个问题有价值,因为 2026 年的很多 agent / reasoning 训练路线都在做类似事情:先收集大量 trajectory corpus 做 mid-training,再用 RLVR、tool-use RL 或环境 reward 做强化。两者之间的边界越来越模糊。

为什么 overlap 可能伤害 RL

我的理解是,风险不在“文本出现过”本身,而在它改变了 RL 的探索分布、难度分布和 reward 信号含义。

起点 policy 被提前收窄。 Mid-training 如果大量见过某类轨迹,模型采样时会更倾向走那些轨迹风格。RL 采样空间变窄后,reward 看到的不是“模型自然探索出来的多样尝试”,而是预训练语料中高频路径的再现。
RL 题目变得过于容易。 如果 prompt、答案、题型或 solution skeleton 与 RL 数据重叠,模型在 RL 开始时 pass@1 可能已经很高。这样看起来训练很顺,但 advantage 信号会变弱,剩下的梯度可能更多是在强化格式、长度和模板。
成功轨迹不再证明策略可迁移。 当模型在相似题上成功,成功原因可能是记忆、局部插值或跨模型蒸馏来的模板,而不是通过 reward 学会了可泛化的搜索策略。到 OOD 任务,尤其是新工具、新约束、新环境时,性能可能掉得更明显。
reward 变成确认偏差。 对 verifiable tasks 来说,reward 只知道答案对不对,不知道答案为什么对。如果轨迹来自提前见过的解法分布,RL 会强化“已经会的路径”,不一定鼓励发现新的问题分解方式。

但 overlap 也可能帮助 RL

不能把 overlap 简化成“有害”。如果模型完全不会长轨迹、不会工具调用、不会按环境状态行动,RL 会非常稀疏和昂贵。适度的 mid-training 可以教会模型基本动作语法:如何保持多步状态、如何调用工具、如何把失败反馈纳入下一步。这就是回复里有人说的“先有 reasoning space 的地图”:RL 不是从荒地开始,而是进入已有街区。

所以问题不在“是否要 trajectory-like mid-training”,而在它是否把后续 RL 要探索的任务、答案、轨迹模式提前泄漏得太具体。

MiniMax-M1 到底支持了什么

论文明确说了什么

MiniMax-M1 先在 7.5T tokens 的推理密集语料上继续预训练,然后做 SFT 注入长 CoT 模式,再做大规模 RL。论文 4.1 节在数学 RL 数据清洗里强调:RL 数据源之间做 embedding 去重,并与 SFT 数据严格隔离,理由是 SFT 到 RL 的泄漏会削弱探索和训练有效性。

同一篇论文还提到,在扩展到 80K 输出长度的 RL 时,他们会移除太容易的样本,并降低部分 synthetic reasoning data 的比例,因为这类数据在长上下文 RL 中会导致重复、同质化,对整体性能不利。

论文没有证明什么

截图不是一个系统 ablation。它没有给出“重叠多少会伤害多少”的曲线,也没有直接测试 trillion-token 级 continual pretraining 中,另一个模型生成的同题不同 rollout 是否伤害 RL。

因此,原帖作者是在提出合理外推,不是在引用一个已经封闭回答的问题。MiniMax-M1 提供的是工程经验和训练卫生原则,不是最终理论。

把 overlap 拆成四类,结论会清楚很多

overlap 类型 例子 对 RL 的风险 我的判断
prompt/问题重叠 RL 题目在 SFT 或 mid-training 中出现过。 最高。模型可能直接识别题目,pass@1 虚高。 必须严格去重,至少做 exact、n-gram、embedding 和 benchmark contamination 检查。
答案/最终结果重叠 题目稍有改写,但答案或证明结构几乎一样。 很高。reward 无法区分真实求解和记忆式到达。 需要按语义和 solution skeleton 去重,仅 prompt 去重不够。
同题不同模型 rollout 同一个数学题,mid-training 使用另一个模型生成的多条解法。 中到高。比直接答案泄漏弱,但会提供策略提示和路线先验。 如果目标是测 RL 能不能探索,应该隔离;如果目标是教动作语法,可放入非评测域。
风格/分布相似 大量长 CoT、工具调用、debug trace,但任务不同。 中等。通常有帮助,但可能造成模板化和同质化。 要看多样性、任务迁移和 OOD 表现,不应按 exact overlap 一刀切。

怎么判断它真的伤害了 RL

回复里有人问:这能否从 RL 期间异常高的 pass@1 看出来?答案是:可以作为警报,但不够。

诊断信号 怎么看 解释边界
RL step 0 / early step pass@1 异常高 RL 开始前或很早期已经能单次采样解决大量训练题。 可能是能力强,也可能是泄漏。需要与严格 holdout 同分布题比较。
pass@N 与 pass@1 差距很小 多采样没有明显增加可解题数,说明策略多样性不足。 对简单题也会这样,所以要按难度分桶看。
训练题提升大,OOD 题提升小 同模板/同来源提升明显,跨来源、改写、组合任务收益弱。 这是最关键的风险信号,说明 RL 学到的可能是窄分布策略。
成功轨迹与 mid-training corpus 高相似 对 CoT、工具序列、关键中间式、代码 patch pattern 做 embedding/MinHash/AST 相似度检查。 相似不等于抄袭,但高相似加低 OOD 增益就是强证据。
advantage 分布变窄 同一 prompt 下各 rollout reward 差别小,正负样本分布不够分离。 RL 梯度会变弱,训练可能主要强化格式和长度偏好。

一个干净的实验设计

构造四组 mid-training 数据:无轨迹、同域不同题轨迹、同题另一个模型轨迹、同题同解法轨迹。
后续 RL 使用同一 verifier、同一采样预算、同一 prompt 池,并且训练题、同分布 holdout、跨来源 OOD 三类分开评估。
同时记录 pass@1、pass@N、unique successful solution modes、轨迹相似度、advantage 方差、输出长度、reward hacking 或重复模式。
如果同题轨迹组 early pass@1 高、训练集收益高,但 OOD 增益弱、成功轨迹相似度高,那就说明 overlap 在把 RL 变成确认已有策略,而不是扩展策略。

我的判断

最重要的 insight:在 reasoning/agent RL 里,数据重叠的危害不是传统意义上的“评测污染”而已。它会改变 RL 训练本身:模型采样什么、reward 能区分什么、优势函数是否有信息量、以及最后学到的是搜索能力还是轨迹模仿。

如果 mid-training 的轨迹只是教会模型“怎么行动”,例如工具调用格式、长状态保持、错误恢复、任务分解语言,那么它通常是 RL 的加速器。如果它提前覆盖了 RL 要用来发现能力边界的题目、答案、解法路线或环境状态,那么它会把 RL 的探索问题变成记忆确认问题。

作者问的“T-token scale 会不会改变这个结论”,我的答案是:规模会稀释单条样本的记忆效应,但不会自动消除结构性泄漏。真正决定风险的是有效重复率、语义相似度、题目难度是否仍在模型能力边界上,以及后续 RL 是否有足够 OOD holdout 来检验泛化。

对训练 pipeline 来说,比较稳妥的做法是:mid-training 可以使用轨迹类语料,但 RL 任务池必须按 prompt、答案、轨迹、环境状态和 benchmark 来源做多层去重;RL 训练还要动态移除过易样本,保留能产生探索差异的边界题。MiniMax-M1 的数据清洗策略本质上就是这个方向。

本次使用的命令证据

"/opt/homebrew/bin/opencli" twitter thread "https://x.com/eliebakouch/status/2056511622529634703" --limit 80 -f json --trace retain-on-failure
curl -L "https://pbs.twimg.com/media/HIoyQy8WkAAjr1E.jpg" -o "/tmp/eliebakouch-2056511622529634703.jpg"
mcp-router web_fetch "https://arxiv.org/html/2506.13585v1"
mcp-router web_fetch "https://www.minimax.io/news/minimax-m1-technical-seminar-2"

边界说明:原帖是一个技术问题和假设,不是论文结果。MiniMax-M1 原文支持“严格隔离 SFT 与 RL 数据以避免泄漏伤害探索”的训练卫生原则,但没有直接回答所有 mid-training overlap 变体。