这个帖子最值得带走的不是“多语言训练又多了一个方法”,而是一个更基础的判断:模型里的知识不是均匀分布在所有语言路径里的。同一个问题,用中文、英文、阿拉伯语、法语或日语生成,可能会触发不同语料来源、文化背景和事实记忆。传统 GRPO 往往让每个训练问题只在源语言里 rollout,英语中心方法又默认英语是更强监督语言;LRPO 反过来把“该用什么语言 rollout”变成训练时要学习的变量。
这使 LRPO 更像一个多语言知识路由器,而不是简单的数据增强。它利用多语言 rollout 组找出更有信息量的答案,再把这些相对质量信号用于 policy update。语言在这里不是翻译层,而是训练时的探索维度。
工程上可以这样理解:如果英文是很多任务的强路径,区域知识和文化语境却常常存在于非英语路径中。LRPO 的价值在于让模型训练阶段就学会何时绕开默认路径,而不是等到推理阶段靠 prompt 猜测。