Paper Note · Multilingual RL

LRPO:把语言选择变成多语言后训练的可学习变量

这篇 ICML 2026 论文的关键 insight 是:语言不是单纯的输入输出格式,而是访问模型内部知识分布的一条路径。多语言后训练不应默认沿着源语言或英语中心路径生成 rollout,而应让模型学习“这个问题用哪种语言探索,能带来更可靠的训练信号”。

01 · thesis

核心判断

这个帖子最值得带走的不是“多语言训练又多了一个方法”,而是一个更基础的判断:模型里的知识不是均匀分布在所有语言路径里的。同一个问题,用中文、英文、阿拉伯语、法语或日语生成,可能会触发不同语料来源、文化背景和事实记忆。传统 GRPO 往往让每个训练问题只在源语言里 rollout,英语中心方法又默认英语是更强监督语言;LRPO 反过来把“该用什么语言 rollout”变成训练时要学习的变量。

这使 LRPO 更像一个多语言知识路由器,而不是简单的数据增强。它利用多语言 rollout 组找出更有信息量的答案,再把这些相对质量信号用于 policy update。语言在这里不是翻译层,而是训练时的探索维度。

工程上可以这样理解:如果英文是很多任务的强路径,区域知识和文化语境却常常存在于非英语路径中。LRPO 的价值在于让模型训练阶段就学会何时绕开默认路径,而不是等到推理阶段靠 prompt 猜测。

02 · problem

为什么这个问题重要

多语言模型虽然在大规模异构语料上训练,但后训练阶段常常把问题收缩回单一语言路径。源语言 rollout 的好处是稳定,英语 pivot 的好处是高资源,但二者都会错过一个事实:知识质量和覆盖率会随语言、地区、领域变化。一个关于希腊礼仪的问题,英语或中文生成可能给出通用误解,阿拉伯语或更接近特定文化讨论的语言路径反而可能捕捉到冒犯含义。

这类问题在区域知识、跨文化信息需求、地方事实、政策语境和非英语互联网材料里尤其明显。传统“翻译成英文再回答”的 pipeline 在通用知识上很有效,但它把语言差异压平成格式转换,忽略了语言本身可能承载不同来源和不同可靠性。

语言不同语言不是等价包装,而可能对应不同知识来源。
任务区域知识和跨文化问题比通用选择题更依赖语言语境。
训练只在源语言 rollout 会限制探索空间和偏好信号多样性。
奖励跨语言相似度原始分数存在语言对偏差,不能直接比较。
03 · mechanism

LRPO 怎么做

构造多语言 rollout 组

对每个训练问题,LRPO 不只生成源语言回答,而是在固定 rollout budget 下生成多种目标语言的回答。为了保留 on-policy 稳定性,它会保留一部分源语言 rollout,再把剩余配额交给语言 router 采样。

用语言 router 决定探索方向

Router 根据问题主题和可选地区标签给候选语言分配概率。论文把它建模为 contextual multi-armed bandit:每种语言是一条 arm,训练中要在探索低使用语言和利用高收益语言之间平衡。

用跨语言语义相似度评估质量

每个 rollout 会与高质量 reference 比较。质量信号来自跨语言 semantic similarity,而不是要求所有答案先翻译成同一种语言后再打分。这样可以保留不同语言路径暴露出的内容差异。

校准 reward,避免语言对偏差

原始相似度会因为语言对不同而系统性偏移。LRPO 先离线统计语义等价、自然错配和 hard contrastive pair 的相似度分布,再在线训练时做 mean-based 或 quantile-based calibration,让不同语言的 reward 更可比。

同时更新 policy 和 router

Policy 使用校准后的质量 reward 和语言一致性 reward 做 GRPO 式更新。Router 则根据最近一段训练中不同主题、地区、语言组合的平均 reward 做指数滑动更新,并通过 epsilon-greedy 与 temperature annealing 避免过早塌缩到少数语言。

04 · evidence

实验信号怎么看

观察 含义 我的解读
Qwen2.5-1.5B 在 mGSM-v2 上,GRPO 为 32.33,LRPO 为 38.25。 多语言 rollout 在数学推理类开放生成任务上带来明显收益。 这说明收益不局限于文化知识;不同语言路径可能也影响推理样式和中间知识调用。
CARE、CARE-pro、mGSM-v2 的收益更明显,Global-MMLU-Lite 和 Include-Lite 更接近保持。 开放生成任务更容易从多语言探索中获益。 选择题任务的答案空间被格式限制,语言路径差异不一定能充分转化成分数。
固定多语言混合通常好于单语言,但动态 router 的整体表现最好。 “多语言”本身有价值,但 naive uniform sampling 不够。 关键不是把语言种类堆满,而是让模型学会在题目上下文下选择高信息语言。
跨语言 reward calibration 优于未校准基线。 多语言评估不是简单调用 embedding 相似度即可。 如果 reward 没校准,训练可能奖励语言对偏差,而不是奖励真实语义质量。

这些结果的合理读法是:LRPO 提供了一条更细的后训练路径,尤其适合知识来源和语言语境强耦合的任务。它不是证明“任何问题都应该多语言生成”,而是证明“训练时允许语言路由,并用校准 reward 比较 rollout,会比固定单语言或固定英语中心策略更有弹性”。

05 · terms

术语解释

LRPO

Language-Routed Policy Optimization,指把 rollout 语言作为可学习变量的在线 policy optimization 方法。

Rollout language

模型被要求生成回答的目标语言。这里它不只是输出格式,而是训练时可选择的探索动作。

Language router

根据问题主题、地区和训练反馈,为不同候选语言分配采样概率的路由器。

Reward calibration

对跨语言相似度分数做校准,减少不同语言对之间的系统性打分偏差。

Contextual multi-armed bandit

一种在上下文条件下选择 action 并从 reward 中更新选择策略的在线学习框架;在 LRPO 中,action 是语言。

Language consistency reward

检查模型是否真的按被路由的目标语言回答。若不遵守语言指令,质量 reward 会被门控掉。

06 · implications

工程启发

对多语言 RAG 和国际化 agent,LRPO 的启发是不要把语言只当成前后处理。更稳的系统应该同时考虑资料来源语言、推理语言和最终用户输出语言。一个关于日本地方制度的问题,资料检索可能应优先日文;一个关于法国品牌历史的问题,法文 rollout 可能比英文更可靠;一个关于跨境法规的问题,可能需要多语言候选答案互相校验。

对后训练平台,LRPO 提醒我们:reward model 要支持跨语言公平比较,否则多语言探索会被评估偏差污染。实际落地时至少需要记录语言对、source language、target language、reference language 和 reward 分布,避免把 embedding model 的语言偏置误当成模型能力提升。

一个可执行的系统设计是:检索阶段按地区和语言路由资料,生成阶段保留多个语言候选,评价阶段做跨语言校准,最终再把答案回写到用户语言。这样做比“统一翻译成英文处理”复杂,但更接近真实跨文化信息需求。

07 · limits

边界与风险

Reward 依赖仍然很重

如果跨语言相似度模型或 reward model 本身偏差很大,校准只能缓解,不能保证评价等于真实质量。

Router 学到的是局部最优

语言偏好依赖训练数据、模型能力和 reward 设计,不能把某地区固定映射到某语言作为通用规则。

训练成本更高

论文报告 LRPO 在同硬件和同 rollout group size 下训练 step 时间高于 GRPO,额外成本来自路由、校准和更多非英语 token。

收益分布不均匀

开放生成任务收益更明显,部分选择题类 benchmark 只是保持或小幅波动,不应过度泛化。

Reference 质量仍是天花板

LRPO 需要高质量 reference 来构造语义质量反馈;如果 reference 本身错或过窄,多语言探索会围绕错误目标优化。

语言控制需要训练

基础模型未必天然遵守“用指定语言回答”的指令,论文中 warm-start SFT 对稳定多语言 rollout 有帮助。