OnlineRubrics 论文深读
arXiv 2510.07284 · ICLR 2026 submission

Online Rubrics Elicitation from Pairwise Comparisons

这篇论文讨论的不是“再写一份更好的静态评分表”,而是把 rubric 变成训练过程里会自我更新的 reward specification: 模型一边用 rubrics 做强化学习,一边从当前模型与 control model 的回答差异中抽取新标准,再把这些标准加回 reward。

论文问题 静态 rubrics 跟不上 policy drift,容易漏掉训练中新出现的投机行为和好行为。
核心方法 用 pairwise comparison 在线抽取新 criteria,增强每个 prompt 的原始 rubric。
训练配置 Qwen-2.5-7B-Instruct + GRPO,GPT-4.1-mini 做 grader,o3-mini 做 extractor。
我的判断 它更像 reward engineering pattern,而不是完整 alignment solution。
01 · Problem

论文到底在解决什么问题?

论文站在 RLHF、RLVR 和 rubric-based reward 的交界处。它认为当前 post-training 的瓶颈不只是“有没有 reward”,而是 reward criteria 是否能跟随模型行为变化。

核心矛盾:开放式长回答没有像数学答案或代码单测那样的 verifiable reward;人类偏好又太粗。 Rubrics 可以提供更细的 reward,但静态 rubrics 会在训练过程中被模型绕开。

RLHF

人类偏好信号粗

RLHF 通过偏好比较学习 reward,但偏好通常只告诉你 A 比 B 好,不会精确告诉模型“是哪一条标准被满足或违反”。 对长文本、专家任务、开放式咨询来说,单一偏好信号很难变成可诊断的训练反馈。

RLVR

可验证奖励太窄

RLVR 在数学、代码、选择题上很好用,因为答案可以自动检查。但很多任务没有唯一答案: 例如化学合成建议、金融解释、研究分析、长文写作,不能只靠 exact match。

Rubrics

静态评分表会过期

Rubrics 把“好回答”拆成一组加权 criteria。但如果 criteria 在训练前固定,模型训练中出现的新漏洞、新风格偏差、新投机策略就可能不在表里。

02 · Method

OnlineRubrics 是怎么做的?

它不是替换 GRPO,也不是训练一个全新的 reward model,而是在每个训练 step 中动态扩展 prompt-specific rubrics。 关键动作是:比较当前 policy 和 control policy 的回答,抽取原 rubric 未覆盖的新 criteria。

1

从原始 rubric 开始

每个 prompt 自带一组 offline criteria:人工写或合成。每条 criterion 都有权重,通常是二值可检查的要求。

2

采样两组回答

对同一个 prompt,从当前 policy 采样回答,也从 control policy 采样回答。control 可以是 reference model 或旧 policy。

3

抽取差异标准

LLM extractor 先找两条回答的 meaningful differences,再把差异转成新的评价 criteria,并赋予权重。

4

增强 reward 再更新

新 criteria 去重后加入原 rubric,用 LLM grader 打分,得到 reward,再用 GRPO 更新 policy。

Prompt + Offline Rubric

例如“如何检测反应中是否有 CO2?” 原 rubric 只写“提到石灰水变浑浊”。

Pairwise Responses

当前模型和 control model 各生成回答。差异可能暴露出“回答是否说明该反应对 CO2 的特异性”。

Elicited Criteria

把差异写成新 criterion:回答应说明该测试为何指向 CO2;回答不应加入无关但貌似专业的细节。

Rubric reward 的基本形式

reward = weighted_sum(binary_grades) / sum(positive_weights)

LLM grader 对每条 criterion 输出 0/1,然后按权重合成标量 reward。OnlineRubrics 改变的不是这个 reduction, 而是进入 grader 的 criteria 集合:从静态的 C_i 变成 C_i ∪ C_i^e

03 · Training

训练循环与数据流

这部分最容易被误读。论文的 RL 算法是 GRPO;OnlineRubrics 的位置是在 reward construction 里。 它让 reward 在训练过程中随 rollouts 更新,而不是在训练前一次性写死。

GRPO 里的 reward 怎么用?

对同一个 prompt 生成一组 responses,分别用 rubric reward 打分,得到 R_1...R_G。 然后用组内均值和标准差归一化成 advantage:

A_j = (R_j - mean(R)) / std(R)

这意味着模型不是只看绝对分数,而是看同一 prompt 下哪个 rollout 比同组其他 rollout 更好。

OnlineRubrics 插在哪里?

在计算 reward 前,它先用 current policy 和 control policy 的回答差异生成新 criteria。 然后 grader 用增强后的 rubric 给当前 rollouts 打分。也就是说,policy 每发生一轮变化, reward spec 都有机会被重新检查。

论文报告的关键训练设置。这里不是最优配置搜索,而是用于验证 OnlineRubrics 机制的实验设置。
项目 设置 含义
Base policy Qwen-2.5-7B-Instruct 一个 7B instruct model,用来测试 rubrics reward 是否能继续提升。
RL algorithm GRPO,3 epochs OnlineRubrics 不替换策略优化算法,只改变 reward criteria 的构造。
Rollouts 每个样本 16 个 rollouts 用于组内 advantage 估计,也为 pairwise elicitation 提供候选回答。
Grader GPT-4.1-mini 判断每条 criterion 是否满足,输出 binary grades。
Extractor o3-mini,8 对 pairwise comparisons 从 current/control responses 的差异中生成新 criteria。
Optimization LR 5e-6,warmup 0.1,KL coefficient 0.01 常规 RL 稳定化设置,KL 限制 policy 偏离 reference 过远。
Hardware 8 NVIDIA H100,effective batch size 96 说明该方法有明显 inference/training 成本,不是轻量后处理。
04 · Evaluation

到底评估了什么?

论文评估的是文本回答质量:内部用 held-out rubrics set,看 score 和 win rate;外部用 AlpacaEval、Arena-Hard、GPQA-Diamond、GSM8K。 这不是多轮聊天能力评估,也不是最终用户满意度实验。

Score rubric 加权满足率。回答满足多少条 criteria,并按权重合成。
WR win rate。LLM judge 在 pairwise comparison 中更偏好训练后模型的比例。
LC-WR length-controlled win rate。用于削弱“更长回答看起来更好”的偏差。
Acc. 准确率。GPQA-Diamond / GSM8K 上使用标准 benchmark pipeline。
数据集规模。Generalist 是真实世界单轮 prompts;Expert 覆盖物理、化学、生物、数学。
数据集 Train samples Train rubrics Eval samples Eval rubrics 平均含义
Generalist Rubrics 1,500 15,528 487 5,003 约 10.4 条 rubrics / sample
Expert Rubrics 1,864 33,554 332 5,938 约 18.0 条 rubrics / sample
关键对照 1

Offline Rubrics Human

只用人工写好的静态 rubrics 训练。它是最重要 baseline,因为 OnlineRubrics 声称自己比静态人工标准更强。

关键对照 2

Universal Requirements

给所有样本加固定通用要求。这个对照测试“动态、样本相关”是否真的比统一 checklist 更有效。

关键对照 3

Pointwise Extraction

只看单个回答抽 rubric,不做 pairwise comparison。这个对照测试 pairwise 差异是否是方法核心。

05 · Results

结果怎么读?

headline claim “up to +8% over static rubrics”主要对应相对 human offline rubrics 的若干 win-rate 提升; “up to +25% over initial instruct model”则是相对 base Qwen 的提升。更应该关注的是它是否胜过 Universal Requirements 和 Pointwise Extraction。

AlpacaEval WR46.4 → 55.0

Offline Human 到 OnlineRubrics-πold,提升约 8.6 个百分点。这是最接近 X 帖子中“up to +8%”的直观例子。

Expert WR51.8 → 61.0

OnlineRubrics-πref 在 Expert Rubrics win rate 上明显高于静态人工 rubrics,说明动态 criteria 不只改善通用写作任务。

GPQA-D Acc.36.2 → 38.1

外部 reasoning benchmark 的提升方向一致,但幅度小。这里要谨慎,不应夸大成“显著解决推理”。

Instruction-following 结果。WR 是 win rate,LC-WR 是 length-controlled win rate。
Model Generalist Score Generalist WR AlpacaEval WR AlpacaEval LC-WR Arena-Hard WR
Qwen-2.5-7B-Instruct 55.4 39.0 30.0 28.2 50.0
+ Offline Rubrics Human-written 61.0 62.2 46.4 28.0 52.4
+ Universal Requirements 59.4 59.1 44.4 30.3 53.8
+ Pointwise Extraction 62.9 64.9 48.1 29.4 51.1
+ OnlineRubrics-πref 62.7 67.6 54.0 31.5 55.7
+ OnlineRubrics-πold 63.2 68.2 55.0 30.4 56.5
Expert / reasoning 结果。Acc. 是准确率。
Model Expert Score Expert WR GPQA-D Acc. GSM8K Acc.
Qwen-2.5-7B-Instruct 33.6 31.9 34.7 79.2
+ Offline Rubrics Human-written 39.2 51.8 36.2 79.9
+ Universal Requirements 39.7 53.3 36.6 80.1
+ Pointwise Extraction 40.9 57.1 33.6 78.3
+ OnlineRubrics-πref 41.4 61.0 37.6 80.0
+ OnlineRubrics-πold 41.5 56.5 38.1 80.5
06 · Insight

我怎么看这篇论文?

这篇论文最有价值的地方不是某个具体数字,而是提出了一种训练期间维护 reward specification 的工作流。 它把“写 rubric”从静态标注,变成针对模型实际行为的在线审计。

模型不是在优化“人类真正想要的东西”,而是在优化“当前 reward spec 里能被看见的东西”。OnlineRubrics 的贡献,是让 spec 也参与训练循环。

这解释了为什么 pairwise comparison 重要:它不是让 LLM 凭空想象好标准,而是从当前模型与 control model 的实际差异中寻找 reward blind spots。

工程启发:如果一个 RL post-training pipeline 已经依赖 rubrics,那么应该把“rubric 漏洞发现”作为训练监控的一部分,而不是等训练结束后人工做 error analysis。

方法定位:它不是通用 reward model,也不是替代 RLVR;它是开放式任务里对 reward criteria 的在线补丁系统。

最强证据:它不仅 beat 静态人工 rubrics,还 beat 统一 checklist 和 pointwise extraction,说明“样本相关 + pairwise 差异 + 在线更新”确实贡献了信息。

8.96%
Reproducibility & Transparency要求回答给出可复现的步骤、证据和推理轨迹。
8.33%
Practicality & Real-World Feasibility强调执行可行性、扩展性和真实环境约束。
7.69%
Holistic Evaluation & Anti-Gaming从机械 checklist 转向反投机、重实质质量的标准。
6.23%
Mechanistic & Causal Reasoning要求机制解释、因果链条和可验证推理,而不是表面描述。
07 · Limits

边界与风险

这篇论文值得关注,但不能过度解读。它证明了一个强 judge/extractor 辅助的 rubric-RL pipeline 有效, 还没有证明它是低成本、跨模型、跨领域稳定成立的通用 alignment 方法。

依赖强 LLM

不是无外部智能的自举

训练中用 GPT-4.1-mini 做 grader,用 o3-mini 做 extractor,内部评估还用 Gemini-2.5-Pro 做 judge。 所以这更像强模型指导弱模型的 post-training pipeline。若 grader/extractor 本身不懂领域,新 criteria 也会出问题。

成本明显

每步 reward 都更贵

每个样本 16 rollouts、8 对 pairwise comparisons,再加 rubric grading。它适合高价值 post-training, 不适合作为所有任务的默认轻量方案。

发现能力有限

只能从已出现差异里抽标准

如果 current 和 control 两个回答都漏了关键安全点,pairwise comparison 不一定能发现。 如果差异主要是风格,extractor 可能把风格偏好误写成 reward。

证据仍需扩展

OpenReview 主要质疑

审稿关注模型多样性不足、baseline 覆盖不够。我的理解是:方法方向有价值, 但还需要在不同模型尺寸、不同 extractor/grader、更多 reward model baseline 下验证。

实践建议:如果你要复用这个思想,不要一开始就照搬完整系统。 更现实的路径是:先在训练日志中定期抽样 current vs reference responses,做离线 pairwise rubric elicitation, 看新 criteria 是否真的能解释失败样本;确认有效后,再把它接入在线训练循环。

08 · Sources

来源与阅读路径

这份 HTML 主要根据 arXiv v2 PDF/HTML 整理;X 帖子只用于定位论文和理解作者宣传口径,不作为实验结论的主依据。