OnlineRubrics 论文深读与 Insight

01 · Problem

论文到底在解决什么问题？

论文站在 RLHF、RLVR 和 rubric-based reward 的交界处。它认为当前 post-training 的瓶颈不只是“有没有 reward”，而是 reward criteria 是否能跟随模型行为变化。

核心矛盾：开放式长回答没有像数学答案或代码单测那样的 verifiable reward；人类偏好又太粗。 Rubrics 可以提供更细的 reward，但静态 rubrics 会在训练过程中被模型绕开。

RLHF

人类偏好信号粗

RLHF 通过偏好比较学习 reward，但偏好通常只告诉你 A 比 B 好，不会精确告诉模型“是哪一条标准被满足或违反”。对长文本、专家任务、开放式咨询来说，单一偏好信号很难变成可诊断的训练反馈。

RLVR

可验证奖励太窄

RLVR 在数学、代码、选择题上很好用，因为答案可以自动检查。但很多任务没有唯一答案：例如化学合成建议、金融解释、研究分析、长文写作，不能只靠 exact match。

Rubrics

静态评分表会过期

Rubrics 把“好回答”拆成一组加权 criteria。但如果 criteria 在训练前固定，模型训练中出现的新漏洞、新风格偏差、新投机策略就可能不在表里。

02 · Method

OnlineRubrics 是怎么做的？

它不是替换 GRPO，也不是训练一个全新的 reward model，而是在每个训练 step 中动态扩展 prompt-specific rubrics。关键动作是：比较当前 policy 和 control policy 的回答，抽取原 rubric 未覆盖的新 criteria。

从原始 rubric 开始

每个 prompt 自带一组 offline criteria：人工写或合成。每条 criterion 都有权重，通常是二值可检查的要求。

采样两组回答

对同一个 prompt，从当前 policy 采样回答，也从 control policy 采样回答。control 可以是 reference model 或旧 policy。

抽取差异标准

LLM extractor 先找两条回答的 meaningful differences，再把差异转成新的评价 criteria，并赋予权重。

增强 reward 再更新

新 criteria 去重后加入原 rubric，用 LLM grader 打分，得到 reward，再用 GRPO 更新 policy。

Prompt + Offline Rubric

例如“如何检测反应中是否有 CO2？” 原 rubric 只写“提到石灰水变浑浊”。

→

Pairwise Responses

当前模型和 control model 各生成回答。差异可能暴露出“回答是否说明该反应对 CO2 的特异性”。

→

Elicited Criteria

把差异写成新 criterion：回答应说明该测试为何指向 CO2；回答不应加入无关但貌似专业的细节。

Rubric reward 的基本形式

reward = weighted_sum(binary_grades) / sum(positive_weights)

LLM grader 对每条 criterion 输出 0/1，然后按权重合成标量 reward。OnlineRubrics 改变的不是这个 reduction，而是进入 grader 的 criteria 集合：从静态的 C_i 变成 C_i ∪ C_i^e。

03 · Training

训练循环与数据流

这部分最容易被误读。论文的 RL 算法是 GRPO；OnlineRubrics 的位置是在 reward construction 里。它让 reward 在训练过程中随 rollouts 更新，而不是在训练前一次性写死。

GRPO 里的 reward 怎么用？

对同一个 prompt 生成一组 responses，分别用 rubric reward 打分，得到 R_1...R_G。然后用组内均值和标准差归一化成 advantage：

A_j = (R_j - mean(R)) / std(R)

这意味着模型不是只看绝对分数，而是看同一 prompt 下哪个 rollout 比同组其他 rollout 更好。

OnlineRubrics 插在哪里？

在计算 reward 前，它先用 current policy 和 control policy 的回答差异生成新 criteria。然后 grader 用增强后的 rubric 给当前 rollouts 打分。也就是说，policy 每发生一轮变化， reward spec 都有机会被重新检查。

论文报告的关键训练设置。这里不是最优配置搜索，而是用于验证 OnlineRubrics 机制的实验设置。
项目	设置	含义
Base policy	Qwen-2.5-7B-Instruct	一个 7B instruct model，用来测试 rubrics reward 是否能继续提升。
RL algorithm	GRPO，3 epochs	OnlineRubrics 不替换策略优化算法，只改变 reward criteria 的构造。
Rollouts	每个样本 16 个 rollouts	用于组内 advantage 估计，也为 pairwise elicitation 提供候选回答。
Grader	GPT-4.1-mini	判断每条 criterion 是否满足，输出 binary grades。
Extractor	o3-mini，8 对 pairwise comparisons	从 current/control responses 的差异中生成新 criteria。
Optimization	LR 5e-6，warmup 0.1，KL coefficient 0.01	常规 RL 稳定化设置，KL 限制 policy 偏离 reference 过远。
Hardware	8 NVIDIA H100，effective batch size 96	说明该方法有明显 inference/training 成本，不是轻量后处理。

04 · Evaluation

到底评估了什么？

论文评估的是文本回答质量：内部用 held-out rubrics set，看 score 和 win rate；外部用 AlpacaEval、Arena-Hard、GPQA-Diamond、GSM8K。这不是多轮聊天能力评估，也不是最终用户满意度实验。

Score rubric 加权满足率。回答满足多少条 criteria，并按权重合成。

WR win rate。LLM judge 在 pairwise comparison 中更偏好训练后模型的比例。

LC-WR length-controlled win rate。用于削弱“更长回答看起来更好”的偏差。

Acc. 准确率。GPQA-Diamond / GSM8K 上使用标准 benchmark pipeline。

数据集规模。Generalist 是真实世界单轮 prompts；Expert 覆盖物理、化学、生物、数学。
数据集	Train samples	Train rubrics	Eval samples	Eval rubrics	平均含义
Generalist Rubrics	1,500	15,528	487	5,003	约 10.4 条 rubrics / sample
Expert Rubrics	1,864	33,554	332	5,938	约 18.0 条 rubrics / sample

关键对照 1

Offline Rubrics Human

只用人工写好的静态 rubrics 训练。它是最重要 baseline，因为 OnlineRubrics 声称自己比静态人工标准更强。

关键对照 2

Universal Requirements

给所有样本加固定通用要求。这个对照测试“动态、样本相关”是否真的比统一 checklist 更有效。

关键对照 3

Pointwise Extraction

只看单个回答抽 rubric，不做 pairwise comparison。这个对照测试 pairwise 差异是否是方法核心。

05 · Results

结果怎么读？

headline claim “up to +8% over static rubrics”主要对应相对 human offline rubrics 的若干 win-rate 提升； “up to +25% over initial instruct model”则是相对 base Qwen 的提升。更应该关注的是它是否胜过 Universal Requirements 和 Pointwise Extraction。

AlpacaEval WR46.4 → 55.0

Offline Human 到 OnlineRubrics-πold，提升约 8.6 个百分点。这是最接近 X 帖子中“up to +8%”的直观例子。

Expert WR51.8 → 61.0

OnlineRubrics-πref 在 Expert Rubrics win rate 上明显高于静态人工 rubrics，说明动态 criteria 不只改善通用写作任务。

GPQA-D Acc.36.2 → 38.1

外部 reasoning benchmark 的提升方向一致，但幅度小。这里要谨慎，不应夸大成“显著解决推理”。

Instruction-following 结果。WR 是 win rate，LC-WR 是 length-controlled win rate。
Model	Generalist Score	Generalist WR	AlpacaEval WR	AlpacaEval LC-WR	Arena-Hard WR
Qwen-2.5-7B-Instruct	55.4	39.0	30.0	28.2	50.0
+ Offline Rubrics Human-written	61.0	62.2	46.4	28.0	52.4
+ Universal Requirements	59.4	59.1	44.4	30.3	53.8
+ Pointwise Extraction	62.9	64.9	48.1	29.4	51.1
+ OnlineRubrics-πref	62.7	67.6	54.0	31.5	55.7
+ OnlineRubrics-πold	63.2	68.2	55.0	30.4	56.5

Expert / reasoning 结果。Acc. 是准确率。
Model	Expert Score	Expert WR	GPQA-D Acc.	GSM8K Acc.
Qwen-2.5-7B-Instruct	33.6	31.9	34.7	79.2
+ Offline Rubrics Human-written	39.2	51.8	36.2	79.9
+ Universal Requirements	39.7	53.3	36.6	80.1
+ Pointwise Extraction	40.9	57.1	33.6	78.3
+ OnlineRubrics-πref	41.4	61.0	37.6	80.0
+ OnlineRubrics-πold	41.5	56.5	38.1	80.5

06 · Insight

我怎么看这篇论文？

这篇论文最有价值的地方不是某个具体数字，而是提出了一种训练期间维护 reward specification 的工作流。它把“写 rubric”从静态标注，变成针对模型实际行为的在线审计。

模型不是在优化“人类真正想要的东西”，而是在优化“当前 reward spec 里能被看见的东西”。OnlineRubrics 的贡献，是让 spec 也参与训练循环。

这解释了为什么 pairwise comparison 重要：它不是让 LLM 凭空想象好标准，而是从当前模型与 control model 的实际差异中寻找 reward blind spots。

工程启发：如果一个 RL post-training pipeline 已经依赖 rubrics，那么应该把“rubric 漏洞发现”作为训练监控的一部分，而不是等训练结束后人工做 error analysis。

方法定位：它不是通用 reward model，也不是替代 RLVR；它是开放式任务里对 reward criteria 的在线补丁系统。

最强证据：它不仅 beat 静态人工 rubrics，还 beat 统一 checklist 和 pointwise extraction，说明“样本相关 + pairwise 差异 + 在线更新”确实贡献了信息。

8.96%

Reproducibility & Transparency要求回答给出可复现的步骤、证据和推理轨迹。

8.33%

Practicality & Real-World Feasibility强调执行可行性、扩展性和真实环境约束。

7.69%

Holistic Evaluation & Anti-Gaming从机械 checklist 转向反投机、重实质质量的标准。

6.23%

Mechanistic & Causal Reasoning要求机制解释、因果链条和可验证推理，而不是表面描述。

07 · Limits

边界与风险

这篇论文值得关注，但不能过度解读。它证明了一个强 judge/extractor 辅助的 rubric-RL pipeline 有效，还没有证明它是低成本、跨模型、跨领域稳定成立的通用 alignment 方法。

依赖强 LLM

不是无外部智能的自举

训练中用 GPT-4.1-mini 做 grader，用 o3-mini 做 extractor，内部评估还用 Gemini-2.5-Pro 做 judge。所以这更像强模型指导弱模型的 post-training pipeline。若 grader/extractor 本身不懂领域，新 criteria 也会出问题。

成本明显

每步 reward 都更贵

每个样本 16 rollouts、8 对 pairwise comparisons，再加 rubric grading。它适合高价值 post-training，不适合作为所有任务的默认轻量方案。

发现能力有限

只能从已出现差异里抽标准

如果 current 和 control 两个回答都漏了关键安全点，pairwise comparison 不一定能发现。如果差异主要是风格，extractor 可能把风格偏好误写成 reward。

证据仍需扩展

OpenReview 主要质疑

审稿关注模型多样性不足、baseline 覆盖不够。我的理解是：方法方向有价值，但还需要在不同模型尺寸、不同 extractor/grader、更多 reward model baseline 下验证。

实践建议：如果你要复用这个思想，不要一开始就照搬完整系统。更现实的路径是：先在训练日志中定期抽样 current vs reference responses，做离线 pairwise rubric elicitation，看新 criteria 是否真的能解释失败样本；确认有效后，再把它接入在线训练循环。

术语解释与概念边界

Rubric: 把“回答好不好”拆成可检查的标准，例如是否覆盖事实、是否遵守安全约束、是否解释原因。
Online rubric generation: 训练中根据当前模型和对照回答动态生成评分标准，而不是预先写死一套静态规则。
Pairwise comparison: 让评审器比较两个回答谁更好，再从差异里提取标准；它比单独打分更容易暴露偏好依据。
Reward hacking: 模型学会迎合评分规则而不真正提升质量。rubric 越自动化，越需要监控这一风险。

08 · Sources

来源与阅读路径

这份 HTML 主要根据 arXiv v2 PDF/HTML 整理；X 帖子只用于定位论文和理解作者宣传口径，不作为实验结论的主依据。

arXiv abstract / PDF https://arxiv.org/abs/2510.07284
arXiv HTML https://arxiv.org/html/2510.07284v2
OpenReview submission https://openreview.net/forum?id=ebgsbC4x5W
Scale Labs paper page https://scale.com/research/onlinerubrics
Bing Liu X thread https://x.com/vbingliu/status/1976328499960197144

Online Rubrics Elicitation from Pairwise Comparisons

论文到底在解决什么问题？

人类偏好信号粗

可验证奖励太窄

静态评分表会过期

OnlineRubrics 是怎么做的？

从原始 rubric 开始

采样两组回答

抽取差异标准

增强 reward 再更新

Prompt + Offline Rubric

Pairwise Responses

Elicited Criteria

Rubric reward 的基本形式

训练循环与数据流

GRPO 里的 reward 怎么用？

OnlineRubrics 插在哪里？

到底评估了什么？

Offline Rubrics Human

Universal Requirements

Pointwise Extraction

结果怎么读？

我怎么看这篇论文？

边界与风险

不是无外部智能的自举

每步 reward 都更贵

只能从已出现差异里抽标准

OpenReview 主要质疑

术语解释与概念边界

来源与阅读路径