人类偏好信号粗
RLHF 通过偏好比较学习 reward,但偏好通常只告诉你 A 比 B 好,不会精确告诉模型“是哪一条标准被满足或违反”。 对长文本、专家任务、开放式咨询来说,单一偏好信号很难变成可诊断的训练反馈。
这篇论文讨论的不是“再写一份更好的静态评分表”,而是把 rubric 变成训练过程里会自我更新的 reward specification: 模型一边用 rubrics 做强化学习,一边从当前模型与 control model 的回答差异中抽取新标准,再把这些标准加回 reward。
论文站在 RLHF、RLVR 和 rubric-based reward 的交界处。它认为当前 post-training 的瓶颈不只是“有没有 reward”,而是 reward criteria 是否能跟随模型行为变化。
核心矛盾:开放式长回答没有像数学答案或代码单测那样的 verifiable reward;人类偏好又太粗。 Rubrics 可以提供更细的 reward,但静态 rubrics 会在训练过程中被模型绕开。
RLHF 通过偏好比较学习 reward,但偏好通常只告诉你 A 比 B 好,不会精确告诉模型“是哪一条标准被满足或违反”。 对长文本、专家任务、开放式咨询来说,单一偏好信号很难变成可诊断的训练反馈。
RLVR 在数学、代码、选择题上很好用,因为答案可以自动检查。但很多任务没有唯一答案: 例如化学合成建议、金融解释、研究分析、长文写作,不能只靠 exact match。
Rubrics 把“好回答”拆成一组加权 criteria。但如果 criteria 在训练前固定,模型训练中出现的新漏洞、新风格偏差、新投机策略就可能不在表里。
它不是替换 GRPO,也不是训练一个全新的 reward model,而是在每个训练 step 中动态扩展 prompt-specific rubrics。 关键动作是:比较当前 policy 和 control policy 的回答,抽取原 rubric 未覆盖的新 criteria。
每个 prompt 自带一组 offline criteria:人工写或合成。每条 criterion 都有权重,通常是二值可检查的要求。
对同一个 prompt,从当前 policy 采样回答,也从 control policy 采样回答。control 可以是 reference model 或旧 policy。
LLM extractor 先找两条回答的 meaningful differences,再把差异转成新的评价 criteria,并赋予权重。
新 criteria 去重后加入原 rubric,用 LLM grader 打分,得到 reward,再用 GRPO 更新 policy。
例如“如何检测反应中是否有 CO2?” 原 rubric 只写“提到石灰水变浑浊”。
当前模型和 control model 各生成回答。差异可能暴露出“回答是否说明该反应对 CO2 的特异性”。
把差异写成新 criterion:回答应说明该测试为何指向 CO2;回答不应加入无关但貌似专业的细节。
LLM grader 对每条 criterion 输出 0/1,然后按权重合成标量 reward。OnlineRubrics 改变的不是这个 reduction,
而是进入 grader 的 criteria 集合:从静态的 C_i 变成 C_i ∪ C_i^e。
这部分最容易被误读。论文的 RL 算法是 GRPO;OnlineRubrics 的位置是在 reward construction 里。 它让 reward 在训练过程中随 rollouts 更新,而不是在训练前一次性写死。
对同一个 prompt 生成一组 responses,分别用 rubric reward 打分,得到 R_1...R_G。
然后用组内均值和标准差归一化成 advantage:
这意味着模型不是只看绝对分数,而是看同一 prompt 下哪个 rollout 比同组其他 rollout 更好。
在计算 reward 前,它先用 current policy 和 control policy 的回答差异生成新 criteria。 然后 grader 用增强后的 rubric 给当前 rollouts 打分。也就是说,policy 每发生一轮变化, reward spec 都有机会被重新检查。
| 项目 | 设置 | 含义 |
|---|---|---|
| Base policy | Qwen-2.5-7B-Instruct | 一个 7B instruct model,用来测试 rubrics reward 是否能继续提升。 |
| RL algorithm | GRPO,3 epochs | OnlineRubrics 不替换策略优化算法,只改变 reward criteria 的构造。 |
| Rollouts | 每个样本 16 个 rollouts | 用于组内 advantage 估计,也为 pairwise elicitation 提供候选回答。 |
| Grader | GPT-4.1-mini | 判断每条 criterion 是否满足,输出 binary grades。 |
| Extractor | o3-mini,8 对 pairwise comparisons | 从 current/control responses 的差异中生成新 criteria。 |
| Optimization | LR 5e-6,warmup 0.1,KL coefficient 0.01 | 常规 RL 稳定化设置,KL 限制 policy 偏离 reference 过远。 |
| Hardware | 8 NVIDIA H100,effective batch size 96 | 说明该方法有明显 inference/training 成本,不是轻量后处理。 |
论文评估的是文本回答质量:内部用 held-out rubrics set,看 score 和 win rate;外部用 AlpacaEval、Arena-Hard、GPQA-Diamond、GSM8K。 这不是多轮聊天能力评估,也不是最终用户满意度实验。
| 数据集 | Train samples | Train rubrics | Eval samples | Eval rubrics | 平均含义 |
|---|---|---|---|---|---|
| Generalist Rubrics | 1,500 | 15,528 | 487 | 5,003 | 约 10.4 条 rubrics / sample |
| Expert Rubrics | 1,864 | 33,554 | 332 | 5,938 | 约 18.0 条 rubrics / sample |
只用人工写好的静态 rubrics 训练。它是最重要 baseline,因为 OnlineRubrics 声称自己比静态人工标准更强。
给所有样本加固定通用要求。这个对照测试“动态、样本相关”是否真的比统一 checklist 更有效。
只看单个回答抽 rubric,不做 pairwise comparison。这个对照测试 pairwise 差异是否是方法核心。
headline claim “up to +8% over static rubrics”主要对应相对 human offline rubrics 的若干 win-rate 提升; “up to +25% over initial instruct model”则是相对 base Qwen 的提升。更应该关注的是它是否胜过 Universal Requirements 和 Pointwise Extraction。
Offline Human 到 OnlineRubrics-πold,提升约 8.6 个百分点。这是最接近 X 帖子中“up to +8%”的直观例子。
OnlineRubrics-πref 在 Expert Rubrics win rate 上明显高于静态人工 rubrics,说明动态 criteria 不只改善通用写作任务。
外部 reasoning benchmark 的提升方向一致,但幅度小。这里要谨慎,不应夸大成“显著解决推理”。
| Model | Generalist Score | Generalist WR | AlpacaEval WR | AlpacaEval LC-WR | Arena-Hard WR |
|---|---|---|---|---|---|
| Qwen-2.5-7B-Instruct | 55.4 | 39.0 | 30.0 | 28.2 | 50.0 |
| + Offline Rubrics Human-written | 61.0 | 62.2 | 46.4 | 28.0 | 52.4 |
| + Universal Requirements | 59.4 | 59.1 | 44.4 | 30.3 | 53.8 |
| + Pointwise Extraction | 62.9 | 64.9 | 48.1 | 29.4 | 51.1 |
| + OnlineRubrics-πref | 62.7 | 67.6 | 54.0 | 31.5 | 55.7 |
| + OnlineRubrics-πold | 63.2 | 68.2 | 55.0 | 30.4 | 56.5 |
| Model | Expert Score | Expert WR | GPQA-D Acc. | GSM8K Acc. |
|---|---|---|---|---|
| Qwen-2.5-7B-Instruct | 33.6 | 31.9 | 34.7 | 79.2 |
| + Offline Rubrics Human-written | 39.2 | 51.8 | 36.2 | 79.9 |
| + Universal Requirements | 39.7 | 53.3 | 36.6 | 80.1 |
| + Pointwise Extraction | 40.9 | 57.1 | 33.6 | 78.3 |
| + OnlineRubrics-πref | 41.4 | 61.0 | 37.6 | 80.0 |
| + OnlineRubrics-πold | 41.5 | 56.5 | 38.1 | 80.5 |
这篇论文最有价值的地方不是某个具体数字,而是提出了一种训练期间维护 reward specification 的工作流。 它把“写 rubric”从静态标注,变成针对模型实际行为的在线审计。
模型不是在优化“人类真正想要的东西”,而是在优化“当前 reward spec 里能被看见的东西”。OnlineRubrics 的贡献,是让 spec 也参与训练循环。
这解释了为什么 pairwise comparison 重要:它不是让 LLM 凭空想象好标准,而是从当前模型与 control model 的实际差异中寻找 reward blind spots。工程启发:如果一个 RL post-training pipeline 已经依赖 rubrics,那么应该把“rubric 漏洞发现”作为训练监控的一部分,而不是等训练结束后人工做 error analysis。
方法定位:它不是通用 reward model,也不是替代 RLVR;它是开放式任务里对 reward criteria 的在线补丁系统。
最强证据:它不仅 beat 静态人工 rubrics,还 beat 统一 checklist 和 pointwise extraction,说明“样本相关 + pairwise 差异 + 在线更新”确实贡献了信息。
这篇论文值得关注,但不能过度解读。它证明了一个强 judge/extractor 辅助的 rubric-RL pipeline 有效, 还没有证明它是低成本、跨模型、跨领域稳定成立的通用 alignment 方法。
训练中用 GPT-4.1-mini 做 grader,用 o3-mini 做 extractor,内部评估还用 Gemini-2.5-Pro 做 judge。 所以这更像强模型指导弱模型的 post-training pipeline。若 grader/extractor 本身不懂领域,新 criteria 也会出问题。
每个样本 16 rollouts、8 对 pairwise comparisons,再加 rubric grading。它适合高价值 post-training, 不适合作为所有任务的默认轻量方案。
如果 current 和 control 两个回答都漏了关键安全点,pairwise comparison 不一定能发现。 如果差异主要是风格,extractor 可能把风格偏好误写成 reward。
审稿关注模型多样性不足、baseline 覆盖不够。我的理解是:方法方向有价值, 但还需要在不同模型尺寸、不同 extractor/grader、更多 reward model baseline 下验证。
实践建议:如果你要复用这个思想,不要一开始就照搬完整系统。 更现实的路径是:先在训练日志中定期抽样 current vs reference responses,做离线 pairwise rubric elicitation, 看新 criteria 是否真的能解释失败样本;确认有效后,再把它接入在线训练循环。
这份 HTML 主要根据 arXiv v2 PDF/HTML 整理;X 帖子只用于定位论文和理解作者宣传口径,不作为实验结论的主依据。