Harvey/Baseten：开放法律 Agent 后训练路线

01 · thesis

核心判断

Gabe Pereyra 这篇文章真正有价值的地方，是把垂直法律 agent 的训练问题从“给模型补法律知识”转成“让模型学会在法律工作环境里执行程序化任务”。法律任务的难点不只是知道某个条款、案例或概念，而是从 partner-style instruction 出发，在封闭 client matter 中判断哪些文件重要、读出关键事实、维护工作记忆、形成可审查交付物，并满足专家 rubric 的全部要求。

因此，文章里最重要的单位不是某个模型分数，而是一个闭环：benchmark 定义真实工作单元，harness 限定模型如何行动，rubric 负责评价与训练信号，post-training 让 open-weight model 学会执行这个工作流，compaction 解决长程法律任务的上下文管理。

用一句工程话概括：这不是“用法律数据微调一个模型”，而是“把法律任务做成可训练的 agent 环境”。这条路线对所有专业服务 agent 都有参考价值，包括合规、税务、投研、保险理赔和企业法务。

02 · context

问题背景

Harvey 的 Legal Agent Benchmark，也就是 LAB，试图评估 agent 能否完成真实法律工作，而不是短问答。每个任务包括短指令、一个闭域 client matter、相关文件和 reviewable work product 要求。输出由专家写的 rubric 判定，而且采用 all-pass grading：只要关键 criteria 有遗漏，整项任务就不能算真正完成。

这个设定和常见 legal QA benchmark 很不一样。Legal QA 通常测试“读一段材料，回答一个问题”；LAB 测试的是“面对一个真实工作包，先搞清楚任务、再从文件系统里建立事实背景，最后交付可复核的法律文档”。这使 LAB 更像 SWE-bench 之于 coding agent：它评估的是工具使用、上下文构建、长程行动和最终交付，而不是单点知识回忆。

任务从 partner-style instruction 开始，要求 agent 自行组织工作。

材料client matter 是 closed-universe 文件环境，包含关键和外围材料。

交付输出必须是 memo、analysis、risk mapping 等可审查 work product。

评价rubric 拆成事实、格式、引用、结论、建议等 binary criteria。

文章的出发点是：如果 LAB 真的捕捉了法律 agent 的关键能力，那么它不应该只被用来排名，也可以被用来训练。这个转换很重要，因为垂直行业 agent 的长期优势不只是访问私有数据，而是能不能把行业工作流转成持续改进模型和 harness 的闭环。

03 · mechanism

机制拆解

先观察强模型的工作策略

作者观察到，强闭源模型在 LAB 上更倾向于打开并完整阅读多数文件，弱 open-weight 模型则更依赖 grep 找片段。这个差异揭示了一个关键事实：法律 agent 的短板常常不是“不会说法律术语”，而是没有完整建立 matter context。

用 rubric reward 推动行为迁移

文章报告对 Qwen3.5-9B 做轻量 GRPO，reward 只来自 LAB rubric，没有显式奖励“多读文件”。结果模型行为从 grep-heavy 向 read-heavy 迁移：criterion pass rate 提升，grep 调用下降，read 工具成为主导。这里最有研究价值的是行为变化，而不只是最终分数。

用 compaction harness 管理长程上下文

法律 matter 可以包含大量合同、邮件、模板和背景文件。文章实现了一个朴素的自然语言 compaction harness：模型读几份文件后写 structured memo，记录事实、开放问题和临时判断，然后用 memo 替代旧上下文继续工作。强模型能从这个 harness 中获益，但 Qwen3.5-27B 起初不会写出足够有用的 memo。

用 iSFT 训练模型在 harness 中行动

作者随后用 Iterative SFT 训练 Qwen3.5-27B。训练数据来自 teacher 在 harness 中端到端完成任务，并过滤出 rubric-passing rollout。训练目标不是让模型记住答案，而是学会在同样的窗口、同样的工具和同样的 compaction 机制下行动。

把未来方向推向 KV cache compaction

文章认为自然语言 memo 有结构性上限，因为 summary 必然丢失细粒度事实。法律任务经常需要保留条款、金额、日期、例外条件和跨文件依赖。作者提出未来可研究 KV-cache-space compaction，用 latent 空间保存更多信息，并训练领域内压缩模块识别哪些细节真正重要。

04 · terms

术语解释

LAB

Legal Agent Benchmark，Harvey 开源的法律 agent benchmark。它把法律任务表示为指令、材料、工具环境、交付物和 expert rubric 的组合。

closed-universe matter

闭域客户事项，表示 agent 只能在给定文件和材料中工作。这个设定降低外部检索噪声，也更接近 law firm 中的 data room 或 matter file。

all-pass grading

一种更贴近法律审查的评价方式：不是按命中比例给部分分，而是要求关键 criteria 全部通过。漏掉一个重大风险，交付物就可能 materially incomplete。

compaction harness

长程任务里的上下文压缩机制。这里的朴素版本让 agent 周期性写 memo，把已读材料中的事实、疑问和判断压成可继续使用的工作记忆。

iSFT

Iterative SFT，通过筛选或修正高质量轨迹反复监督微调。文章中它被用来训练模型在法律 agent harness 中按正确形状行动。

private-mode submit

文章提出的失败轨迹恢复方式：不直接给 teacher 标准答案或 judge feedback，而是让 teacher 以自己的方式发现缺口，减少训练数据偏离 inference 环境。

05 · implications

工程启发

对垂直 agent 工程来说，这篇文章给出的路线比“换更强模型”更可操作。真正的能力增长来自任务环境、工具边界、训练数据和评价信号共同设计。只调 prompt 可能让 agent 更会说法律话术，但不一定能让它稳定完成长程工作。

层次	传统做法	文章暗示的做法	为什么重要
任务定义	短问答或单文件抽取	真实工作包：指令、matter、工具、交付物	评估 agent 是否能完成实际工作，而不是只回答片段问题。
评价信号	单一分数或人工主观判断	专家 rubric 拆成 atomic criteria	既能做 benchmark，也能转成训练信号和错误定位工具。
模型行为	看最终答案是否像法律文本	观察 read、grep、memo、tool call 等轨迹形状	长程 agent 的能力往往体现在过程，而不是只体现在末尾文本。
上下文管理	依赖长上下文窗口或一次性 summary	把 compaction 当成可训练、可评估的子系统	法律任务需要保留大量事实细节，压缩质量直接决定推理质量。
部署治理	闭源 frontier model 直接调用	open-weight model + 私有云 + 可审计 harness	法律行业对安全、审计和数据边界敏感，模型能力必须和治理要求同时满足。

如果要复制这条路线，顺序应该是：先定义真实任务，再写 rubric，然后建 harness，收集强轨迹，观察高质量策略，最后做 SFT/RL。不要反过来先训练模型，再临时找一个 benchmark 证明它有效。

06 · limits

边界与风险

结果仍需外部复现

文章中的训练结果主要来自作者报告。hold-out 构造、任务模板重合、teacher 质量、rubric 稳定性和 judge calibration 都需要更透明的外部验证。

Rubric 不等于真实法律质量

Rubric 能覆盖事实、格式、引用和建议，但高级法律判断还涉及客户偏好、风险承受能力、司法辖区差异和策略判断。

Compaction 可能固化错误

如果 memo 写错，后续推理会继承错误；如果 memo 太短，会漏掉未来才变重要的细节；如果太长，就没有真正解决上下文成本。

Private-mode submit 仍可能泄漏

即使不直接给标准答案，teacher 的二次修正过程也可能携带隐含 evaluator 信号。它比直接喂答案更合理，但不等于完全 on-policy。

KV cache compaction 的可解释性不足

Latent-space memory 可能提升容量，但法律交付物需要证据可追溯。不能解释为什么保留或丢弃某个事实，会带来治理风险。

后训练不能替代 retrieval grounding

法律变化、来源冲突、事实核验和 jurisdiction divergence 不是更会说法律话术就能解决的问题。

07 · evidence

证据边界与资料索引

本文以 Gabe Pereyra 发布的 X Article 为主材料，结合 Harvey 官方 LAB 介绍、Harvey LAB GitHub 仓库和原帖评论区做交叉理解。训练结果、模型排序和具体实验数字按作者文章陈述处理；尚未把它们视为已由独立第三方复现的结论。

Post-Training Open Legal Agents With Baseten Research Harvey 官方文章，Gabe Pereyra X Article 对应长文。 Gabe Pereyra 原始 X 帖原帖发布时间为 2026-05-27，正文入口为 X Article。 Introducing Harvey's Legal Agent Benchmark LAB 官方介绍，说明任务结构、实践领域、rubric 和 all-pass grading。 harveyai/harvey-labs LAB 开源仓库，包含任务数据、execution harness 和文档入口。 LAB Evaluation Methodology 评价方法文档，解释 rubric scoring 和 judge behavior。