Tech Analysis · Legal Agent

Harvey/Baseten:开放法律 Agent 后训练路线

这篇文章的重点不是又发布了一个法律榜单,而是把法律 benchmark 改造成后训练环境:用真实法律工作单元、闭域材料、expert rubric、agent harness 和长程轨迹,训练模型学会在法律工作流里检索、压缩、推理和交付。

01 · thesis

核心判断

Gabe Pereyra 这篇文章真正有价值的地方,是把垂直法律 agent 的训练问题从“给模型补法律知识”转成“让模型学会在法律工作环境里执行程序化任务”。法律任务的难点不只是知道某个条款、案例或概念,而是从 partner-style instruction 出发,在封闭 client matter 中判断哪些文件重要、读出关键事实、维护工作记忆、形成可审查交付物,并满足专家 rubric 的全部要求。

因此,文章里最重要的单位不是某个模型分数,而是一个闭环:benchmark 定义真实工作单元,harness 限定模型如何行动,rubric 负责评价与训练信号,post-training 让 open-weight model 学会执行这个工作流,compaction 解决长程法律任务的上下文管理

用一句工程话概括:这不是“用法律数据微调一个模型”,而是“把法律任务做成可训练的 agent 环境”。这条路线对所有专业服务 agent 都有参考价值,包括合规、税务、投研、保险理赔和企业法务。

02 · context

问题背景

Harvey 的 Legal Agent Benchmark,也就是 LAB,试图评估 agent 能否完成真实法律工作,而不是短问答。每个任务包括短指令、一个闭域 client matter、相关文件和 reviewable work product 要求。输出由专家写的 rubric 判定,而且采用 all-pass grading:只要关键 criteria 有遗漏,整项任务就不能算真正完成。

这个设定和常见 legal QA benchmark 很不一样。Legal QA 通常测试“读一段材料,回答一个问题”;LAB 测试的是“面对一个真实工作包,先搞清楚任务、再从文件系统里建立事实背景,最后交付可复核的法律文档”。这使 LAB 更像 SWE-bench 之于 coding agent:它评估的是工具使用、上下文构建、长程行动和最终交付,而不是单点知识回忆。

任务从 partner-style instruction 开始,要求 agent 自行组织工作。
材料client matter 是 closed-universe 文件环境,包含关键和外围材料。
交付输出必须是 memo、analysis、risk mapping 等可审查 work product。
评价rubric 拆成事实、格式、引用、结论、建议等 binary criteria。

文章的出发点是:如果 LAB 真的捕捉了法律 agent 的关键能力,那么它不应该只被用来排名,也可以被用来训练。这个转换很重要,因为垂直行业 agent 的长期优势不只是访问私有数据,而是能不能把行业工作流转成持续改进模型和 harness 的闭环。

03 · mechanism

机制拆解

先观察强模型的工作策略

作者观察到,强闭源模型在 LAB 上更倾向于打开并完整阅读多数文件,弱 open-weight 模型则更依赖 grep 找片段。这个差异揭示了一个关键事实:法律 agent 的短板常常不是“不会说法律术语”,而是没有完整建立 matter context。

用 rubric reward 推动行为迁移

文章报告对 Qwen3.5-9B 做轻量 GRPO,reward 只来自 LAB rubric,没有显式奖励“多读文件”。结果模型行为从 grep-heavy 向 read-heavy 迁移:criterion pass rate 提升,grep 调用下降,read 工具成为主导。这里最有研究价值的是行为变化,而不只是最终分数。

用 compaction harness 管理长程上下文

法律 matter 可以包含大量合同、邮件、模板和背景文件。文章实现了一个朴素的自然语言 compaction harness:模型读几份文件后写 structured memo,记录事实、开放问题和临时判断,然后用 memo 替代旧上下文继续工作。强模型能从这个 harness 中获益,但 Qwen3.5-27B 起初不会写出足够有用的 memo。

用 iSFT 训练模型在 harness 中行动

作者随后用 Iterative SFT 训练 Qwen3.5-27B。训练数据来自 teacher 在 harness 中端到端完成任务,并过滤出 rubric-passing rollout。训练目标不是让模型记住答案,而是学会在同样的窗口、同样的工具和同样的 compaction 机制下行动。

把未来方向推向 KV cache compaction

文章认为自然语言 memo 有结构性上限,因为 summary 必然丢失细粒度事实。法律任务经常需要保留条款、金额、日期、例外条件和跨文件依赖。作者提出未来可研究 KV-cache-space compaction,用 latent 空间保存更多信息,并训练领域内压缩模块识别哪些细节真正重要。

04 · terms

术语解释

LAB

Legal Agent Benchmark,Harvey 开源的法律 agent benchmark。它把法律任务表示为指令、材料、工具环境、交付物和 expert rubric 的组合。

closed-universe matter

闭域客户事项,表示 agent 只能在给定文件和材料中工作。这个设定降低外部检索噪声,也更接近 law firm 中的 data room 或 matter file。

all-pass grading

一种更贴近法律审查的评价方式:不是按命中比例给部分分,而是要求关键 criteria 全部通过。漏掉一个重大风险,交付物就可能 materially incomplete。

compaction harness

长程任务里的上下文压缩机制。这里的朴素版本让 agent 周期性写 memo,把已读材料中的事实、疑问和判断压成可继续使用的工作记忆。

iSFT

Iterative SFT,通过筛选或修正高质量轨迹反复监督微调。文章中它被用来训练模型在法律 agent harness 中按正确形状行动。

private-mode submit

文章提出的失败轨迹恢复方式:不直接给 teacher 标准答案或 judge feedback,而是让 teacher 以自己的方式发现缺口,减少训练数据偏离 inference 环境。

05 · implications

工程启发

对垂直 agent 工程来说,这篇文章给出的路线比“换更强模型”更可操作。真正的能力增长来自任务环境、工具边界、训练数据和评价信号共同设计。只调 prompt 可能让 agent 更会说法律话术,但不一定能让它稳定完成长程工作。

层次 传统做法 文章暗示的做法 为什么重要
任务定义 短问答或单文件抽取 真实工作包:指令、matter、工具、交付物 评估 agent 是否能完成实际工作,而不是只回答片段问题。
评价信号 单一分数或人工主观判断 专家 rubric 拆成 atomic criteria 既能做 benchmark,也能转成训练信号和错误定位工具。
模型行为 看最终答案是否像法律文本 观察 read、grep、memo、tool call 等轨迹形状 长程 agent 的能力往往体现在过程,而不是只体现在末尾文本。
上下文管理 依赖长上下文窗口或一次性 summary 把 compaction 当成可训练、可评估的子系统 法律任务需要保留大量事实细节,压缩质量直接决定推理质量。
部署治理 闭源 frontier model 直接调用 open-weight model + 私有云 + 可审计 harness 法律行业对安全、审计和数据边界敏感,模型能力必须和治理要求同时满足。

如果要复制这条路线,顺序应该是:先定义真实任务,再写 rubric,然后建 harness,收集强轨迹,观察高质量策略,最后做 SFT/RL。不要反过来先训练模型,再临时找一个 benchmark 证明它有效。

06 · limits

边界与风险

结果仍需外部复现

文章中的训练结果主要来自作者报告。hold-out 构造、任务模板重合、teacher 质量、rubric 稳定性和 judge calibration 都需要更透明的外部验证。

Rubric 不等于真实法律质量

Rubric 能覆盖事实、格式、引用和建议,但高级法律判断还涉及客户偏好、风险承受能力、司法辖区差异和策略判断。

Compaction 可能固化错误

如果 memo 写错,后续推理会继承错误;如果 memo 太短,会漏掉未来才变重要的细节;如果太长,就没有真正解决上下文成本。

Private-mode submit 仍可能泄漏

即使不直接给标准答案,teacher 的二次修正过程也可能携带隐含 evaluator 信号。它比直接喂答案更合理,但不等于完全 on-policy。

KV cache compaction 的可解释性不足

Latent-space memory 可能提升容量,但法律交付物需要证据可追溯。不能解释为什么保留或丢弃某个事实,会带来治理风险。

后训练不能替代 retrieval grounding

法律变化、来源冲突、事实核验和 jurisdiction divergence 不是更会说法律话术就能解决的问题。