Gabe Pereyra 这篇文章真正有价值的地方,是把垂直法律 agent 的训练问题从“给模型补法律知识”转成“让模型学会在法律工作环境里执行程序化任务”。法律任务的难点不只是知道某个条款、案例或概念,而是从 partner-style instruction 出发,在封闭 client matter 中判断哪些文件重要、读出关键事实、维护工作记忆、形成可审查交付物,并满足专家 rubric 的全部要求。
因此,文章里最重要的单位不是某个模型分数,而是一个闭环:benchmark 定义真实工作单元,harness 限定模型如何行动,rubric 负责评价与训练信号,post-training 让 open-weight model 学会执行这个工作流,compaction 解决长程法律任务的上下文管理。
用一句工程话概括:这不是“用法律数据微调一个模型”,而是“把法律任务做成可训练的 agent 环境”。这条路线对所有专业服务 agent 都有参考价值,包括合规、税务、投研、保险理赔和企业法务。