Harvey 开源法律 Agent Benchmark：1,200+ 任务覆盖 24 个法律实践领域

Harvey 开源了法律 Agent Benchmark（LAB），一个用于评估和改进法律领域 Agent 能力的开源 benchmark。

为什么需要法律 Agent Benchmark

在编程领域，Agent benchmark（SWE-bench、Terminal-Bench 等）已经成为能力提升的重要领先指标。Karpathy 观察到编码 Agent 达到"超越人类水平"的时刻，与 benchmark 分数跃升的时间点吻合。

这个模式正在向编程以外扩展——通用任务、工具使用、财务分析、前沿推理、专业服务任务都有对应的 benchmark。

LAB 的目标是：为寻求部署 AI 的律所提供同样的可衡量指标。

LAB 的设计镜像了律所实际交付法律工作的方式，每个步骤都有对应的 Agent 执行和评估流程：

Instructions（指令）：Agent 的指令以合伙人对 associate 的工作请求形式编写。要求以肯定语句说明需要什么，而不是详细解释预期输出或风格。

Environment（环境）：Agent 的环境是一个 client matter。client matter 定义了完成代表客户工作所需的封闭文档集合——matter 文件、事务所模板、电子邮件通信、以及 Agent 必须发现和分类的其他信息。

Output（产出）：Agent 必须产生供审查的可交付法律工作产品。

Verification（验证）：Agent 的工作由专家评分标准评判，概述正确答案必须在格式、事实和分析方面产生的内容。这些标准模拟了工作产品在交给合伙人和客户时受到的审查。

以公司 M&A 任务为例：要求 Agent 分析 Aldersgate Software Solutions 收购案中的控制权变更条款（4.58 亿美元 100% 股权交易）。

Agent 获得的输入：一个包含交易背景文件的文件系统、一个虚拟数据室、以及合伙人要求 Agent 审查数据室、识别控制权变更条款、评估交易风险、推荐后续步骤、并为交易团队和董事会准备一份可直接审查的备忘录。

数据室包含相关文档混合物——包括八份重大合同和其他相邻材料（如 10-K、递延薪酬计划等），这些材料可能与分析相关或无关。Agent 必须确定哪些文件重要、在上下文中阅读它们、并跨完整 matter 综合相关条款。

所需产出是一份可直接审查的交易团队备忘录，必须包括执行摘要（含风险映射）、逐合同条款分析、严重程度评级、以及关于如何减轻每个已识别风险的建议。

当 Agent 完成任务，最终产出根据专家评分标准进行评判。每个评分标准将利益相关者在提交的可交付成果中会仔细检查的内容分解为原子化的二元通过/失败标准：事实、结论、引用、严重程度评级、建议、截止日期、美元金额和格式选择。

关键：任务只有在每条标准都通过时才标记为完成——这称为 all-pass grading。

一份识别出十个风险中八个的交易团队报告，不是 80% 有用，是实质上不完整。遗漏的问题可能改变交易经济状况、需要关闭前重做分析、或在交易关闭后浮出水面。

All-pass grading 反映了高风险法律工作在实践中的审查方式——没有针对大部分问题的部分信用。

控制权变更任务的评分标准包含 57 条标准，涵盖嵌入 matter 的九个法律问题。每个问题分解为四到九条标准，涵盖底层事实、严重程度评级、财务敞口和推荐行动。

LAB 第一版包括超过 1,200 个 Agent 任务，覆盖 24 个法律实践领域，由超过 75,000 条专家编写的评分标准评估。

24 个实践领域代表了交易、咨询、监管和诉讼工作的代表性集合——associate 定期遇到的典型任务类型。

LAB 是 Harvey 第一个完全开源的 benchmark。他们希望模型提供商、创业公司、研究人员、法律 AI 公司和律所都能运行这个 benchmark、审计评分标准、改进 harness、贡献新的任务族、帮助定义法律 Agent 评估下一步应该衡量什么。

在接下来几周，将分享在 LAB 上对各种模型和 Agent 的初步结果 benchmark。