开放-封闭模型差距：一个数字掩盖的复杂动态

Interconnects 创始人 Nathan Lambert 在 2026 年 4 月 20 日发布了一篇分析文章，核心问题是：开放模型和封闭模型之间的差距，为什么不是一个简单的数字能说清楚的？

一个数字掩盖的结构性问题

目前最常被引用的开放-封闭差距指标是 Artificial Analysis Intelligence Index——由约 10 个子评测组合而成的综合分数。这个数字每天被无数人引用，但 Lambert 指出，它至少在三个层面上产生误导：

Lambert 梳理了一条清晰的能力演进路径：

ChatGPT 初期：对话、数学、简单代码。指令 tuning 和 RLHF 主导。
2025 年至今：复杂 coding 和初级 Agent 任务。RLVR（强化学习 with 可验证奖励）主导，应用于 terminal 任务、代码执行环境。
下一个时代（正在形成）：专业领域知识工作——法律、医疗、会计等，需要与行业软件集成，数据更私密，更难标准化评测。

这个周期性规律意味着：今天的 benchmark 分数只是今天这个范式下的成绩，而不是永久性的能力证明。

Lambert 对当前中国开源实验室的追赶路径有清醒的判断：

核心追赶路径：美国头部实验室（OpenAI、Anthropic）斥重金构建 RL 环境和专用数据集，中国实验室随后以折扣价购入这些相同的环境，快速复现能力。

这种模式在 coding/terminal 领域已经奏效，Kimi 和 Qwen 系列是证明。但这个模式有一个前提：训练所需的数据和环境是可以在市场上购买的。

下一阶段的潜在障碍：专业领域任务（医疗记录、法律合同、金融审计）所需的数据天然私密，无法标准化出售。掌握这类数据的机构——医院、律所、会计事务所——不会轻易共享。这意味着头部封闭实验室的竞争优势将越来越依赖数据护城河，而不只是算力或架构。

Lambert 明确表示，他目前对 benchmark 作为真实世界性能代理的信心，处于"相对最低点"。

原因不是 benchmark 设计得差，而是：模型能力迭代速度已经超过评测框架的更新速度，benchmark 和实际部署效果之间的相关性在下降。

最直接的证据就是 Gemini 3：在 Artificial Analysis Index 上名列前茅，但在 2026 年 Agent 工具链实际部署中几乎看不到它的身影。用 benchmark 分数预测"哪个模型会被工程师选用"，准确率已经显著下滑。

Lambert 指出了前沿实验室面临的一个结构性矛盾：如果 coding/terminal 能力达到饱和，开源等价物出现，大量企业将有动力切换到更便宜的开源选项。维持收入增长需要持续在新的任务类型上建立有意义的性能优势。

这意味着 OpenAI 和 Anthropic 需要不断"重新定义前沿"——找到下一批有商业价值、且开源短时间内无法复制的能力。Lambert 倾向于相信他们能做到，但承认这更像是一种信念，而非确定性结论。