AI 模型差距，可能比你想象的更大

公开榜单上开源模型似乎已经逼近前沿，但真相可能比表面数据复杂得多。

榜单数字不等于真实能力

Artificial Analysis Index 显示开源模型已略微超越 Opus 4.5。如果只看 headline 分数，这大约是 5 个月的差距。

但这个数字很可能低估了真实差距。

第一层问题：token 消耗被忽略了。

Test-time scaling 让模型可以用高得多的推理成本换取更高的 benchmark 分数。一个模型用两倍于对手的 token 换来略高的分数，在经济意义上它并不等价。

用户愿意为更快的响应付费——Anthropic 和 OpenAI 最近的"fast mode"就是证据。延迟是真实的成本，不能被榜单上的分数抹平。

第二层问题：benchmark 加权失真。

公开榜单过度倾斜于开源实验室特别擅长的领域：Coding、Computer Use、Agentic Tasks。这些是真实重要的能力，但不是能力前沿的全部。如果开源实验室在这些方向特别努力优化，聚合榜单就会把开源/闭源差距看小。

Benchmark 扩散是真实存在的。

AA-Omniscience、GDPval、CritPT 这些评估在 2025 年底才发布。在它们发布之前训练的模型（如 Opus 4.5）不太可能有针对性暴露。

Kimi-K2.6、GLM-5.1、DeepSeek-V4-Pro 这些更新模型对新兴 benchmark 的知识更多——不是因为背答案，而是因为 benchmark 一旦公开，其结构、例子、解法和直接答案就会渗入后续训练数据。

这让新模型在新鲜评估上看起来人为地强。

闭源实验室在数据整理、人工标注、偏好数据、评估、红队对抗、合成数据生成和部署基础设施上投入巨大。

但当闭源模型通过 API 或聊天产品开放时，部分投资就漏进了开源生态。开源实验室可以用前沿闭源模型的输出生成合成数据、推理轨迹、偏好对、代码解决方案、Agent 轨迹。

所以开源模型的进展不全是独立追赶，有一部分是"闭源实验室投资漏出来的能力 + 开源实验室"对阵"闭源实验室"。

前沿闭源模型在公开发布前要经历大量红队测试、安全评估、政策审查、内部评估、产品打磨、部署准备。这个过程轻易就是一到两个月。

也就是说，即使开源模型在 Coding 上只落后 4-5 个月，加上发布延迟，有效能力差距可能接近 5-7 个月。

在 ECI、SimpleBench、LisanBench、WeirdML 这类更难、更分布外的评估上，开源模型看起来更接近 Grok-4 或 GPT-5，而非当前前沿。这指向更宽的 8-9 个月 general capability 差距。

还有一个被低估的维度：长程 Agent 能力。

很多 Coding 评估仍然太短期。METR、Epoch AI、UK AISI 风格的 Cyber 评估显示，人们往往没有给模型足够的 token 预算来暴露完整能力。

长期任务评估可能需要 100M 到 1B token，而非短 benchmark 运行。但这些评估成本极高，所以很罕见。闭源实验室更可能有基础设施、内部工具和评估预算来训练和评估这类长程任务。

开源模型在 Coding-heavy、benchmark-visible 的任务上可能只落后 4-5 个月。但一旦调整 token 使用量、benchmark 加权、评估新鲜度、蒸馏、发布延迟和更难测量的通用能力，差距可能远大于 8 个月。

综合 General Capabilities、推理效率、响应延迟、可靠性、安全性、长程 Agent 性：开源模型在 3-4 个月内与 GPT-5.5 并驾齐驱并不是一个站得住脚的主张。