公开榜单上开源模型似乎已经逼近前沿,但真相可能比表面数据复杂得多。
榜单数字不等于真实能力
Artificial Analysis Index 显示开源模型已略微超越 Opus 4.5。如果只看 headline 分数,这大约是 5 个月的差距。
但这个数字很可能低估了真实差距。
第一层问题:token 消耗被忽略了。
Test-time scaling 让模型可以用高得多的推理成本换取更高的 benchmark 分数。一个模型用两倍于对手的 token 换来略高的分数,在经济意义上它并不等价。
用户愿意为更快的响应付费——Anthropic 和 OpenAI 最近的"fast mode"就是证据。延迟是真实的成本,不能被榜单上的分数抹平。
第二层问题:benchmark 加权失真。
公开榜单过度倾斜于开源实验室特别擅长的领域:Coding、Computer Use、Agentic Tasks。这些是真实重要的能力,但不是能力前沿的全部。如果开源实验室在这些方向特别努力优化,聚合榜单就会把开源/闭源差距看小。
评估本身也在被"污染"
Benchmark 扩散是真实存在的。
AA-Omniscience、GDPval、CritPT 这些评估在 2025 年底才发布。在它们发布之前训练的模型(如 Opus 4.5)不太可能有针对性暴露。
Kimi-K2.6、GLM-5.1、DeepSeek-V4-Pro 这些更新模型对新兴 benchmark 的知识更多——不是因为背答案,而是因为 benchmark 一旦公开,其结构、例子、解法和直接答案就会渗入后续训练数据。
这让新模型在新鲜评估上看起来人为地强。
蒸馏效应:开源进展的一部分是闭源的影子
闭源实验室在数据整理、人工标注、偏好数据、评估、红队对抗、合成数据生成和部署基础设施上投入巨大。
但当闭源模型通过 API 或聊天产品开放时,部分投资就漏进了开源生态。开源实验室可以用前沿闭源模型的输出生成合成数据、推理轨迹、偏好对、代码解决方案、Agent 轨迹。
所以开源模型的进展不全是独立追赶,有一部分是"闭源实验室投资漏出来的能力 + 开源实验室"对阵"闭源实验室"。
发布税:闭源模型承担了开源不承担的代价
前沿闭源模型在公开发布前要经历大量红队测试、安全评估、政策审查、内部评估、产品打磨、部署准备。这个过程轻易就是一到两个月。
也就是说,即使开源模型在 Coding 上只落后 4-5 个月,加上发布延迟,有效能力差距可能接近 5-7 个月。
更难测量的地方,差距更大
在 ECI、SimpleBench、LisanBench、WeirdML 这类更难、更分布外的评估上,开源模型看起来更接近 Grok-4 或 GPT-5,而非当前前沿。这指向更宽的 8-9 个月 general capability 差距。
还有一个被低估的维度:长程 Agent 能力。
很多 Coding 评估仍然太短期。METR、Epoch AI、UK AISI 风格的 Cyber 评估显示,人们往往没有给模型足够的 token 预算来暴露完整能力。
长期任务评估可能需要 100M 到 1B token,而非短 benchmark 运行。但这些评估成本极高,所以很罕见。闭源实验室更可能有基础设施、内部工具和评估预算来训练和评估这类长程任务。
结论
开源模型在 Coding-heavy、benchmark-visible 的任务上可能只落后 4-5 个月。但一旦调整 token 使用量、benchmark 加权、评估新鲜度、蒸馏、发布延迟和更难测量的通用能力,差距可能远大于 8 个月。
综合 General Capabilities、推理效率、响应延迟、可靠性、安全性、长程 Agent 性:开源模型在 3-4 个月内与 GPT-5.5 并驾齐驱并不是一个站得住脚的主张。