SemiAnalysis 最近密集测试了 GPT-5.5、Opus 4.7、DeepSeek V4 等新一代模型在 coding 场景下的表现,结论相当反直觉:不是越贵的模型越好用,而是 token 效率高的模型才是真正省钱。
每任务成本,而非每 Token 成本
这是文章最核心的观点。OpenAI 在 GPT-5.5 的 model card 里强调:新模型"用的 token 更少"。SemiAnalysis 认为这个指标比 per-token 价格更重要——
Mythos(GPT-5.5)可能 per-token 贵 5 倍,但如果它解决同一个问题消耗的 token 少得多,总体成本反而更低,完成速度也更快。
换句话说:真正的定价单位应该是"任务",而不是"Token"。这个思路会直接影响未来的模型选型和预算分配。
GPT-5.5 vs Opus 4.7:各有擅长
SemiAnalysis 的工程师过去几乎全员用 Claude Code,现在不少人开始在 Codex(GPT-5.5)和 Claude 之间按任务切换:
Codex 的优势:
- 会主动抓取大量上下文再做改动,不是"快速探索一下就 yolo 改"
- 在 PR review、bug 排查、代码解释方面更强
- 对数据结构关系和复杂 excel 的理解更准确
Claude Code 的优势:
- 更擅长理解人类模糊指令的真实意图
- 面对开放性、第一次做的任务(greenfield problem)时表现更好
- 规划能力强,适合先搭架子
一个具体例子:让两个模型根据现有的 tokenomics dashboard 做一个新的 dashboard。Opus 4.6 完全复刻了首页外观,而 Codex 完全忽略了设计,但数据内容比 Claude 准确得多——Claude 甚至把 Nvidia GPU 放进了 TPU 图表里。
于是 SemiAnalysis 工程师形成了一套混合 workflow:
- 先用 Claude 做规划、搭架子、第一版 POC
- 再切换到 Codex 执行具体任务和修 bug
在此之前,他们几乎所有步骤都用 Claude。
Opus 4.7 的退步:工具调用变少,思考变多
Opus 4.7 相对 4.6 一个显著的行为变化是:默认减少了工具调用,增加了推理。SemiAnalysis 不太喜欢这个变化,认为这导致模型在复杂任务上缺乏足够的上下文来形成完整的多步计划。
Anthropic 的建议是把推理 effort 从 high 调到 xhigh 或 max 来增加工具调用——用户也确实是这么做的,但这恰恰说明默认配置下的 token 效率改进并不成立。
更尴尬的是:Anthropic 4 月 23 日发了一篇 postmortem,承认 4.6/4.7 有三个 bug,其中两个影响了几乎所有 Claude Code 用户,持续时间从两周到一个月不等。而这些 bug 很可能就是 Claude 自己引入的。
当 harness 成为产品的一部分,模型犯的错就是产品的锅。
DeepSeek V4:工程奇迹,但非前沿
DeepSeek V4 的核心突破是100 万 Token 上下文窗口,配合 CSA(压缩稀疏注意力)、HCA(重度压缩注意力)和 mHC(流形约束超连接),在 100 万 Token 场景下 KV cache 只需原来的 10%。SemiAnalysis 认为这是比 Google 上个月的 TurboQuant 更影响深远的技术进步。
但它不是前沿模型:在中文写作等高难度任务上,Opus 4.7 依然领先。而且 V4 的 H200 FP8 推理吞吐量约 150 tok/sec/GPU,远低于 V3 的 1300-2300 tok/sec/GPU——模型还在优化中。
评测为什么不可信
文章用一整节讲清楚为什么公开评测不可信:
- 任务本身可能有问题:SWE-bench 的任务没有经过人工验证,有些题目要求模型精确匹配一个 19 词的错误信息,但任务描述里根本没提
- 评测方法被钻空子:各公司选择性披露对自己有利的基准分,不披露的默认不好
- HLE 等考试题有 30% 的化学/生物题答案与同行评审文献直接冲突
- RL 训练阶段专门 hill climb 考试题:Google 2025 年花 9 位数预算专门购买 HLE 风格的 STEM 题给数据供应商
信源:https://newsletter.semianalysis.com/p/the-coding-assistant-breakdown-more