两天前Anthropic切断了第三方harness使用Claude订阅的通道。意料之中。三天前MiMo推出了Token Plan——这是一个作者花了大量时间参与设计的方案,目标是正确处理算力分配和agent harness开发。把这两件事放在一起看,有些值得关注的分析。

为什么订阅在赔钱

Claude Code的订阅是一个设计精美的均衡算力分配系统。作者的判断:它不赚钱,甚至可能在亏钱,除非API利润率做到了10-20倍——这不太可能。

无法精确计算第三方harness造成的损失,但看OpenClaw的context管理就能了解大概:在单个用户查询内,它会发出多轮低价值工具调用,每个都是独立的API请求,每个都带着长context window(经常超过100K tokens)——即使有缓存命中也在浪费,极端情况下还会推高其他查询的缓存未命中率。

结果:每次查询的实际请求数是Claude Code自身框架的数倍。换算成API定价,实际成本是订阅价格的几十倍。这不是差距,这是鸿沟。

短期疼痛,长期纪律

第三方harness(OpenClaw/OpenCode)仍然可以通过API调用Claude,只是不能再蹭订阅。短期这些agent用户会感受到疼痛,成本轻松跳涨数倍。

但这个压力恰恰是推动这些harness改进context管理的动力:最大化prompt cache命中率以复用已处理context,减少浪费的token消耗。疼痛最终会转化为工程纪律。

建议LLM公司不要盲目价格战

在搞清楚如何给编程套餐定价之前,不要盲目竞价到见底。卖token卖得很便宜,同时对第三方harness大门敞开,对用户看起来很美好,但这是个陷阱——正是Anthropic刚刚走出来的那个陷阱。

更深层的问题:如果用户把注意力浪费在低质量agent harness、高度不稳定且慢的推理服务、以及为降低成本而降级的模型上,到头来发现还是什么都做不成——这不是用户健康循环,也不是留存的好路径。

MiMo Token Plan的逻辑

MiMo Token Plan支持第三方harness,按token配额计费,和Claude新推出的extra usage packages逻辑一致。目标:长期稳定交付高质量模型和服务,而不是诱导冲动付费然后弃船。

更大的图景:全球算力产能跟不上agents正在创造的token需求。真正的出路不是更便宜的token,是共同演化:「更token高效的agent harness」×「更强大更高效的模型」。

Anthropic这步棋,不管有意无意,正在把整个生态——开源和闭源 alike——推向那个方向。这可能是件好事。

Agent时代不属于燃烧最多算力的人,属于最明智使用算力的人。