返回 FEED
AGENT2026-05-27

AI 推理成本悖论:为什么 token 越便宜,账单越贵

AI 正在按 token 变得更便宜,同时在实践中变得更贵。这两个事实都成立,而它们之间的 gap 正是大多数 AI 产品崩溃的地方。

MIT、Stanford、Google DeepMind 和 Microsoft 的联合研究首次对 Agentic 编码任务中的 token 消耗进行了系统研究,每个发现都应该改变你对推理预算的思考方式。

核心发现

Agentic 任务消耗 1000 倍更多 token

研究在 SWE-bench Verified 上测试了 8 个前沿 LLM,测量三种任务类型的 token 消耗:

  • Agentic 编码
  • 代码推理
  • 代码聊天

Agentic 任务消耗的 token 是其他两种的 1000 倍。不是 2 倍,不是 10 倍,是 1000 倍。这不是成本增加,是品类转变。

大多数团队的推理预算心理模型建立在聊天和推理工作负载上。Agent 完全 invalidates 这个模型。

驱动因素不是输出 token

Agent 昂贵的真正原因不是它写了多少代码,而是它读了多少——每一步都要重新读取的仓库状态、错误日志、工具输出、跨数十轮积累的对话历史。每次循环迭代都重新摄入大部分之前的内容。

成本与准确率并非线性相关

准确率在中间 token 成本处达到峰值,然后饱和或下降。花更多钱并不能可靠地获得更好结果,只是花更多钱。

相同任务的 token 消耗方差高达 30 倍

相同任务、相同模型,token 计数变化高达 30 倍。这不是舍入误差,是 Agent 执行方式中内置的根本不可预测性。

模型无法自预测成本

研究人员让模型在执行任务前预测自己的 token 使用量。预测与实际消耗之间的相关性弱到中等,最佳结果是 0.39。模型还系统性地低估了真实成本。

结论:你不能让模型自报告任务是否便宜或昂贵并信任答案。模型真的不知道。

模型效率差异巨大

Kimi-K2 和 Claude Sonnet 4.5 在每个任务上比 GPT-5 多消耗超过 150 万 token。相同任务,相同 benchmark,150 万 token 的差距。

按当前定价,这个差距在规模上快速复合。一个在 benchmark 上得分略高的模型,在大规模运营时可能成本 dramatically 更高。

Token 效率——每 token 完成的有用工作量——现在是一级选择标准,不是脚注。

人类判断的复杂度与实际计算 effort 脱钩

人类专家评定的任务难度与实际 token 消耗只有弱相关性。人类认为难的任务不一定是消耗最多 token 的任务,看似简单的任务有时消耗巨量计算。

你不能用肉眼扫一遍功能集就预测推理账单在哪里。你必须测量。

运营建议

  1. 按任务计量成本,不是按 token:token 计数在相同任务上变化 30 倍,你需要分布,不是平均值
  2. 并行 benchmark 模型的 token 效率:一个在你的工作负载上每任务少用 150 万 token 的模型,可能在实际 hitting P&L 的指标上 outperform 得分更高的模型
  3. 不要相信模型的自估计:从观察到的生产数据构建路由和预算控制
  4. 设置 Agent 运行的硬 token 上限:论文描述的 token 方差长尾是真实的。没有上限,你的成本异常就是预算事件
  5. 按功能拉取 token 日志:你至少会发现一个功能消耗的 token 是你假设的 10 倍

更深层的问题

OpenAI 2025 年产生约 37 亿美元收入,估计亏损约 50 亿美元。每赚 1 美元花 1.35 美元,推理成本是主要驱动因素。

OpenAI、Google、Anthropic 和 Meta 都在以低于成本的价格定价推理以获取市场份额。你产品所基于的 API 价格部分由风险投资和大厂交叉补贴支撑。

每 token 价格不是长期均衡价格。

当补贴压缩时,它会 overnight 改变单位经济学。每个围绕今天最便宜价格构建的产品,资产负债表上都有一个隐藏负债。

结论

AI 按 token 变得更便宜了吗?是的,比历史上几乎任何技术都快。

在实践中对大多数运行 Agent 的团队来说,变便宜了吗?没有。

因为消费增长速度快于价格下降速度,成本比任何人的模型预测的更 variable,且模型自己无法告诉你它们即将花多少钱。

停止优化输入,开始优化结果。这是唯一映射到你业务的指标。