AI 推理成本悖论：为什么 token 越便宜，账单越贵

AI 正在按 token 变得更便宜，同时在实践中变得更贵。这两个事实都成立，而它们之间的 gap 正是大多数 AI 产品崩溃的地方。

MIT、Stanford、Google DeepMind 和 Microsoft 的联合研究首次对 Agentic 编码任务中的 token 消耗进行了系统研究，每个发现都应该改变你对推理预算的思考方式。

核心发现

研究在 SWE-bench Verified 上测试了 8 个前沿 LLM，测量三种任务类型的 token 消耗：

Agentic 任务消耗的 token 是其他两种的 1000 倍。不是 2 倍，不是 10 倍，是 1000 倍。这不是成本增加，是品类转变。

大多数团队的推理预算心理模型建立在聊天和推理工作负载上。Agent 完全 invalidates 这个模型。

Agent 昂贵的真正原因不是它写了多少代码，而是它读了多少——每一步都要重新读取的仓库状态、错误日志、工具输出、跨数十轮积累的对话历史。每次循环迭代都重新摄入大部分之前的内容。

准确率在中间 token 成本处达到峰值，然后饱和或下降。花更多钱并不能可靠地获得更好结果，只是花更多钱。

相同任务、相同模型，token 计数变化高达 30 倍。这不是舍入误差，是 Agent 执行方式中内置的根本不可预测性。

研究人员让模型在执行任务前预测自己的 token 使用量。预测与实际消耗之间的相关性弱到中等，最佳结果是 0.39。模型还系统性地低估了真实成本。

结论：你不能让模型自报告任务是否便宜或昂贵并信任答案。模型真的不知道。

Kimi-K2 和 Claude Sonnet 4.5 在每个任务上比 GPT-5 多消耗超过 150 万 token。相同任务，相同 benchmark，150 万 token 的差距。

按当前定价，这个差距在规模上快速复合。一个在 benchmark 上得分略高的模型，在大规模运营时可能成本 dramatically 更高。

Token 效率——每 token 完成的有用工作量——现在是一级选择标准，不是脚注。

人类专家评定的任务难度与实际 token 消耗只有弱相关性。人类认为难的任务不一定是消耗最多 token 的任务，看似简单的任务有时消耗巨量计算。

你不能用肉眼扫一遍功能集就预测推理账单在哪里。你必须测量。

按任务计量成本，不是按 token：token 计数在相同任务上变化 30 倍，你需要分布，不是平均值
并行 benchmark 模型的 token 效率：一个在你的工作负载上每任务少用 150 万 token 的模型，可能在实际 hitting P&L 的指标上 outperform 得分更高的模型
不要相信模型的自估计：从观察到的生产数据构建路由和预算控制
设置 Agent 运行的硬 token 上限：论文描述的 token 方差长尾是真实的。没有上限，你的成本异常就是预算事件
按功能拉取 token 日志：你至少会发现一个功能消耗的 token 是你假设的 10 倍

OpenAI 2025 年产生约 37 亿美元收入，估计亏损约 50 亿美元。每赚 1 美元花 1.35 美元，推理成本是主要驱动因素。

OpenAI、Google、Anthropic 和 Meta 都在以低于成本的价格定价推理以获取市场份额。你产品所基于的 API 价格部分由风险投资和大厂交叉补贴支撑。

每 token 价格不是长期均衡价格。

当补贴压缩时，它会 overnight 改变单位经济学。每个围绕今天最便宜价格构建的产品，资产负债表上都有一个隐藏负债。

AI 按 token 变得更便宜了吗？是的，比历史上几乎任何技术都快。

在实践中对大多数运行 Agent 的团队来说，变便宜了吗？没有。

因为消费增长速度快于价格下降速度，成本比任何人的模型预测的更 variable，且模型自己无法告诉你它们即将花多少钱。

停止优化输入，开始优化结果。这是唯一映射到你业务的指标。