Token Budget Wars：企业AI从采用进入分配时代

企业 AI 已经从"是否采用"进入**"如何分配"**阶段。Jaya Gupta 把这场转变称为 Token Budget Wars。

从采用到分配

过去两年，CEO 每天早上看 CNBC 上 Jim Cramer 唱衰 AI，看竞争对手宣布生产力提升，然后告诉公司：用 AI。后续问题——"给我看看价值"——才是现在产生压力的地方。

Claude 2025 年 11 月发布时，大多数 2026 年度预算已经锁定。到 Q1，企业实际运行远超计划。推理从实验性支出项变成了经常性运营成本。这带来一个新问题：AI 到底在哪里创造价值？

这个问题很难回答，因为 token 效用没有被量化。账单本身不告诉你 AI 是否替代了人工、产生了收入、降低了风险、加速了工作流，还是只是工程师们在 tokenmaxxing leaderboard 上刷分。几十万刀时这看起来像实验，七位数时它变成基础设施。

技术方差开始产生实质性的 P&L 波动：同一工作流在同样输入上跑两次，token 成本可能差 5-10 倍，而表面上什么都没出问题。实验规模时这个方差很贵，基础设施规模时这是 CFO 必须向 CEO 解释的数字。

边际 token 效用

Gupta 定义了一个关键指标：Marginal Token Utility——每多一美元推理创造的业务价值。这是规模上唯一重要的数字，也是大多数公司看不到的数字。

董事会的问题正在从"AI 有用吗？"变成"AI 在哪里真正创造杠杆？"这就是 token 预算战争的本质：token 的分配权之争。

这场争夺之所以变得激烈，是因为它撞上了三十年的高管直觉——大团队等于大工作、大 scope、大权力。高管成功的可见标志一直是他们管理的团队规模。但当智能成为稀缺资源时，新标志是你在编排多少智能。

AI 支出真正在跟什么竞争

大多数 AI 预算请求是三种主张之一：替代外包人工、替代内部人工、或产生新收入。

一个人有工资。一个 BPO 合同有每张工单/索赔/发票/审查的价格。人类理解这些度量单位，但推理更复杂——完成一项任务的成本取决于系统运行中的行为方式。一个需要三次重试、人工修正和前沿模型的索赔，可能比它本应替代的外包人工更贵。

这就是对话转向"完成结果的成本"的原因：每张解决的工单、处理的索赔、审查的合同、完成的发票、避免的错误雇佣、保留的客户、或移动的收入美元。

BPO 是最容易 benchmark 的地方，因为工作已经以完成单位定价。内部人工更难比较，因为员工每天做很多事，生产力提升表现为避免招聘或弥散的能力提升，经理们抵制基于部分自动化来减少 headcount。

SaaS 教会了错误的习惯

SaaS 训练企业把使用量当作价值的代理。AI 打破了这一点。

同样的工作流，根据 prompt、检索的上下文、选择的模型、调用的工具、重试次数、以及 Agent 是否卡住，可能消耗 radically 不同的推理量。发票上的单位——token——是稳定的，但它代表的工作量不是。

更精确地说：信号和噪音共享同一个单位。上升的 token 账单可能意味着真正的工作在进行，也可能意味着计算泄漏进了糟糕的 prompt、无关的上下文、不必要的工具调用、冗余的推理、和过度强大的模型。两个 token 账单相同的企业，底层可能运行着完全不同的操作——一个把推理转化为结果，另一个为看起来一样的账单支付着 thrash。

SaaS 使用量告诉你软件已被采用。AI 使用量告诉你表在转。它不告诉你公司是在做饭还是在烧锅。

为什么边际 token 效用难以看见

三个原因：

1. 重试尾部（Retry Tails）

如果 Agent 第一次就正确完成工作流的概率是 p，每次解决工作流的预期 token 大致按 T/p 缩放，T 是基础成本。完成率从 90% 降到 70%，有效成本每解决一次增加约 28%（不是 20%），因为失败会复合。在企业工作流中，输入混乱、异常重要，失败不只是降低准确率，它改变了经济学。

2. 上下文膨胀（Context Inflation）

推理成本在注意力重的操作中大致按上下文长度的 O(n²) 缩放，所以翻倍上下文大致四倍推理成本。每个人都想让模型有足够信息，于是系统过度供应检索——拉 50 份文档当 5 份就够，连接器 dump 整封邮件线程，Agent 携带陈旧的对话历史。

3. 路由（Routing）

当团队不知道哪个模型够好时，默认用最强的。一个基础分类任务跑在用于复杂推理的同一个模型上。跨数百万次调用，把简单任务发给小模型 vs 全部发给前沿模型，往往是可控账单和董事会级问题的区别。

软件公司 vs 非软件公司

软件公司会首先感受到这个问题，因为被优化的工作已经被 instrumented。工程有 PR、commit、deploy、incident、cycle time、MTTR，这些 tied into product。不完美，但工作更可测量。

非软件企业会更深地感受这个问题，因为工作是运营性的。索赔、承保、支持案例、合规审查、供应链异常、付款争议。这些工作流历史上用人工、周期时间、SLA 遵守、错误率来衡量，有更高的审计要求，不只是平均正确。工作单位和工作成本不说同一种语言，也不坐在同一个组织里。

缺失的层：token-to-outcome 归因

需要一层转换层，把推理支出连接到执行的工作和产生的业务结果。这层必须回答三个问题：

工作流实际花了多少，包括重试和修正？
Agent trace 中哪些部分重要，哪些是 thrashing？
工作是否改变了运营模式：每张工单的更少 ticket、更短的索赔周期、更小的 BPO 支出、推迟的招聘？

下一层是用业务的语言做结果归因：不是"这个工作流花了 2.13 美元"，而是"这类索赔用 Agent 比 BPO 便宜，除了政策需要异常文件时，重试尾部摧毁了经济学"。

测量变成记忆

要把 token 连接到结果，企业必须捕获中间发生了什么：Agent 看到了什么、检索了什么、调用了哪些工具、忽略了什么、在哪里重试、何时人工 override、哪个异常适用、哪个先例重要、为什么一条路径有效另一条失败。

测量层必须记录决策 trace，这是企业从未真正拥有的东西。记录系统捕获发生了什么，但很少捕获为什么。CRM 能告诉你一个交易滑了，但不能告诉你预测背后的未成文判断。

决策理由是公司中最易腐烂的资产之一，因为它活在 Slack 线程、邮件链、升级电话和人的脑子里。但这些人会离开，流程会改变。

AI 改变了这一点，因为 Agent 创造了 trace。每个检索步骤、工具调用、重试、升级、人工修正和最终决策，都成为从上下文到行动到结果的路径的一部分。起初，公司捕获这些 trace 是为了证明支出。但一旦捕获，trace 变得比成本报告更有价值，因为它们成为组织实际如何决策的持久记录。

分配层是奖品

如果推理成为客户运营模式中的计量资源，每一美元都必须为自己辩护。哪些工作流值得更多算力、哪些应该封顶、哪些应该用更便宜的模型、哪些保持人工——能做出这些分配决策的公司，控制企业内部的 AI 支出去向，并获得分配的信任。

企业不会自己搞清楚这一点。他们会买它作为转型。财富 500 强以前跑过这个剧本： buckle up， hire McKinsey， hire 市场上每一个 Palantir 校友，从 CEO 自上而下驱动变革。Token-to-outcome 归因会以类似 ERP、BI 和数字化转型到达的方式到来：作为一个有高管赞助的"项目"，底下有一块成为新真相来源的基础设施。

能做这个的创始人会组建不同的创始团队，自己也会是不同的人。

企业 AI 的第一阶段证明了模型能做工作。下一阶段将决定多少工作值得做。正如 Charlie Munger 所说：给我看看激励，我就给你看看结果。