企业 AI 已经从"是否采用"进入**"如何分配"**阶段。Jaya Gupta 把这场转变称为 Token Budget Wars。
从采用到分配
过去两年,CEO 每天早上看 CNBC 上 Jim Cramer 唱衰 AI,看竞争对手宣布生产力提升,然后告诉公司:用 AI。后续问题——"给我看看价值"——才是现在产生压力的地方。
Claude 2025 年 11 月发布时,大多数 2026 年度预算已经锁定。到 Q1,企业实际运行远超计划。推理从实验性支出项变成了经常性运营成本。这带来一个新问题:AI 到底在哪里创造价值?
这个问题很难回答,因为 token 效用没有被量化。账单本身不告诉你 AI 是否替代了人工、产生了收入、降低了风险、加速了工作流,还是只是工程师们在 tokenmaxxing leaderboard 上刷分。几十万刀时这看起来像实验,七位数时它变成基础设施。
技术方差开始产生实质性的 P&L 波动:同一工作流在同样输入上跑两次,token 成本可能差 5-10 倍,而表面上什么都没出问题。实验规模时这个方差很贵,基础设施规模时这是 CFO 必须向 CEO 解释的数字。
边际 token 效用
Gupta 定义了一个关键指标:Marginal Token Utility——每多一美元推理创造的业务价值。这是规模上唯一重要的数字,也是大多数公司看不到的数字。
董事会的问题正在从"AI 有用吗?"变成"AI 在哪里真正创造杠杆?"这就是 token 预算战争的本质:token 的分配权之争。
这场争夺之所以变得激烈,是因为它撞上了三十年的高管直觉——大团队等于大工作、大 scope、大权力。高管成功的可见标志一直是他们管理的团队规模。但当智能成为稀缺资源时,新标志是你在编排多少智能。
AI 支出真正在跟什么竞争
大多数 AI 预算请求是三种主张之一:替代外包人工、替代内部人工、或产生新收入。
一个人有工资。一个 BPO 合同有每张工单/索赔/发票/审查的价格。人类理解这些度量单位,但推理更复杂——完成一项任务的成本取决于系统运行中的行为方式。一个需要三次重试、人工修正和前沿模型的索赔,可能比它本应替代的外包人工更贵。
这就是对话转向"完成结果的成本"的原因:每张解决的工单、处理的索赔、审查的合同、完成的发票、避免的错误雇佣、保留的客户、或移动的收入美元。
BPO 是最容易 benchmark 的地方,因为工作已经以完成单位定价。内部人工更难比较,因为员工每天做很多事,生产力提升表现为避免招聘或弥散的能力提升,经理们抵制基于部分自动化来减少 headcount。
SaaS 教会了错误的习惯
SaaS 训练企业把使用量当作价值的代理。AI 打破了这一点。
同样的工作流,根据 prompt、检索的上下文、选择的模型、调用的工具、重试次数、以及 Agent 是否卡住,可能消耗 radically 不同的推理量。发票上的单位——token——是稳定的,但它代表的工作量不是。
更精确地说:信号和噪音共享同一个单位。上升的 token 账单可能意味着真正的工作在进行,也可能意味着计算泄漏进了糟糕的 prompt、无关的上下文、不必要的工具调用、冗余的推理、和过度强大的模型。两个 token 账单相同的企业,底层可能运行着完全不同的操作——一个把推理转化为结果,另一个为看起来一样的账单支付着 thrash。
SaaS 使用量告诉你软件已被采用。AI 使用量告诉你表在转。它不告诉你公司是在做饭还是在烧锅。
为什么边际 token 效用难以看见
三个原因:
1. 重试尾部(Retry Tails)
如果 Agent 第一次就正确完成工作流的概率是 p,每次解决工作流的预期 token 大致按 T/p 缩放,T 是基础成本。完成率从 90% 降到 70%,有效成本每解决一次增加约 28%(不是 20%),因为失败会复合。在企业工作流中,输入混乱、异常重要,失败不只是降低准确率,它改变了经济学。
2. 上下文膨胀(Context Inflation)
推理成本在注意力重的操作中大致按上下文长度的 O(n²) 缩放,所以翻倍上下文大致四倍推理成本。每个人都想让模型有足够信息,于是系统过度供应检索——拉 50 份文档当 5 份就够,连接器 dump 整封邮件线程,Agent 携带陈旧的对话历史。
3. 路由(Routing)
当团队不知道哪个模型够好时,默认用最强的。一个基础分类任务跑在用于复杂推理的同一个模型上。跨数百万次调用,把简单任务发给小模型 vs 全部发给前沿模型,往往是可控账单和董事会级问题的区别。
软件公司 vs 非软件公司
软件公司会首先感受到这个问题,因为被优化的工作已经被 instrumented。工程有 PR、commit、deploy、incident、cycle time、MTTR,这些 tied into product。不完美,但工作更可测量。
非软件企业会更深地感受这个问题,因为工作是运营性的。索赔、承保、支持案例、合规审查、供应链异常、付款争议。这些工作流历史上用人工、周期时间、SLA 遵守、错误率来衡量,有更高的审计要求,不只是平均正确。工作单位和工作成本不说同一种语言,也不坐在同一个组织里。
缺失的层:token-to-outcome 归因
需要一层转换层,把推理支出连接到执行的工作和产生的业务结果。这层必须回答三个问题:
- 工作流实际花了多少,包括重试和修正?
- Agent trace 中哪些部分重要,哪些是 thrashing?
- 工作是否改变了运营模式:每张工单的更少 ticket、更短的索赔周期、更小的 BPO 支出、推迟的招聘?
下一层是用业务的语言做结果归因:不是"这个工作流花了 2.13 美元",而是"这类索赔用 Agent 比 BPO 便宜,除了政策需要异常文件时,重试尾部摧毁了经济学"。
测量变成记忆
要把 token 连接到结果,企业必须捕获中间发生了什么:Agent 看到了什么、检索了什么、调用了哪些工具、忽略了什么、在哪里重试、何时人工 override、哪个异常适用、哪个先例重要、为什么一条路径有效另一条失败。
测量层必须记录决策 trace,这是企业从未真正拥有的东西。记录系统捕获发生了什么,但很少捕获为什么。CRM 能告诉你一个交易滑了,但不能告诉你预测背后的未成文判断。
决策理由是公司中最易腐烂的资产之一,因为它活在 Slack 线程、邮件链、升级电话和人的脑子里。但这些人会离开,流程会改变。
AI 改变了这一点,因为 Agent 创造了 trace。每个检索步骤、工具调用、重试、升级、人工修正和最终决策,都成为从上下文到行动到结果的路径的一部分。起初,公司捕获这些 trace 是为了证明支出。但一旦捕获,trace 变得比成本报告更有价值,因为它们成为组织实际如何决策的持久记录。
分配层是奖品
如果推理成为客户运营模式中的计量资源,每一美元都必须为自己辩护。哪些工作流值得更多算力、哪些应该封顶、哪些应该用更便宜的模型、哪些保持人工——能做出这些分配决策的公司,控制企业内部的 AI 支出去向,并获得分配的信任。
企业不会自己搞清楚这一点。他们会买它作为转型。财富 500 强以前跑过这个剧本: buckle up, hire McKinsey, hire 市场上每一个 Palantir 校友,从 CEO 自上而下驱动变革。Token-to-outcome 归因会以类似 ERP、BI 和数字化转型到达的方式到来:作为一个有高管赞助的"项目",底下有一块成为新真相来源的基础设施。
能做这个的创始人会组建不同的创始团队,自己也会是不同的人。
企业 AI 的第一阶段证明了模型能做工作。下一阶段将决定多少工作值得做。正如 Charlie Munger 所说:给我看看激励,我就给你看看结果。