Token Yield：算算你的 AI 到底在生产什么

Glean CEO Arvind Jain 写了一篇看似财务、实则工程的长文，核心命题只有一句：你花的 token 钱，大部分问题不在模型上，在模型周围的架构上。

钱在飞，价值没在飞

数据先摆出来：

McKinsey：超过半数企业把 21%–50% 的数字化预算投向 AI，平均 36%
Menlo Ventures：月均 AI 支出同比增长 4 倍
The Information：Uber 把 2026 全年的 AI 编程工具预算，4 个月烧完了

而 Arvind 跟大量企业领导对话的体感是：token 消耗在快速上升，业务价值没在同步上升。

这意味着企业 AI 进入了一个新约束阶段——不再是"有没有用"，而是"产出的有用结果能不能 cover 掉花的 token 钱"。

引入指标：Token Yield

Arvind 提出的新指标叫 token yield——单位 token 消耗下产出的有用结果。

为什么需要这个指标？因为 raw token usage 几乎从来不是"模型单挑出来的"，它由围绕模型的整套系统决定：

上下文怎么检索
工具怎么暴露
工作怎么分解
模型怎么路由
历史执行怎么被复用

架构一烂，token 账单就飞涨——和质量提升毫无关系。

用户写的 prompt 是冰山尖

很多人以为"prompt 越短，token 越省"。Arvind 拿了一个真实例子打脸：

"Analyze churn risk for these accounts and create follow-up tasks."

这句话本身很短。但它触发的实际 token 负载通常包括：

系统指令
工具 schema
检索回来的文档
中间推理
执行轨迹
记忆召回

在很多企业系统里，大部分 token 不是用户写的，是模型脚手架自己生成的。 浪费不是发生在某一条 prompt 里，是发生在系统设计上。

四个架构杠杆

Arvind 列出四个直接决定 token 效率的工程杠杆。

1. 上下文质量

企业 AI 大部分失败都从上下文开始。

模型自己不知道哪段上下文重要——它处理你塞给它的全部内容。上下文越长，模型"注意力的成本"就越高。检索噪声大，模型就会把推理预算花在错误信号上。

Glean 自家数据：在一个 Claude Cowork 风格的任务 benchmark 上，Glean 的集中式索引比开箱即用的 MCP 工具多 2.5 倍胜率，同时少消耗 30% token。更说明问题的是——当 MCP 工具赢在正确性上时，它用了 83k token，Glean 只用 43k。

结论：弱检索逼系统用更多工具调用、更多推理循环、更多 over-fetching 来补偿。 这就是差上下文的隐藏税。

2. 模型路由

不是 agentic 工作流里每一步都需要 frontier 推理。

企业 AI 大量工作是操作性任务：搜索、检索规划、工具选择、验证、执行管理。这些环节重要，但不一定需要栈里最贵的模型。

多模型架构的目标不是"到处用便宜模型"，是"按需分配智力"。

如果每一步默认走 frontier，等于用 frontier 价格买 routine 工作。right-size 模型使用，是提升 token yield 最直接的杠杆之一。

3. 持续学习

企业 AI 系统不该每次从头解决同类问题。

每次执行都产生信号：哪些工具有用、哪条检索路径 work、哪些步骤多余、哪些输出真帮用户把事做完了。

人类也这样——做完值得复用的工作，就写文档，下次不重造。企业 AI 应当照做。 累积的 trace 数据应当帮系统跳过冗余探索、避开失败路径、收敛到对的工作流。

没这个机制，系统每次都重复付同样的探索成本。

反过来说，能从历史执行学习的系统：减少冗余推理、跳过失败路径、更快收敛。结果不只是质量高，是重复工作的成本越来越低。最好的企业 AI 系统会这样复利。

4. Harness 设计

agents 承担越来越长、越来越多步的工作时，harness 就成了质量和成本的主要决定项。

naive harness 让 active context window 持续膨胀——每一步多带指令、多带工具、多带 state、多带中间输出。成本随工作流增长，可靠性通常同时下滑。

好的 harness 反过来：把上下文当作"需要管理"的东西，而不是"需要累积"的东西。

具体做法：把工具 scope 到当前步骤、必要时把工作分发给专业化 agent、externalize 中间 state、给每个模型只发它要的 working set。目标不只是支持更复杂的任务，是在上下文不爆炸的前提下支持它们。

真正的护城河：执行效率

Arvind 在文末画了一条非常清晰的边界：

模型提供智能，架构提供纪律。

过去两年，行业押注"模型越来越聪明 = 一切问题自动解决"。现在发现：模型再强，围在它周围的检索、路由、记忆、harness 任何一个漏出来，账单就飞。

下一步真正能拉开差距的，不是再用上更大模型，而是把每一次 token 消耗变成更多业务结果。

核心 takeaway

Token yield > token 消耗——后者是 cost，前者是 ROI
用户写的 prompt 是冰山尖，系统 prompt + 工具 schema + 检索 + 推理 + 记忆才是冰山
四个杠杆：上下文质量 / 模型路由 / 持续学习 / harness 设计——前两个直接省 token，后两个让系统复利
下次账单异常飞涨，先查架构，再查模型