Ashwin Gopinath 提出了企业 AI 的一个关键转折:token 归因(Token Attribution)是记分牌,但 memory 改变下一次运行。
Token 预算战争是真实的
Jaya Gupta 的"Token Budget Wars"框架是对的。企业 AI 已经从"是否采用"进入"如何分配"阶段。问题不再是 AI 是否有用,而是哪些工作流值得更多算力、哪些应该用更小模型、哪些应该封顶、哪些保持人工。
这就是 token-to-outcome 归因的意义。一张 token 账单本身不告诉你 AI 是否替代了人工、降低了风险、推动了收入、缩短了周期,还是只是把算力浪费在重试和无关上下文上。小规模时这看起来像实验,七位数时这变成运营问题。
但归因有个极限:它告诉你推理花在了哪里,不会自动减少下一次工作流需要多少推理。如果同一个 Agent 每次运行都重新读取同样的 Slack 线程、工单、文档、CRM 笔记、代码和先前尝试,那你只是给浪费建了一个更好的记分牌。
测量必须变成记忆
三者的区别:
- 归因告诉你一次运行是否值得
- Trace告诉你运行如何发生
- Memory决定 Trace 中哪些部分应该改变下一次运行
Token 成本会下降,但这不解决问题
最容易犯的错误是假设 token 压力会随价格下降而消失。它们会下降——模型提供商降价、小模型变好、硬件进步、缓存/批处理/量化/蒸馏/路由持续压低等效能力的成本。OpenAI 说 GPT-4o mini 比 GPT-3.5 Turbo 便宜 60% 以上,自 text-davinci-003 以来每 token 成本下降了 99%。
但这不意味着企业会用更少的 AI。
当智能变得更便宜,人们会找到更多使用它的地方。 原本只用于调试的编码 Agent 变成每个 pull request 的一部分。原本只用于战略账户的销售研究 Agent 变成每个账户都可用。原本只处理升级的客服 Agent 开始接触每个工单。
这就是 AI token 的杰文斯悖论:效率不一定减少总消耗,往往扩大消费合理的表面积。所以问题不是 token 成本是否下降——它们会。问题是每个推理单位是否在做有用的工作,还是更便宜的推理让同样的浪费以更高音量运行。
下一步:Trace 必须变成可复用状态
改善 AI 经济学有两条路径:
外部降价:等模型、硬件或提供商市场让每 token 更便宜。这会发生,也重要。但它不改变 Agent 行为。如果 Agent 仍然需要 10 万 token 重建状态,更便宜的 token 只是让重建不那么痛苦。
架构减耗:让 Agent 对同样结果需要更少的 token。这是 memory 的用武之地——模型不再需要在每次运行开头重新发现组织已经创建的上下文。
早期工作流测试中,Agent 在相同代码、客户或项目上下文上反复操作,结构化记忆将 token 使用减少了约 50-70%,且未观察到输出质量下降。这不是通用基准,它适用于有连续性的工作:代码库、客户、项目、实施工作、支持历史、重复运营工作流——这正是企业 Agent 所在的地方。
如果 memory 将 token 使用减半,买家听到的是"成本节省"。但更重要的转变是进攻性的:同样的 token 预算现在可以支持更深度的审查、更多调查、更广的账户覆盖、更多测试、更长运行的 Agent,以及之前太贵而不值得的工作流。Memory 不只是成本控制层,它是需求扩展层。
更大的上下文不是 memory
显而易见的错误解法:给模型更多上下文。更多文件、更多日志、更多工单、更多会议记录、更多 Slack、更多 CRM 历史、更多 trace、更多一切。
这比没有上下文好。但它创造了新的失败模式:模型有更多东西可读,但系统仍然没有决定什么重要。上下文窗口变成可能相关材料的垃圾填埋场,推理变成被派进去找有用碎片的挖掘机。
更大的上下文给模型更多可读的东西。Memory 决定什么不需要被重新读取。
Token-maxing 发生在 Agent 缺乏 memory、用推理重建本应被保存的上下文时。有些任务确实需要长上下文和重复工具调用,这没问题。浪费始于每次运行都为组织已经创建的上下文再次付费。
公司大脑不是更好的搜索框
知识库存储存在什么。记忆系统保存对未来行动重要的东西。这个区别很重要,因为 memory 不是通用的。
- 开发者需要文件依赖、失败测试、先前尝试、风险模块、人工修正
- 销售领导需要客户承诺、续费风险、开放承诺、账户历史
- CEO 需要决策、所有权、漂移、优先级随时间的变化
Jaya Gupta 说她厌倦了"上下文图"这个词。如果上下文图只是在把它们丢进检索之前链接 artifact,它没有解决更深层的问题。有用的版本必须捕获状态:什么改变了、谁拥有它、哪个先例重要、下一个 Agent 不应该重新发现什么。
公司大脑是这些记忆之下的共享基底。它不是更长的转录存储、更好的搜索框或通用向量数据库。它将工作 trace 转化为结构化记忆:决策、所有权、承诺、风险、先前尝试、变化的优先级、Agent 在工作流中走过的路径。这种结构让 Agent 检索状态而不是重建它。
通用 RAG 可能找到提到决策的文档。Memory 知道决策本身、谁拥有它、之后什么改变了、哪些证据支持它、是否仍然有效。
归因层需要记忆在底下支撑
企业需要知道每个解决工单、处理索赔、审查合同、完成发票、保留客户或避免错误雇佣的成本。他们需要路由、上限、模型选择和业务单元问责。
但如果归因不喂养记忆,企业会继续测量同样的浪费。工作流的 trace 应该解释上次运行的成本,然后让下一次运行更便宜。哪些检索重要、哪些工具无用、哪个异常导致重试尾部、哪个人工修正改变了答案、哪个先例解决了案例——所有这些都应该变成可复用状态。
企业 AI 的第一阶段证明了模型能做工作。下一阶段将决定多少工作值得做。获胜的公司会更好地分配 token,但也会记住足够多,让每个 Agent 从更少的考古学开始。
更便宜的 token 正在到来。没有 memory,更便宜的推理只是扩展了重新发现。