20 种减少 Token 浪费的 Agent 优化技巧

一个开发者回复："我每个月在 AI 上花 200 多美元，只有 5-10 美元是真正 productive 的，其他都是 bs。"

当 agent 变贵、变慢或撞上限时，第一反应是怪模型。但大多数时候，推理不是主要成本。真正烧 token 的是每次循环喂回去的重复内容：相同的启动规则、一批不会使用的工具、上一个任务的历史、一墙未过滤的日志。

7 个检查点

在怪模型之前，先翻这 7 个收据：

哪些启动文件被注入了这一轮
哪些工具 schema 对当前任务不需要
是否有工具输出长度失控
对话历史是否从上一个任务 bleed 进来
记忆是否还持有旧任务进度
哪些确定性步骤其实属于脚本
最终输出能否压缩为 verdict + evidence + next action

20 种优化技巧

上下文管理

1. 先看上下文收据再换模型

OpenClaw：/status、/context list、/context detail、/context map、/usage tokens、/compact Hermes：/usage、/compress、/skills、/tools

2. 精简启动文件

AGENTS.md、SOUL.md、MEMORY.md 是最容易的膨胀点。只保留稳定的身份、硬边界和长期偏好。低频工作流放入 skills 或 docs，需要时读取。

3. 身份与工作流分离

身份说 agent 是谁。工作流说怎么做这个任务。混在一起，每个任务都读一堆只适用于旧任务的步骤。

4. Skills 应可发现，不预加载

完整 SKILL.md 不需要在每个提示里。保留短元数据让 agent 知道何时拉入 skill，执行时才读取完整内容。

5. 关闭不需要的工具集

写作任务携带浏览器、视频、Discord 管理、智能家居 schema，工具描述在模型动手前已吃掉大量上下文。

文件与日志

6. 先搜索，再切片读取

让 agent 读取整个文件很方便，也很贵。20 行的问题不该产生 2000 行的账单。先搜索定位，再用 offset 和 limit 读取最小切片。

7. 过滤日志再给模型看

测试失败时 dump 整个日志，模型花 token 读数千行警告，最后只返回 traceback 和最后 30 行。用 grep 先过滤。

8. 同样数据三次？写脚本

如果 agent 需要获取、过滤、去重同一类数据超过三次，写小 Python 脚本压缩为表格、计数、Top 列表或 JSON 摘要。

9. 原始材料存磁盘

长报告、长逐字稿、完整搜索结果：写入 Markdown/HTML/JSON/CSV。Agent 得到的是路径、摘要、证据链和下一步。

10. 搜索仓库，不要 dump

展示整个仓库通常只是用上下文账单交换不确定性。按查询、路径、符号搜索。

会话与记忆

11. 主动 compact

会话越长，旧判断、旧错误、旧绕路越容易拖入新任务。OpenClaw：/compact。Hermes：/compress + /usage。

12. 任务变了？开新会话

研究会话突然变成 bugfix 会话，会拖入一堆无关材料。切换任务时，写简短交接，然后开新会话。

13. 保存决策，不保存聊天

长期记忆持有任务进度、临时计划、PR 号时，会迅速变成 clutter。只保留稳定偏好、环境事实、长期协议和可重用工作流。

14. 按需检索旧细节

每月用一次的信息不值得在每个提示里永久交租。通过历史搜索或记忆搜索找回。项目事实存在仓库、docs 或知识库。

15. 记忆需要作用域和过期时间

写记忆时明确适用范围和可能过期时间。项目规则放仓库，个人偏好放 profile memory，临时状态放每日文件。

自动化与路由

16. 确定性检查交给脚本

健康检查、RSS 拉取、阈值警报、确认文件存在：都不需要大模型。脚本能处理的先交给脚本。

17. 排序、计数、转换：代码的工作

让模型数行、排序、清理 CSV、过滤 JSON 既贵又容易出错。终端或 Python 先处理，给模型结构化结果判断。

18. 小任务路由到更便宜模型

提取、分类、粗略摘要用最强模型，让日常杂务吃掉预算。但便宜模型对 prompt injection 更脆弱——不要为了省 token 缩小安全边界。

19. 给 agent 预算和停止条件

没有边界，agent 会不断读取、搜索、修补。开始前写明：最多多少文件、最多多少命令、什么算完成、何时停止。

20. 输出 receipt-first

下一个 agent 不想继承大段过程日志。它想要结论、证据、风险、下一步。长内容存磁盘，交接只携带 Decision、Default、Evidence、Risks、Next action。

核心原则

当 agent 出问题（贵、慢、限流）时，先翻 7 个收据。如果都干净，再怪模型。

大多数时候，问题在到达模型之前就已经解决了。