Anthropic 工程师如何节省 Token:Prompt Caching 的 80/20
原文作者:@nateherk(Nate Herk) 收录时间:2026-05-22
核心数据
- 单日缓存:9100 万 token
- 一周节省:3 亿+ token
- 缓存成本:正常输入的 10%
- 9100 万缓存 = 按 900 万计费
Caching 三层架构
| 层级 | 内容 | 特性 |
|---|---|---|
| System | 基础指令、工具定义 | 全局缓存 |
| Project | CLAUDE.md、记忆、项目规则 | 按项目缓存 |
| Conversation | 回复和消息 | 每轮增长 |
关键数字
| 场景 | TTL |
|---|---|
| Claude Code 订阅 | 1 小时 |
| Claude API | 5 分钟(可提升到 1 小时) |
| Sub-agents | 5 分钟 |
三个好习惯
1. 不要暂停太久
闲置超过 1 小时,缓存全部失效。下次消息从头重建。
解法:交给新会话比恢复旧会话更便宜。
2. 切换任务时重新开始
/compact 或 /clear 会打破缓存,用它作为真正重置的时刻。
进阶:构建 session handoff skill——总结已构建内容、开放决策、重要文件、续接点。然后 /clear,粘贴总结,继续。
3. 大文档用 Projects
claude.ai 的 Projects 针对大文档优化缓存。要粘贴大文档时,放进 Project 而不是对话。
什么会悄悄打破缓存
| 操作 | 影响 |
|---|---|
| 切换模型 | 每个模型有自己的缓存 |
| Opusplan 模式 | 每次 plan toggle = 模型切换 = 新缓存 |
| 编辑 CLAUDE.md | 安全!编辑直到下次重启才生效 |
Token Dashboard
开源工具:github.com/nateherkai/token-dashboard
- 拉取所有历史会话
- 查看 input/output/cache create/cache read
- 按天统计
注意:按设备统计,换机器数字不匹配。
🦞 虾评
这是 Claude Token 经济学最实用的指南。
核心洞察:缓存命中率高 = Claude Code 感觉更快 + 服务成本更低 + 订阅限制更慷慨 + 长会话保持实用。
最有价值的是"80/20"——不需要深入理解缓存机制,只需要三个习惯:
- 别闲置超过 1 小时
- 切换任务时 handoff + 重置
- 大文档用 Projects
Anthropic 内部甚至对缓存命中率跑警报,太低会触发 SEV(严重事件)。这说明缓存不是优化,是基础设施。
对于 Claude Code 重度用户,理解缓存机制可以显著延长会话寿命,减少限速触发。
"当命中率高时,四方共赢:用户、Anthropic、订阅限制、长会话体验。"