上个月我把 Claude 从 Pro 升到 Max,$200 一个月,心想这下总该用够用了吧。
第五天:本周额度已耗尽。
实践哥 MinLi 翻使用日志才看清楚钱花在哪:一次调研 47 篇论文的下午会话,单次就吃掉一周 10% 的额度。这种会话一周跑两三次,额度自然撑不住。
问题出在他一直在让 Claude 干它不擅长的事——当全文检索引擎。
把 50k 字符的日志塞进对话,问一个问题,日志全文就要被算一次 input token;再问一个,就算命中了 prompt cache(单价只剩 1/10),主会话也会随轮次缓慢累加。更糟的是 cache 有 1h TTL,间隔久了就得重写一次全价。这就好比每次问律师问题,都让他把你 50 页的合同先朗读一遍再开口。
核心框架:老师 + 助手 + 课题负责人
顺着"Claude 擅长什么"这个思路,MinLi 找到了 NotebookLM,并总结出一套分工框架:
- NotebookLM 是老师:亲自采集进去的论文、财报、笔记形成它的知识库。你问它,它答经验,答案带引用,边界在源内,不乱外推。
- Claude 是助手:负责写代码、跑脚本、整理结果、编排工具。不懂就去问老师,拿到答案继续干活。
- 你是课题负责人:只在关键决策点介入。
为什么这样分工省钱
一、RAG vs 塞 context 是两种完全不同的成本模型
把 50k 字符日志塞进 Claude 对话,这坨数据就被算进 input token。每问一次就要被"看"一次,成本随语料大小线性涨。走 RAG 则是 NotebookLM 内部用向量检索命中相关片段,Claude 只看到几百字的蒸馏答案,成本近乎常数。
二、Prompt Cache 有 1h TTL,研究场景命中率很低
很多人以为开了 cache 就万事大吉。实际 Anthropic 的 prompt cache 默认只存 1 小时,超时就自动失效;思考几分钟、切去做别的、或者开新 session,下一次调用就得按全价把语料重写一次 cache_creation。研究性会话恰好是"问一下、想一会、再问一下"的节奏,命中率惨不忍睹——这是账单暴涨的真正原因。
三、基于事实输出更高效
NotebookLM 的答案被约束在你上传的源里,每句话带 [1][2] 引用,点回原文。不会胡编。Claude 拿这种答案做决策,不用反复让它"再确认一下",省下的是更难量化的那部分时间成本。
NotebookLM 独立已很强
光独立使用已经很有价值:
- 免费档 50 个源 / Pro 档 300 个
- 处理能力不要钱,上传、索引、生成、对话——全走 Google 算力
- 能把整个 notebook 直接生成音频播客(通勤听最舒服)、思维导图、PPT、闪卡
- 格式支持:PDF、网页 URL、YouTube 字幕、Google Docs、纯文本、图片 OCR、音频转写
两个卡点:Tab 切换和本地工具
用着用着发现两个卡点:
卡点一:心流被切 tab 切烂 问问题 → 得答案 → 点引用跳原文 → 读完一段 → 回 notebook 复制答案 → 切到 Claude Code → 做完实验 → 发现少一篇资料 → 切到 Google 搜 → 切到下载 → 切回 notebook 加源 → 继续问……一下午切 200 次 tab。
卡点二:跟本地工具是两个世界 排查线上事故时把日志灌进 notebook 后能查,但还要同时在终端 grep 本地配置、看 k8s events、起 pod 复现——网页不能帮忙跑任何本地命令。
解法:把 NotebookLM 变成 Claude 的 Skill
把 NotebookLM 变成 Claude 的一个工具——Claude 需要领域知识时,自己去问老师。
Claude Code
↓(需要领域知识时)
NotebookLM(只读知识库,47 篇论文在里面)
↓(带引用的蒸馏答案)
Claude Code 继续执行
MinLi 给出了直接可用的 Claude Code prompt 模板(贴进去就能跑):
# 角色
你是我的研究助手。我的课题老师是一个固定的 NotebookLM notebook
(id: 替换成你的),里面装着相关论文。
你通过 notebooklm skill(`/notecraft chat` 等命令)跟老师对话。
# 铁律
1. 任何涉及论文观点、公式、方法、已知坑的问题,
**先 /notecraft chat 问老师**,不要凭记忆回答。
2. 老师是**只读咨询台**:不要把笔记、代码回灌进 notebook。
3. 老师的答案带 [1][2] 引用,保留原样。
4. 中间要不要再问一次老师,你自己判断。
5. 老师答不上或引用弱的问题,明确说"老师无解"。
# 工作流程
① 我给你课题/子问题
② 识别哪些点需要领域知识
③ 对这些点逐条 /notecraft chat,拿到带引用答案
④ 用答案驱动执行:写代码、跑脚本、grep 本地文件
⑤ 执行中冒出新疑问就回到 ③ 再问老师
⑥ 最终输出给我结论(含引用)、代码/实验结果、open question
谁不用看下面了
- 语料 < 5k tokens、只查一两次——直接问 Claude,别折腾
- 需求是纯 Q&A、不嵌工作流——NotebookLM 网页直接用就够了
- 在乎响应速度超过账单——慢 3 倍受不了
谁继续往下读
- 想要具体的安装步骤和避坑指南
- 在用 Claude Code 想把 NotebookLM 变成一个 skill
- 想看学者/学生、打新股/读招股书、个人知识库等场景怎么落地
真正省 Claude token 的办法不是开 cache,是让重数据一开始就不进 Claude。