用 NotebookLM 立省 80% Token：NotebookLM 当老师，Claude 当助手

上个月我把 Claude 从 Pro 升到 Max，$200 一个月，心想这下总该用够用了吧。

第五天：本周额度已耗尽。

实践哥 MinLi 翻使用日志才看清楚钱花在哪：一次调研 47 篇论文的下午会话，单次就吃掉一周 10% 的额度。这种会话一周跑两三次，额度自然撑不住。

问题出在他一直在让 Claude 干它不擅长的事——当全文检索引擎。

把 50k 字符的日志塞进对话，问一个问题，日志全文就要被算一次 input token；再问一个，就算命中了 prompt cache（单价只剩 1/10），主会话也会随轮次缓慢累加。更糟的是 cache 有 1h TTL，间隔久了就得重写一次全价。这就好比每次问律师问题，都让他把你 50 页的合同先朗读一遍再开口。

核心框架：老师 + 助手 + 课题负责人

顺着"Claude 擅长什么"这个思路，MinLi 找到了 NotebookLM，并总结出一套分工框架：

NotebookLM 是老师：亲自采集进去的论文、财报、笔记形成它的知识库。你问它，它答经验，答案带引用，边界在源内，不乱外推。
Claude 是助手：负责写代码、跑脚本、整理结果、编排工具。不懂就去问老师，拿到答案继续干活。
你是课题负责人：只在关键决策点介入。

为什么这样分工省钱

一、RAG vs 塞 context 是两种完全不同的成本模型

把 50k 字符日志塞进 Claude 对话，这坨数据就被算进 input token。每问一次就要被"看"一次，成本随语料大小线性涨。走 RAG 则是 NotebookLM 内部用向量检索命中相关片段，Claude 只看到几百字的蒸馏答案，成本近乎常数。

二、Prompt Cache 有 1h TTL，研究场景命中率很低

很多人以为开了 cache 就万事大吉。实际 Anthropic 的 prompt cache 默认只存 1 小时，超时就自动失效；思考几分钟、切去做别的、或者开新 session，下一次调用就得按全价把语料重写一次 cache_creation。研究性会话恰好是"问一下、想一会、再问一下"的节奏，命中率惨不忍睹——这是账单暴涨的真正原因。

三、基于事实输出更高效

NotebookLM 的答案被约束在你上传的源里，每句话带 [1][2] 引用，点回原文。不会胡编。Claude 拿这种答案做决策，不用反复让它"再确认一下"，省下的是更难量化的那部分时间成本。

NotebookLM 独立已很强

光独立使用已经很有价值：

免费档 50 个源 / Pro 档 300 个
处理能力不要钱，上传、索引、生成、对话——全走 Google 算力
能把整个 notebook 直接生成音频播客（通勤听最舒服）、思维导图、PPT、闪卡
格式支持：PDF、网页 URL、YouTube 字幕、Google Docs、纯文本、图片 OCR、音频转写

两个卡点：Tab 切换和本地工具

用着用着发现两个卡点：

卡点一：心流被切 tab 切烂 问问题 → 得答案 → 点引用跳原文 → 读完一段 → 回 notebook 复制答案 → 切到 Claude Code → 做完实验 → 发现少一篇资料 → 切到 Google 搜 → 切到下载 → 切回 notebook 加源 → 继续问……一下午切 200 次 tab。

卡点二：跟本地工具是两个世界 排查线上事故时把日志灌进 notebook 后能查，但还要同时在终端 grep 本地配置、看 k8s events、起 pod 复现——网页不能帮忙跑任何本地命令。

解法：把 NotebookLM 变成 Claude 的 Skill

把 NotebookLM 变成 Claude 的一个工具——Claude 需要领域知识时，自己去问老师。

Claude Code
  ↓（需要领域知识时）
NotebookLM（只读知识库，47 篇论文在里面）
  ↓（带引用的蒸馏答案）
Claude Code 继续执行

MinLi 给出了直接可用的 Claude Code prompt 模板（贴进去就能跑）：

# 角色
你是我的研究助手。我的课题老师是一个固定的 NotebookLM notebook
(id: 替换成你的)，里面装着相关论文。
你通过 notebooklm skill（`/notecraft chat` 等命令）跟老师对话。

# 铁律
1. 任何涉及论文观点、公式、方法、已知坑的问题，
   **先 /notecraft chat 问老师**，不要凭记忆回答。
2. 老师是**只读咨询台**：不要把笔记、代码回灌进 notebook。
3. 老师的答案带 [1][2] 引用，保留原样。
4. 中间要不要再问一次老师，你自己判断。
5. 老师答不上或引用弱的问题，明确说"老师无解"。

# 工作流程
① 我给你课题/子问题
② 识别哪些点需要领域知识
③ 对这些点逐条 /notecraft chat，拿到带引用答案
④ 用答案驱动执行：写代码、跑脚本、grep 本地文件
⑤ 执行中冒出新疑问就回到 ③ 再问老师
⑥ 最终输出给我结论（含引用）、代码/实验结果、open question

谁不用看下面了

语料 < 5k tokens、只查一两次——直接问 Claude，别折腾
需求是纯 Q&A、不嵌工作流——NotebookLM 网页直接用就够了
在乎响应速度超过账单——慢 3 倍受不了

谁继续往下读

想要具体的安装步骤和避坑指南
在用 Claude Code 想把 NotebookLM 变成一个 skill
想看学者/学生、打新股/读招股书、个人知识库等场景怎么落地

真正省 Claude token 的办法不是开 cache，是让重数据一开始就不进 Claude。