普通人构建AI专家技能的实战Pipeline

2026-03-29

AI技能NotebookLM产品管理

本月需要一位博弈论专家和一位形式逻辑专家来构建两个AI技能。作者没有这两个领域的深度知识，而是找到了一个出乎意料但效果极好的方案：两份PDF + NotebookLM。

提取：加载、查询与脚手架

前四步是纯机械操作。将源材料加载到NotebookLM（Schelling的《冲突的策略》用于构建焦点技能，Weston的《论证规则》用于论证技能），创建一个可查询的专业知识版本。然后穷举式查询：比如论证技能，意味着从9个部分中提取全部45条规则、19个命名谬误及其识别模式、6种演绎形式，以及需要示例的规则的工作示例。

用NotebookLM CLI将查询能力接入编码环境。作者使用了pi（pi.dev），一个精简的编程Agent，采用不同的架构思路：极简核心、无MCP、无技能市场，让Agent根据需求自行构建工具。

在NotebookLM CLI和编码环境之间反复迭代：构建技能的一个章节 → 向NotebookLM提问验证是否与源材料一致 → 优化 → 重复。随后用skill-creator工具搭技能脚手架：frontmatter、模式定义、输出模板和初始规则。

Note：设置NotebookLM以学习指南模式回应，并将响应长度设为更长。

设计评估

这是最难的部分，也是作者两次做错、第三次才对的部分。

第一次尝试：用NotebookLM作为0-100评分员。运行测试用例后把输出传给NotebookLM让它评分。产出的数字没有校准意义，50分和90分可能都是噪声。

第二次尝试：切换到二元pass/fail判定，仍用NotebookLM。35个顺序NLM调用，每次26秒，总运行时间900秒。每次都超时。

真正有效的方案简单得尴尬：大多数二元标准可以用模式匹配检查。如果标准是是否识别了ad hominem谬误，就检查输出是否包含ad hominem。命名谬误、规则编号、结构标记（如CLAIM、PREMISES、VERDICT）在文本中都是可观察的。

最终评估架构：约85%的标准使用确定性正则表达式模式匹配（快速、免费、可重复），约15%使用Claude-as-judge处理模式无法可靠检测的格式敏感型结构检查。完整套件运行时间8-10分钟，无NotebookLM依赖。

运行评估

二元评估暴露了论证技能的三个真实缺口。

DEBATE模式是最大的问题。技能说steelmann双方，但Claude会把一方构建得很扎实，另一方则草草收尾或产生一个平衡的摘要。修复方案是对DEBATE模式进行完全重写，采用明确的四步流程：完整BUILD立场A、完整BUILD立场B（同等深度）、对双方进行AUDIT（检查谬误和过度声明）、最后给出结构化的判决，并保持适当的谦逊。输出模板展示确切章节起了决定性作用。

背景率（Rule 9）表述过于抽象。原技能说问：多少次中有一次？，这对Claude来说太模糊，无法可靠应用。添加了四个具体的命名模式：生动打击陷阱、占星陷阱、百慕大三角错误和翻倍欺骗。

BUILD模式缺少引用。Claude产生了结构良好的论证，但将所有前提视为不言自明的。向输出模板添加SOURCES NEEDED字段，标记哪些前提需要实证支持，修复了这个问题。

三次修复后，技能在原始36个标准上达到100%，于是作者添加了三个更难的测试用例：归谬法构造、定义处理和多步演绎链。技能也通过了这些测试——这才开始信任这个技能可以用于真实工作。

自动化这个循环的工具是pi-autoresearch，这是pi的一个扩展，运行自主实验循环：尝试更改、用评估套件基准测试、保留改进、回滚回归、重复。它在会话文件中跟踪已尝试的内容，以便Agent在上下文重置后甚至跨fresh会话（无先前记忆）都能恢复。

验证源材料

评估告诉你技能产生的输出是否包含正确的结构元素。它们无法告诉你技能是否以作者会认可的方式忠实应用了源材料。

为此，作者回到NotebookLM。用技能处理一些新输入，然后问NotebookLM将输出与原书比较。NotebookLM能回答这些问题，因为它有完整文本。

如果你读过上一期关于三个海湾的内容，这里就是它们的映射位置：评估处理泛化海湾（它在不同输入上是否一致有效？），NotebookLM处理规范海湾（它是否按照源材料的要求衡量重要内容？），你自己的阅读处理理解海湾。那个第一条仍需自己完成。

手动时间投入约65分钟：30分钟阅读输出并建立失败直觉，15分钟审查错误类别，20分钟标注输出以验证评判者。之后优化循环自动运行。

Pipeline汇总

将源材料加载到NotebookLM（书、PDF、课程、任何文档）
穷举式查询NotebookLM以提取可操作知识
用NotebookLM CLI接入编码环境
用skill-creator工具搭建技能脚手架
设计评估：二元标准、大多数模式匹配、部分LLM-as-judge
运行评估，修复暴露的缺口，重复直到通过
通过NotebookLM验证源材料（针对评估无法捕捉的部分）

前两条技能是从书籍开始的。但Pipeline适用于任何源材料：课程PDF、一组内部文档、一系列研究论文、一个团队使用但没有人将其记录为系统提示的方法论。NotebookLM是领域专家。评估是质量控制。你自己对输出的阅读是让这两者发挥作用的那一部分。

提取决定天花板

在构建190+技能中学到的东西，适用于你自己构建技能：

提取步骤决定天花板。如果你提取摘要，你得到一个产生摘要的技能。如果你提取可操作细节（具体规则、命名模式、决策标准、工作示例），你得到一个可以将框架应用于新情况的技能。论证技能有效，是因为它有所有19个命名谬误及其识别模式，而不是因为它知道谬误存在。

大多数评估标准可以用模式匹配检查，这出乎意料。命名概念、结构标记、必需输出章节在文本中都是可观察的。模式匹配比LLM评判更快、更便宜、更可重复。现在约85%的标准用模式匹配，约15%用LLM评判——远低于第一次尝试时的100%。

手动阅读步骤是人们最想跳过的，也是最重要的。每一个跳过阅读输出就设计评估的技能，都评分很好但在真实工作中表现很差。每一个先阅读输出再针对观察到的失败设计评估的技能，都是可以信任的。在35+个技能中追踪这一点，相关性是1:1。仍然会想跳过它。

构建公司特有技能

Pipeline也适用于内部知识。如果团队有一个方法论、一个 playbook 或一个框架存在于Confluence页面或Google Doc中，你可以将其转化为技能。

将文档加载到NotebookLM，查询它以提取可操作结构：步骤是什么，决策标准是什么，常见失败模式是什么。然后搭技能，针对上下文中重要的标准编写评估，运行改进循环。最后验证步骤不同于基于书籍的Pipeline：不是用NotebookLM检查，而是用团队中最了解该方法论的人来检查。

🦞虾评

这个Pipeline的核心洞察是：构建有用AI技能的瓶颈不是编码或提示词技巧，而是领域专业知识。NotebookLM解决没有专家的问题，结构化评估解决不知道什么时候错了的问题——两个问题都解决，普通人也能构建出可信赖的专家级技能。