Ole Lehmann 发了一篇关于如何用 Karpathy 的 AutoResearch 方法 10x 你的 Claude Skills 的文章。Shann Holmberg 转发说:Karpathy 的 AutoResearch 正在改变营销活动的优化方式,大多数营销人还没听说过。

这篇推文的背景信息:Lehmann 把这个方法用到落地页文案,通过率从 56% 提升到 92%,一夜之间

Karpathy 的 AutoResearch 是什么

Andrej Karpathy 提出的一个思路:不是让人来设计更好的模型,而是让模型自己生成实验、自己运行、自己根据结果迭代

本质是一个自动化循环:

  1. 有一个待优化的系统
  2. 系统生成改进假设
  3. 在真实任务上运行实验
  4. 根据结果更新系统
  5. 重复

类比:如果传统的模型优化是手工调参,AutoResearch 就是让模型自己当自己的研究员。

迁移到 Claude Skills

Lehmann 的迁移思路:

Skill 的问题不是写出来的,是跑出来的。

Skill 写完之后,你以为它工作正常。但 Lehmann 的发现:Skill 大概 30% 的时间是失败的,但你根本没注意到——因为失败的时候你以为是「任务本身难」,而不是「Skill 有问题」。

AutoResearch 方法在这里的应用:

  1. 让 Skill 在真实任务上运行,记录失败案例
  2. 分析失败模式,找到 Skill 设计的缺陷
  3. 自动生成改进版本的 Skill 指令
  4. 在新版本上重跑,对比通过率
  5. 重复迭代,直到 Skill 在真实任务上稳定

不是人工 review,是Skill 自己找自己的弱点,自己改自己

落地页通过率:56% → 92%

Lehmann 把这套方法用在了落地页文案上。

核心逻辑:落地页是一个高频重复的写作任务,Skill 跑多了就能自动找到什么写法通不过、什么写法能通过。

一夜之间的变化:56% → 92%。

推动这个结果的不是人工优化提示词,而是让 Skill 自己在真实流量上做 A/B 测试,失败案例驱动 Skill 自动迭代

为什么这个思路值得注意

Skill 的问题是它写完之后就被当成静态工具用。但 Skill 是过程,不是终点。

Karpathy 的 AutoResearch 思路给了这个问题一个答案:你不需要一开始就把 Skill 写对,你需要让 Skill 有能力在真实任务中自我修正。

这不是提示词优化技巧,是一套系统化的 Skill 迭代方法论。


原文 tweet:https://x.com/shannholmberg/status/2036461256006357409 Ole Lehmann原文(需访问):itsolelehmann.com/blog/how-to-10x-your-claude-skills-using-karpertys-autoresearch-method