Bryan Young 在 X 上分享了他花了两个月搭建的一个工具包:把 DSPy、GEPA、RLM 这三块 Stanford NLP 的前沿研究,封装成五个可以直接给 AI 编程 Agent 用的 Skills。
解决什么问题
他想让 Claude Code 和 Codex CLI 帮他写 DSPy 代码,但每次都是同一个流程:先粘贴一段解释 Signatures、Modules、GEPA 为什么需要丰富度量反馈的说明,AI 点头表示理解了,生成出来的代码却用着废弃的 import,或者从 metric 返回一个 dict 而不是 dspy.Prediction,一跑就崩溃在 dspy.Evaluate 里。
研究都在,工具都在,文档都在。缺的是一个精心整理过的、符合规范的「知识包」,像 onboarding 新队友一样一次性传递给 Agent。
三个核心技术是什么
DSPy(Stanford NLP,2023 年 10 月):核心理念是「把提示词写成程序」。用 typed Signature 声明输入输出的契约,组合 Modules,让优化器自动调整真实的提示词和 few-shot 示例。原始论文的数字:在 GPT-3.5 和 Llama2-13B 上,比标准 few-shot prompting 提升超过 25% 和 65%。
GEPA(ICLR 2026 Oral):全称 Genetic-Pareto Evolutionary Prompt Adaptation。用遗传-帕累托方法让语言模型对「候选程序为什么失败」进行纯英文反思,然后相应地修改程序指令。在 AIME-2025 等基准上比 GRPO 风格的 RL 平均高 6%,最高达 20%,同时少用多达 35 倍的 rollouts。需要度量函数能够解释「为什么错了」,而不是只返回一个分数。
RLM(Zhang, Kraska, Khattab,2025 年 12 月):把 Prompt 当作环境而非载荷。在沙盒 Python REPL 里,模型写代码来切分、汇总、递归子查询任意大的输入。基于 Qwen3-8B 的 RLM 比 base Qwen3-8B 平均高出 28.3%,接近 GPT-5 的长上下文表现,同时处理超出底层上下文窗口两个数量级的输入。
五个 Skill 覆盖完整工作流
-
dspy-fundamentals:Typed Signatures、Modules、Predict/ChainOfThought/ReAct/ProgramOfThought、save/load。「这个语言长什么样」的入门知识。
-
dspy-evaluation-harness:返回
dspy.Prediction(score=..., feedback=...)的度量函数。不是 dict——后者会直接导致dspy.Evaluate的并行聚合器崩溃。 -
dspy-gepa-optimizer:完整的 GEPA API,包括所有构造函数参数、组合度量函数的配方,以及为什么反射 LM 比任务 LM 更重要的原因。
-
dspy-rlm-module:何时用 RLM vs ReAct vs 普通的 ChainOfThought,如何搭配一个便宜的子 LM,Deno 依赖怎么配。
-
dspy-advanced-workflow:七步循环——spec → program → metric → baseline → GEPA → export → deploy,把前四个 Skill 串联起来。
他设定的门槛
两个测试标准。第一,任何好奇的 AI 工程师克隆仓库后,用免费层 API key 在五分钟内完成安装和冒烟测试,不需要改任何源码。第二,Skill 里的每一条声明都可以溯源到官方文档——DSPy 官方文档、GEPA 论文、Claude Code 和 Codex CLI 的官方文档。他用 Claude Code 自己在文档上跑了四轮审查,每轮找出自己引入的细节错误,加上回归测试堵住漏洞。最终测试套件有 60 条断言。
安装方式:
/plugin marketplace add intertwine/dspy-agent-skills
/plugin install dspy-agent-skills@dspy-agent-skills
然后对 Agent 说:「用 DSPy 构建一个情感分类器,用 GEPA 优化它,然后保存 artifact。」