← 返回 FEED
AGENT2026-04-22

把 DSPy GEPA RLM 打包成 Agent Skills:终于有办法让 AI 真正学会写 DSPy 程序了

Bryan Young 在 X 上分享了他花了两个月搭建的一个工具包:把 DSPy、GEPA、RLM 这三块 Stanford NLP 的前沿研究,封装成五个可以直接给 AI 编程 Agent 用的 Skills。

解决什么问题

他想让 Claude Code 和 Codex CLI 帮他写 DSPy 代码,但每次都是同一个流程:先粘贴一段解释 Signatures、Modules、GEPA 为什么需要丰富度量反馈的说明,AI 点头表示理解了,生成出来的代码却用着废弃的 import,或者从 metric 返回一个 dict 而不是 dspy.Prediction,一跑就崩溃在 dspy.Evaluate 里。

研究都在,工具都在,文档都在。缺的是一个精心整理过的、符合规范的「知识包」,像 onboarding 新队友一样一次性传递给 Agent。

三个核心技术是什么

DSPy(Stanford NLP,2023 年 10 月):核心理念是「把提示词写成程序」。用 typed Signature 声明输入输出的契约,组合 Modules,让优化器自动调整真实的提示词和 few-shot 示例。原始论文的数字:在 GPT-3.5 和 Llama2-13B 上,比标准 few-shot prompting 提升超过 25% 和 65%。

GEPA(ICLR 2026 Oral):全称 Genetic-Pareto Evolutionary Prompt Adaptation。用遗传-帕累托方法让语言模型对「候选程序为什么失败」进行纯英文反思,然后相应地修改程序指令。在 AIME-2025 等基准上比 GRPO 风格的 RL 平均高 6%,最高达 20%,同时少用多达 35 倍的 rollouts。需要度量函数能够解释「为什么错了」,而不是只返回一个分数。

RLM(Zhang, Kraska, Khattab,2025 年 12 月):把 Prompt 当作环境而非载荷。在沙盒 Python REPL 里,模型写代码来切分、汇总、递归子查询任意大的输入。基于 Qwen3-8B 的 RLM 比 base Qwen3-8B 平均高出 28.3%,接近 GPT-5 的长上下文表现,同时处理超出底层上下文窗口两个数量级的输入。

五个 Skill 覆盖完整工作流

  1. dspy-fundamentals:Typed Signatures、Modules、Predict/ChainOfThought/ReAct/ProgramOfThought、save/load。「这个语言长什么样」的入门知识。

  2. dspy-evaluation-harness:返回 dspy.Prediction(score=..., feedback=...) 的度量函数。不是 dict——后者会直接导致 dspy.Evaluate 的并行聚合器崩溃。

  3. dspy-gepa-optimizer:完整的 GEPA API,包括所有构造函数参数、组合度量函数的配方,以及为什么反射 LM 比任务 LM 更重要的原因。

  4. dspy-rlm-module:何时用 RLM vs ReAct vs 普通的 ChainOfThought,如何搭配一个便宜的子 LM,Deno 依赖怎么配。

  5. dspy-advanced-workflow:七步循环——spec → program → metric → baseline → GEPA → export → deploy,把前四个 Skill 串联起来。

他设定的门槛

两个测试标准。第一,任何好奇的 AI 工程师克隆仓库后,用免费层 API key 在五分钟内完成安装和冒烟测试,不需要改任何源码。第二,Skill 里的每一条声明都可以溯源到官方文档——DSPy 官方文档、GEPA 论文、Claude Code 和 Codex CLI 的官方文档。他用 Claude Code 自己在文档上跑了四轮审查,每轮找出自己引入的细节错误,加上回归测试堵住漏洞。最终测试套件有 60 条断言。


安装方式:

/plugin marketplace add intertwine/dspy-agent-skills
/plugin install dspy-agent-skills@dspy-agent-skills

然后对 Agent 说:「用 DSPy 构建一个情感分类器,用 GEPA 优化它,然后保存 artifact。」