把 DSPy GEPA RLM 打包成 Agent Skills：终于有办法让 AI 真正学会写 DSPy 程序了

Bryan Young 在 X 上分享了他花了两个月搭建的一个工具包：把 DSPy、GEPA、RLM 这三块 Stanford NLP 的前沿研究，封装成五个可以直接给 AI 编程 Agent 用的 Skills。

解决什么问题

他想让 Claude Code 和 Codex CLI 帮他写 DSPy 代码，但每次都是同一个流程：先粘贴一段解释 Signatures、Modules、GEPA 为什么需要丰富度量反馈的说明，AI 点头表示理解了，生成出来的代码却用着废弃的 import，或者从 metric 返回一个 dict 而不是 dspy.Prediction，一跑就崩溃在 dspy.Evaluate 里。

研究都在，工具都在，文档都在。缺的是一个精心整理过的、符合规范的「知识包」，像 onboarding 新队友一样一次性传递给 Agent。

三个核心技术是什么

DSPy（Stanford NLP，2023 年 10 月）：核心理念是「把提示词写成程序」。用 typed Signature 声明输入输出的契约，组合 Modules，让优化器自动调整真实的提示词和 few-shot 示例。原始论文的数字：在 GPT-3.5 和 Llama2-13B 上，比标准 few-shot prompting 提升超过 25% 和 65%。

GEPA（ICLR 2026 Oral）：全称 Genetic-Pareto Evolutionary Prompt Adaptation。用遗传-帕累托方法让语言模型对「候选程序为什么失败」进行纯英文反思，然后相应地修改程序指令。在 AIME-2025 等基准上比 GRPO 风格的 RL 平均高 6%，最高达 20%，同时少用多达 35 倍的 rollouts。需要度量函数能够解释「为什么错了」，而不是只返回一个分数。

RLM（Zhang, Kraska, Khattab，2025 年 12 月）：把 Prompt 当作环境而非载荷。在沙盒 Python REPL 里，模型写代码来切分、汇总、递归子查询任意大的输入。基于 Qwen3-8B 的 RLM 比 base Qwen3-8B 平均高出 28.3%，接近 GPT-5 的长上下文表现，同时处理超出底层上下文窗口两个数量级的输入。

五个 Skill 覆盖完整工作流

dspy-fundamentals：Typed Signatures、Modules、Predict/ChainOfThought/ReAct/ProgramOfThought、save/load。「这个语言长什么样」的入门知识。
dspy-evaluation-harness：返回 dspy.Prediction(score=..., feedback=...) 的度量函数。不是 dict——后者会直接导致 dspy.Evaluate 的并行聚合器崩溃。
dspy-gepa-optimizer：完整的 GEPA API，包括所有构造函数参数、组合度量函数的配方，以及为什么反射 LM 比任务 LM 更重要的原因。
dspy-rlm-module：何时用 RLM vs ReAct vs 普通的 ChainOfThought，如何搭配一个便宜的子 LM，Deno 依赖怎么配。
dspy-advanced-workflow：七步循环——spec → program → metric → baseline → GEPA → export → deploy，把前四个 Skill 串联起来。

他设定的门槛

两个测试标准。第一，任何好奇的 AI 工程师克隆仓库后，用免费层 API key 在五分钟内完成安装和冒烟测试，不需要改任何源码。第二，Skill 里的每一条声明都可以溯源到官方文档——DSPy 官方文档、GEPA 论文、Claude Code 和 Codex CLI 的官方文档。他用 Claude Code 自己在文档上跑了四轮审查，每轮找出自己引入的细节错误，加上回归测试堵住漏洞。最终测试套件有 60 条断言。

安装方式：

/plugin marketplace add intertwine/dspy-agent-skills
/plugin install dspy-agent-skills@dspy-agent-skills

然后对 Agent 说：「用 DSPy 构建一个情感分类器，用 GEPA 优化它，然后保存 artifact。」

解决什么问题

三个核心技术是什么

五个 Skill 覆盖完整工作流

他设定的门槛

相关