DSPy 的 5 个核心组件：为什么它对 AI 工程重要

一年前 Maxime Rivest 第一次试 DSPy。感觉很魔法。

但他花了一整年才真的坐下来把 Getting Started 文档里的代码跑一遍。那些示例看起来太短、太神奇——"这怎么够？"——其实够了。

Maxime 在学术出版商工作时用 DSPy 搭了一条 pipeline，跑在全球几乎所有科学文献上——大约每周 1 亿次——完全替代了数据分析师手工分类的工作。

成本对比：

用 ChatGPT：每周 $400K
用 vLLM + Llama 8B + Qwen embeddings + DSPy：每周 $50

这是 8000 倍成本下降。

他还搭了另一条 pipeline 解析数百万份扫描 PDF——人类级质量，10 倍速度。

DSPy 的 5 个核心组件

DSPy 不只是"一个 prompt 框架"。它把 AI pipeline 拆成 5 个清晰的组件：

1. Optimizers

自动调你的 prompt 和/或 model weights——用 eval 衡量的性能做目标函数。

手工调 prompt 是 2024 年的事。2026 年的 AI 工程是让 optimizer 自己调。

Optimizer 的输入：

你的 signature（输入输出 schema）
一组训练样本 + 评估指标

Optimizer 的输出：

调好的 prompt
（可选）fine-tune 后的模型权重

Optimizer 找 prompt 比人准——因为它在高维空间里 search，人手调只能试有限个点。

2. Signatures

高层定义输入和输出的名字、类型。比如：

class GenerateAnswer(dspy.Signature):
    """Answer questions with short factoid answers."""
    question = dspy.InputField()
    answer = dspy.OutputField(desc="often between 1 and 5 words")

Signature 不写 prompt——只写"我要什么输入输出"。Prompt 由 adapter + optimizer 自动生成。

这是声明式 vs 命令式的区别：

声明式（DSPy）：写"我要什么"，optimizer 找"怎么做到"
命令式（手工 prompt）：写"我怎么做"

3. LMs

模型层。DSPy 不绑死某个模型——你可以换 OpenAI / Anthropic / 本地 vLLM / Llama / Qwen / 任何能 HTTP 调用的模型。

换模型 = 改一行 config。整个 pipeline 不用动。

4. Modules

可组合的 AI 单元。DSPy 提供 ChainOfThought、ReAct、Predict 等内置 module。你可以自己定义 module，把其他 module 串起来。

Module 是 DSPy 的"函数"——输入 signature，输出 module 实例。Module 是声明式的，optimizer 会优化它们的内部 prompt。

class RAG(dspy.Module):
    def __init__(self):
        super().__init__()
        self.retrieve = dspy.Retrieve(k=3)
        self.answer = dspy.ChainOfThought("context, question -> answer")

    def forward(self, question):
        context = self.retrieve(question).passages
        return self.answer(context=context, question=question)

5. Adapters

Format 转换层。负责把 signature + 当前 input 转成模型能理解的 prompt 格式，把模型输出转回结构化结果。

Adapter 让 DSPy 支持多模型——OpenAI 的 Chat Completions、Anthropic 的 Messages、本地 vLLM 的 Completions，adapter 屏蔽差异。

为什么 DSPy 对 AI 工程重要

范式转移：从手工 prompt 到自动编译

传统 AI 工程：

写 prompt → 调 prompt → 试模型 → 改 prompt → 重复

DSPy：

写 signature + module → 定义 eval → optimizer 编译 → 部署

DSPy 让 prompt 优化变成工程问题，而不是手艺活。

工业级 scalability

Maxime 的案例显示：

1 亿次/周的 pipeline
$50/周成本（vLLM + Llama 8B）
人类级质量

这是手工 prompt 做不到的——手工 prompt 在 1 亿次规模下，每条结果都不一致，eval 不可控，prompt 调无可调。

DSPy 解决的是**"AI pipeline 工业化"问题——让 AI 任务像传统程序一样可编译、可测试、可优化**。

模型无关

DSPy 的 adapter 让你换模型零成本。今天用 Llama 8B，明天 GPT-5 出来换过去——code 不变，optimizer 重跑就行。

这对成本敏感场景是杀手锏：你可以在不同模型之间 A/B 测，找成本-质量甜点。

适合谁 vs 不适合谁

适合

生产级 AI pipeline（每天 1 万+ 次调用）→ DSPy 的 ROI 在规模化后才显现
需要可重复质量（不是 demo）→ 手工 prompt 每次跑结果波动，DSPy 编译后稳定
多模型实验 → 换模型零成本
有 eval 数据 → optimizer 需要 eval，没 eval 等于闭眼调

不适合

一次性任务（写一封邮件、问一个问题）→ DSPy 过度工程
没有 eval 数据的早期项目 → 至少要 50-100 个带 ground truth 的样本
超低延迟场景（< 100ms 实时响应）→ DSPy 多层 module 增加开销
Prompt 极简就能搞定的任务（摘要、分类）→ 直接调 API 更快

Maxime 没说的两件事

1. Optimizer 的算力成本。DSPy 的 optimizer 要在训练集上跑几十次到几百次不同 prompt 组合，找最佳。Maxime 的 1 亿次/周 pipeline 在训练阶段（找最佳 prompt）可能跑了 10 万次——这部分成本不低。Optimizer 的训练成本 vs 部署后的节省，是 1-3 个月的回本周期。短期项目 ROI 不好算。

2. Adapter 抽象的局限。不同模型的"特长"不一样——GPT-4o 适合 reasoning，Claude 适合长 context，Llama 适合本地低成本。Adapter 把它们都"标准化"成同一接口，但屏蔽了模型特性。实操中你需要手写一些模型特定的 prompt hint，DSPy 的 optimizer 不会自动学到这些。

结论

DSPy 的真正价值不是"自动 prompt 优化"——那是表面。

DSPy 的真正价值是把 AI pipeline 工业化：让 AI 任务像传统程序一样有 signature、有 module、有 optimizer、有 eval。

Maxime 的 $400K →$ 50/周是这个工业化的极致体现——8000 倍成本下降不是 prompt 调的，是 DSPy 的范式转移带来的。

SOTA Sync 的判断：未来 12 个月，DSPy 模式会成为生产级 AI 工程的标配。"手工 prompt + 调 API"会变成 2024 年的旧习惯。新范式是"写 signature + 让 optimizer 编译"。

但 DSPy 的下一道关卡是eval 标准化——目前每个团队自己写 eval，没有跨项目的 eval 协议。这跟 Skills 标准化、Agent Protocol 标准化是同一类问题——AI 工程的工程化正在路上，但工具生态还没收敛。