Cursor 让 Agent 自己训练下一代 Composer：递归式 Agent 系统的三道闸门

Cursor 工程负责人 Lee Robinson 写了一条长文，介绍他们如何用上千个 Agent 训练下一版本的 Composer（Cursor 自家的代码生成模型）。这不是一份「我们用了 Claude」的营销稿，而是一份关于递归式 Agent 系统怎么搭建的实战报告。

一句话总结

Cursor 跑了一个永远不停机的 Agent 主循环 + 成百上千个子 Agent，组成一张「Agent 组织架构图」，让 Agent 去训练下一代 Agent。 Agent 会自己用 Slack 找研究员、用 PagerDuty 拉人。

主 Agent 不是孤勇者，它管理着一整支「舰队」：

这本质上是一个**「永远在跑的 Agent 循环」**——不是「问一次答一次」，是 7×24 不停迭代。Lee 把它叫做 fleet manager，对应 Cursor 之前发过的 long-running agents 研究。

Composer 的训练需要海量的 RL 实验数据。一个想法需要验证、一个超参需要扫描、一个数据配比需要试错——这些是「研究员最稀缺的时间」。Cursor 的解法是：研究员只管出 idea，整支 Agent 舰队负责把 idea 跑完。

Lee 用了一个反常识的比喻：「想象你是一个有 10,000 个直接下属的人类经理。这对人显然不可能，但人类→Agent 的「组织」可以。」

更深一层：Composer 不是被人类手工调出来的，而是被 Agent 舰队爬遍它自己的数据后递归改进出来的下一代 Composer。这就是标题里 recursive 的含义——Agent 训练 Agent，模型训练模型。

Lee 在最后一段留了一条极克制的判据，是全文最值钱的部分：

「If you have a problem that is verifiable, where throwing more tokens at it will solve it faster or better」——只有当问题可以被验证、且堆更多 token 就能赢时，才值得搭这套系统。

「可验证」是机器学习领域的术语：能不能写出判定对错的 oracle（测试、benchmark、reward function）。Cursor 训练数据生成正好满足——任务定义清楚、reward 能算、有办法判定 Agent 产出的数据是否更好。所以 token 砸下去，胜率就涨。

换成商业场景：

如果你的任务不满足「可验证 + token-递增能赢」，照抄这套只会得到一个分布式慢速版，而不是效率放大器。

这一篇和上周发的 5 篇正好形成闭环：

Peter Wang 的 L1/L2/L3 内存分层：Cursor 主 Agent 的磁盘收件箱就是 L1（in-context 协作层），子 Agent 的训练任务是 L2（任务状态），历史 checkpoint 是 L3（持久化）。一个文件夹 = 一个 in-context 协作面，是文件系统优先范式的工程化呈现
Sentra 的 Memory 层：Cursor 走的是相反路径——不要 memory，要 fleet。当问题可验证时，与其给单 Agent 堆 memory（成本敏感），不如直接 fork 出 1000 个并行 Agent 暴力试
Tools Are Contracts：主 Agent 把 SSH 当成一个 tool call，但背后是 contract——子 Agent 能不能被 quit / restart / 接管？权限边界画在哪？这是 fleet contract，不是 function call
Spec-Driven Development：Lee 说「we've given the manager many different skills that encode tacit knowledge」——技能即规约，是 Zach Lloyd 三个 skill 的工程化版本
Fable 5 Workstream Kit：Cursor 这套系统本身就是一个巨型 workstream——上千个 Agent 同时跑任务，状态在文件系统里，git 化追踪。这正是 Fable 5 时代的工作模式

你的任务可验证吗？——如果不能，所有「千 Agent 集群」叙事都跟你无关
你是要 memory 还是要 fleet？——Sentra vs Cursor 是两种哲学，前者给单 Agent 补脑子，后者把单 Agent 复制 N 份
主 Agent 应该是人还是 Agent？——Cursor 让 Agent 当 manager，对应到组织里就是「AI 中层」。这才是真正要回答的问题

如果你的产品要做 Agent 编排，不要先想 orchestration 框架，先回答这三个问题。