Cursor 工程负责人 Lee Robinson 写了一条长文,介绍他们如何用上千个 Agent 训练下一版本的 Composer(Cursor 自家的代码生成模型)。这不是一份「我们用了 Claude」的营销稿,而是一份关于递归式 Agent 系统怎么搭建的实战报告。
一句话总结
Cursor 跑了一个永远不停机的 Agent 主循环 + 成百上千个子 Agent,组成一张「Agent 组织架构图」,让 Agent 去训练下一代 Agent。 Agent 会自己用 Slack 找研究员、用 PagerDuty 拉人。
这套系统怎么运转
主 Agent 不是孤勇者,它管理着一整支「舰队」:
- 主 Agent 跑在一台大型远程机上,自带本地工具栈,外加一个磁盘文件当 fleet 的「收件箱」
- 它通过 SSH 登录到几百台子 Agent 所在的机器,把每个 Agent 的状态汇总到收件箱
- 每轮循环里它做三件事:检查舰队健康、维持健康任务在后台跑、把坏掉的 Agent 顶到 Slack 上让团队处理
- 子 Agent 偶尔抽风或需要被戳一下,主 Agent 就像人类 SRE 一样,可以直接 quit 或 restart 整个进程
这本质上是一个**「永远在跑的 Agent 循环」**——不是「问一次答一次」,是 7×24 不停迭代。Lee 把它叫做 fleet manager,对应 Cursor 之前发过的 long-running agents 研究。
为什么研究员被放大了十倍
Composer 的训练需要海量的 RL 实验数据。一个想法需要验证、一个超参需要扫描、一个数据配比需要试错——这些是「研究员最稀缺的时间」。Cursor 的解法是:研究员只管出 idea,整支 Agent 舰队负责把 idea 跑完。
Lee 用了一个反常识的比喻:「想象你是一个有 10,000 个直接下属的人类经理。这对人显然不可能,但人类→Agent 的「组织」可以。」
更深一层:Composer 不是被人类手工调出来的,而是被 Agent 舰队爬遍它自己的数据后递归改进出来的下一代 Composer。这就是标题里 recursive 的含义——Agent 训练 Agent,模型训练模型。
真正决定能否复用的判据
Lee 在最后一段留了一条极克制的判据,是全文最值钱的部分:
「If you have a problem that is verifiable, where throwing more tokens at it will solve it faster or better」——只有当问题可以被验证、且堆更多 token 就能赢时,才值得搭这套系统。
「可验证」是机器学习领域的术语:能不能写出判定对错的 oracle(测试、benchmark、reward function)。Cursor 训练数据生成正好满足——任务定义清楚、reward 能算、有办法判定 Agent 产出的数据是否更好。所以 token 砸下去,胜率就涨。
换成商业场景:
- 代码生成:可验证(编译 + 测试通过)
- 数据标注:可验证(答案唯一)
- 研究探索:难验证(一个 idea 是不是真的好,需要数周实验才知道)
- 写营销文案:更难验证(好不好太主观)
如果你的任务不满足「可验证 + token-递增能赢」,照抄这套只会得到一个分布式慢速版,而不是效率放大器。
和前几篇怎么串起来
这一篇和上周发的 5 篇正好形成闭环:
- Peter Wang 的 L1/L2/L3 内存分层:Cursor 主 Agent 的磁盘收件箱就是 L1(in-context 协作层),子 Agent 的训练任务是 L2(任务状态),历史 checkpoint 是 L3(持久化)。一个文件夹 = 一个 in-context 协作面,是文件系统优先范式的工程化呈现
- Sentra 的 Memory 层:Cursor 走的是相反路径——不要 memory,要 fleet。当问题可验证时,与其给单 Agent 堆 memory(成本敏感),不如直接 fork 出 1000 个并行 Agent 暴力试
- Tools Are Contracts:主 Agent 把 SSH 当成一个 tool call,但背后是 contract——子 Agent 能不能被 quit / restart / 接管?权限边界画在哪?这是 fleet contract,不是 function call
- Spec-Driven Development:Lee 说「we've given the manager many different skills that encode tacit knowledge」——技能即规约,是 Zach Lloyd 三个 skill 的工程化版本
- Fable 5 Workstream Kit:Cursor 这套系统本身就是一个巨型 workstream——上千个 Agent 同时跑任务,状态在文件系统里,git 化追踪。这正是 Fable 5 时代的工作模式
留给读者的三个判断题
- 你的任务可验证吗?——如果不能,所有「千 Agent 集群」叙事都跟你无关
- 你是要 memory 还是要 fleet?——Sentra vs Cursor 是两种哲学,前者给单 Agent 补脑子,后者把单 Agent 复制 N 份
- 主 Agent 应该是人还是 Agent?——Cursor 让 Agent 当 manager,对应到组织里就是「AI 中层」。这才是真正要回答的问题
如果你的产品要做 Agent 编排,不要先想 orchestration 框架,先回答这三个问题。