如何构建真正协作的 AI Agent 团队

一个 AI Agent 很强大。一个协作的 AI Agent 团队是完全不同的类别。

2026 年 5 月 6 日，Anthropic 在 Code with Claude 活动上宣布了 Claude Managed Agents 的多 Agent 编排功能。现在可以运行多达 20 个专业 Agent 在单一任务上并行工作。

不是顺序执行。是并行。同时。每个处理问题的不同部分。

这正是 Netflix、Harvey（法律 AI 公司）和 Shopify 已经在生产中使用的架构。 Netflix 用它同时分析数百个构建日志。Harvey 用它协调跨多个文档的复杂法律工作。Shopify 正朝着 2026 Q3 实现 90% 自主编码推进。

这些不是实验。这些是正在规模化运行的生产系统。

单 Agent vs 多 Agent

单 Agent 就像单个员工。无论多优秀，一次只能做一件事。如果任务有五部分，它们顺序处理：第一部分，然后第二部分，然后第三部分……

多 Agent 系统就像团队。五个 Agent，每个专业于任务的一部分，同时工作。单 Agent 30 分钟的工作，五人团队 6 分钟完成。

但速度甚至不是最大优势。真正的优势是专业化。

一个被要求做所有事的单 Agent——研究、分析、写作、编码、审核——各方面都产生平庸结果，因为注意力太分散。

一个专业 Agent 团队——一个研究员、一个分析师、一个写手、一个编码员、一个审核员——在每个领域都产生优秀结果，因为每个 Agent 专注于自己最擅长的。

这正是人类团队在复杂项目上 outperform 个人的原因。

三种有效的多 Agent 模式

模式一：顺序管道

Agent 顺序工作，每个将输出传递给下一个。

研究 Agent → 分析 Agent → 写作 Agent → 审核 Agent

最适合每步有清晰输入输出、后续步骤依赖前面步骤的情况。研究 Agent 找到数据。分析 Agent 识别模式。写作 Agent 创建报告。审核 Agent 检查错误。

每个 Agent 用专注的系统提示和相关工具优化其特定任务。

模式二：并行分发

指挥官 Agent 将大任务拆分为子任务，分发给多个工作 Agent 并行处理。

指挥官分配：

工作 Agent 1 → 分析文档 A
工作 Agent 2 → 分析文档 B
工作 Agent 3 → 分析文档 C
工作 Agent 4 → 分析文档 D
工作 Agent 5 → 分析文档 E

五个工作 Agent 同时运行。完成后，结果收集并综合。

这是 Netflix 分析构建日志的模式。 理想用于需要对多个独立项目执行相同操作的任务。

模式三：协作团队

多个不同专业的 Agent 在单一复杂任务上协作，各自贡献专业知识。

产品发布场景：

市场研究 Agent — 分析竞品数据和市场趋势
技术 Agent — 评估可行性和架构选项
财务 Agent — 构建成本预测和定价模型
文案 Agent — 撰写营销材料和落地页文案
审核 Agent — 检查一致性和质量

每个 Agent 在其专业领域工作。输出组合成综合交付物。

这是 Harvey 处理法律工作的模式。 不同 Agent 处理案件的不同方面——研究、先例分析、文档起草、合规检查——结果组装成完整法律包。

构建前的五个问题

构建任何系统前，回答这些问题：

总体目标是什么？ "制作每周竞争分析报告。"
有哪些 distinct 子任务？ "研究竞品网站、分析定价变化、监控产品发布、综合发现、撰写报告。"
哪些子任务可以并行？ "研究、定价分析和产品监控可以同时发生。综合和写作必须等待前面完成。"
每个子任务你会雇佣什么专家？ "市场研究员、定价分析师、产品侦察员、战略分析师、报告写手。"
每个专家变成什么 Agent？ 每个有独立的系统提示、工具集和专注领域。

每个 Agent 需要三样东西

清晰角色。 "你是竞争定价分析师。你的工作是跟踪五个竞品产品的定价变化并识别趋势。"

特定工具。 定价分析师需要网页访问检查竞品网站。报告写手需要文件访问创建文档。市场研究员需要网页搜索找最新新闻。

定义输出。 "生成结构化 JSON 文件，字段：competitor_name、product、old_price、new_price、date_changed、significance_rating。"

输出格式很重要，因为这是 Agent 之间通信的方式。 如果 Agent A 产生非结构化文本而 Agent B 需要结构化数据，交接失败。

标准化跨 Agent 的输出格式。这是你将做的最重要技术决策。

Claude Managed Agents 的编排

Claude Managed Agents 将多 Agent 编排内置到 API 中。你定义 Agent、它们的关系和通信方式——Anthropic 处理基础设施。

关键决策：

哪些 Agent 并行运行？ 不依赖彼此输出的 Agent 应同时运行以最大化速度。
哪些 Agent 顺序运行？ 需要另一个 Agent 输出的 Agent 应等待该输出可用。
Agent 如何传递数据？ 通过共享环境中的文件、结构化输出格式或直接 Agent 间通信。
Agent 失败时发生什么？ 定义 fallback 行为。如果定价分析师无法访问竞品网站，应记录失败并用可用数据继续——而非让整个 pipeline 崩溃。

Dreaming：长期性能的秘密武器

Dreaming 是 Agent 会话之间运行的定时后台进程。它回顾过去会话、提取模式、识别 recurring 错误、策划 Agent 的记忆存储。

这意味着你的 Agent 团队随时间变聪明，无需你手动更新提示。

Harvey 报告在其法律 Agent 上启用 Dreaming 后完成率提升约 6 倍。不是来自模型变化——纯粹来自 Agent 跨会话携带制度知识。

你的 Agent 团队 literally 从自己的经验中学习。

启用 Dreaming，在 Managed Agents 设置中配置 dream schedule。对大多数团队推荐夜间运行。

Outcomes：质量闭环

Outcomes 让你用基于 rubric 的评分系统定义"成功"是什么样子。

不 hoping Agent 产生好输出，你定义具体标准：

"报告必须包含所有五个竞品的定价数据。如果任何竞品数据缺失，完整性分数降至 80% 以下。分析部分必须包含至少三个具体洞察，不是泛泛观察。写作必须在 2,000 字以内。"

Claude 针对你的 rubric 评估自己的输出并迭代直到通过。这创建了一个在你看到输出前就捕获错误的质量循环。

生产中的真实案例

这是一个正在生产环境中运行的真实多 Agent 设置：

Agent 1：网页研究 Agent — 搜索目标市场的最新新闻、产品发布和融资轮。并行运行。
Agent 2：竞品监控 Agent — 检查五个竞品网站的定价、功能和消息变化。并行运行。
Agent 3：社交监听 Agent — 扫描 X 和 LinkedIn 的相关讨论、情感和新兴趋势。并行运行。
Agent 4：分析 Agent — 接收 Agent 1-3 的数据，识别五个最重要发展，按影响评级。
Agent 5：报告写手 Agent — 获取分析并生成格式化的执行简报和建议。
Agent 6：质量审核 Agent — 根据定义 rubric 检查报告，标记问题，要求写手修改。

总时间：不到 15 分钟。 单 Agent 之前的时间：超过一小时。手动之前的时间：半天。

报告每周一早上 8 点落在 Google Drive。团队边喝咖啡边阅读。

新手最常犯的五个错误

错误 1：让每个 Agent 太泛化。 多 Agent 的全部意义在于专业化。如果你的研究 Agent 也在做分析和写作，你 missed the point。每个 Agent 应该一件事做得极好。Narrow 是 powerful。Broad 是 weak。

错误 2：不标准化输出格式。 如果你的研究 Agent 产生自由格式段落而你的分析 Agent 期望结构化 JSON，交接断裂。构建任何 Agent 前，定义 Agent 间的数据契约。什么字段？什么格式？字段为空时发生什么？

错误 3：过早并行运行太多 Agent。 从两个 Agent 的简单管道开始。让通信工作。然后加第三个。然后第四个。每次增加引入复杂性。增量管理它。

错误 4：Agent 间无错误处理。 当 pipeline 中的一个 Agent 失败时发生什么？整个系统崩溃？下一个 Agent 收到垃圾输入？构建显式 fallback 行为。"如果定价数据不可用，用历史数据继续并在最终报告中标记缺口。"

错误 5：忽略 token 成本。 多 Agent 设置比单 Agent 运行使用更多 token。每个 Agent 有自己的上下文、自己的推理和自己的输出。监控你的使用并优化提示，在保持 essential detail 的同时简洁。

这不是锦上添花

Anthropic 不是将多 Agent 编排作为 nice-to-have 功能构建。他们将其作为 AI 系统未来工作方式的基础架构构建。

在 Code with Claude 活动上，Anthropic 展示他们自己的 Cowork 产品就是用这种架构构建的。多个专业 Agent 协作处理复杂任务。自主构建事物的工具是由自主工作的工具构建的。

Apple 刚宣布 Claude 将通过新的 Extensions 系统与其他 AI 服务一起集成到 iOS 27。随着 Claude 嵌入更多工作流和设备，多 Agent 成为处理复杂跨域任务的自然方式。

今天投资多 Agent 基础设施的公司——Netflix、Harvey、Shopify、Mercado Libre——不是为了好玩。他们这样做是因为单 Agent 方法无法扩展到他们现实世界问题的复杂性。

现在学习这些模式的个人 builder 将在不久的将来拥有值 serious money 的技能。

多 Agent 系统不是魔法。它们是应用于 AI 的软件工程。

fundamentals 与构建任何团队系统相同：清晰角色、清晰通信、定义接口、错误处理和迭代。

区别是"团队"花费你 Claude 订阅费而非六份工资，它 24/7 无间断工作，并通过 Dreaming 随时间变得更好。

我们正处于多 Agent 时代的 very beginning。现在在 2026 年 5 月弄清楚这些模式的人——当这成为所有 AI 系统的默认工作方式时——将有 massive head start。

大多数人读完后会认为多 Agent "太 advanced"。那些本周构建第一个双 Agent pipeline 的人会意识到它比预期简单得多。