返回 FEED
AGENT2026-05-30

Anthropic 发布的 Dynamic Workflows:把 agent 编排从 LLM 内存移到 JS 脚本

Anthropic 发了 Opus 4.8,所有人都讨论 benchmark 和 honesty 改进。

但跟它一起发布的 Dynamic Workflows 可能更重要——它改的是"agent 怎么协作",不是"模型多强"。

Akshay Pachaar 拆解了三个层级的多 agent 架构。

三层级对比

Subagent(轻量 worker)

Claude Code 早期就有的多 agent 原语。

特点

  • 从主会话派生,做专注任务,汇报
  • agent 之间不能直接通信
  • 主 agent 是编排瓶颈——所有结果过它的 context

限制:单 main agent 串行处理,无法大规模并行

Agent Teams(多 agent 协调)

Opus 4.6 引入。

改进

  • 多个 Claude 实例通过共享 task list + 消息互相通信
  • 不再过单 main context

限制

  • 实际跑到 3-5 个队友就乱了
  • 会话不持久——Claude 中途 crash,整个 team 没了
  • 编排仍要预先设计——你写好 workflow,agent 跑流程

Dynamic Workflows(新层级)

Opus 4.8 引入。比 Agent Teams 高一层

关键变化

  • Claude 不再在 context 里持有 plan
  • 它写一个 JavaScript 编排脚本
  • JS runtime 执行这个脚本
  • 自动 fan-out 到 10-1000 个并行 subagent

Claude 的 context window 只看到最终收敛的答案——不看到 1000 步的中间结果

关键数字

维度SubagentAgent TeamsDynamic Workflows
并发上限< 53-516 同时 + 1000/flow
编排Main agent context共享 task listJS 脚本
Adversarial verification
中途 crash 恢复✅(脚本可重跑)
主 context 压力极低(只看结果)

Adversarial Verification 是杀手锏

Dynamic Workflows 的真正突破不是"并行度"——是adversarial verification

机制

  • 多个 agent 从独立角度解题
  • 它们主动试图 break 对方的 finding
  • 结果合并前互相验证

这比"自审"质量高 2-3 个数量级——因为自审有 confirmation bias(你写的代码你看着都对),adversarial 验证强制 cross-check。

类比:

  • 单 agent 自审 = 一个人写代码 + 自己 review
  • adversarial verification = 一个人写 + 三个人独立 review + 互相 break 对方的判断

后者找到的 bug 是前者的 5-10 倍

Bun 的真实案例

最强证明不是 benchmark——是Bun 的 Zig→Rust 重写

Jarred Sumner(Bun 创始人)用 Dynamic Workflows 重写 Bun

  • 75 万行 Rust
  • 99.8% 现有测试通过
  • 11 天(first commit → merge)
  • 数百个 agent 并行
  • 每个文件 2 个 reviewer

这种工作以前工程团队规划 1-2 个季度,Dynamic Workflows 11 天做完

怎么触发

要使用 Dynamic Workflows:

  1. Claude Code v2.1.154+
  2. Max / Team / Enterprise plan
  3. 在 prompt 里输入 "workflow" → Claude 规划 + 确认后跑
  4. /effort ultracode → Claude 自动判断何时触发
  5. 先开 auto mode/permissions → 选 auto

跟 4-agent pipeline 的关系

之前 darkzodchi 的 4-agent pipeline(Planner → Coder → Tester → Reviewer)手工 handoff 文件

Dynamic Workflows 是同一思路的工业级实现

  • 4-agent pipeline = 4 个 subagent + handoff 文件 + 串行
  • Dynamic Workflows = 100+ subagent + JS 编排 + 并行 + adversarial

Dynamic Workflows 取代的不是 4-agent pipeline——是4-agent pipeline 的"低效"简单 task 仍用 subagent/4-agent 流水线,复杂 task 上 Dynamic Workflows

适合谁 vs 不适合谁

适合

  • 大规模代码迁移(Bun 那种,几十万行)
  • 代码审查(adversarial verification 比人审质量高)
  • 研究任务(多 agent 并行检索 + 验证)
  • 复杂 bug 调试(多个 hypothesis 并行验证)

不适合

  • 简单 task("改个 typo")—— overkill
  • 实时响应(Dynamic Workflows 启动需要 30-60 秒)
  • Plan B 需要快速迭代——Dynamic Workflows 一次跑完,难中途改
  • 没开 auto mode——必须信任 Claude 自主决策

Akshay 没说的两件事

1. JS 编排脚本的 debugging 难题。Dynamic Workflows 跑完出问题时,debug 的是 Claude 写的 JS 脚本 + 1000 个 subagent 的执行轨迹——这远超传统编程的 debug 能力。Anthropic 当前提供的 observability 工具只能看"哪些 subagent 跑了、输出什么",不能完整 replay复杂 Dynamic Workflow 出问题,目前基本靠"重新跑一遍"

2. Adversarial verification 的"对抗"程度不可控。Dynamic Workflows 让 agent "互相 break 对方 finding"——但"break 到什么程度"是 Claude 自己决定的。有时 adversarial 太弱(agent 互相放水),有时太强(agent 互相否定导致 result collapse)。adversarial 强度是隐式超参,没有显式配置实操中需要"跑一次看结果"再调没有"一次跑对"的把握

结论

Dynamic Workflows 的核心创新是把 agent 编排从 LLM 内存移到可执行代码——这绕过了 LLM context window 的硬限制

三层级架构(subagent → Agent Teams → Dynamic Workflows)解决的不是"哪个最好",是**"不同规模的任务用不同工具"**。5 个 subagent 够的事别上 Dynamic Workflows——启动成本和 observability 复杂度不值得。

Bun 的 11 天重写 75 万行 Rust 是 Dynamic Workflows 的最强证明——这种规模以前根本不可能

SOTA Sync 的判断:未来 12 个月,Dynamic Workflows 类能力会成为 AI 编码工具的标配——不是"每个工具都有 Dynamic Workflows",是"不提供的工具会被淘汰"。这是 agent 编排从"单 agent 写代码"到"工业级多 agent pipeline"的范式转移

observability 是 Dynamic Workflows 的下一道关卡——1000 subagent 跑完出问题怎么 debug、怎么 replay、怎么 audit,目前没有成熟方案这会是 AI Ops 领域的新机会——专门做 Dynamic Workflow 调试工具的创业公司会出现。