Anthropic 发布的 Dynamic Workflows：把 agent 编排从 LLM 内存移到 JS 脚本

Anthropic 发了 Opus 4.8，所有人都讨论 benchmark 和 honesty 改进。

但跟它一起发布的 Dynamic Workflows 可能更重要——它改的是"agent 怎么协作"，不是"模型多强"。

Akshay Pachaar 拆解了三个层级的多 agent 架构。

三层级对比

Subagent（轻量 worker）

Claude Code 早期就有的多 agent 原语。

特点：

从主会话派生，做专注任务，汇报
agent 之间不能直接通信
主 agent 是编排瓶颈——所有结果过它的 context

限制：单 main agent 串行处理，无法大规模并行。

Agent Teams（多 agent 协调）

Opus 4.6 引入。

改进：

多个 Claude 实例通过共享 task list + 消息互相通信
不再过单 main context

限制：

实际跑到 3-5 个队友就乱了
会话不持久——Claude 中途 crash，整个 team 没了
编排仍要预先设计——你写好 workflow，agent 跑流程

Dynamic Workflows（新层级）

Opus 4.8 引入。比 Agent Teams 高一层。

关键变化：

Claude 不再在 context 里持有 plan
它写一个 JavaScript 编排脚本
JS runtime 执行这个脚本
自动 fan-out 到 10-1000 个并行 subagent

Claude 的 context window 只看到最终收敛的答案——不看到 1000 步的中间结果。

关键数字

维度	Subagent	Agent Teams	Dynamic Workflows
并发上限	< 5	3-5	16 同时 + 1000/flow
编排	Main agent context	共享 task list	JS 脚本
Adversarial verification	❌	❌	✅
中途 crash 恢复	❌	❌	✅（脚本可重跑）
主 context 压力	高	中	极低（只看结果）

Adversarial Verification 是杀手锏

Dynamic Workflows 的真正突破不是"并行度"——是adversarial verification。

机制：

多个 agent 从独立角度解题
它们主动试图 break 对方的 finding
结果合并前互相验证

这比"自审"质量高 2-3 个数量级——因为自审有 confirmation bias（你写的代码你看着都对），adversarial 验证强制 cross-check。

类比：

单 agent 自审 = 一个人写代码 + 自己 review
adversarial verification = 一个人写 + 三个人独立 review + 互相 break 对方的判断

后者找到的 bug 是前者的 5-10 倍。

Bun 的真实案例

最强证明不是 benchmark——是Bun 的 Zig→Rust 重写。

Jarred Sumner（Bun 创始人）用 Dynamic Workflows 重写 Bun：

75 万行 Rust
99.8% 现有测试通过
11 天（first commit → merge）
数百个 agent 并行
每个文件 2 个 reviewer

这种工作以前工程团队规划 1-2 个季度，Dynamic Workflows 11 天做完。

怎么触发

要使用 Dynamic Workflows：

Claude Code v2.1.154+
Max / Team / Enterprise plan
在 prompt 里输入 "workflow" → Claude 规划 + 确认后跑
或 /effort ultracode → Claude 自动判断何时触发
先开 auto mode：/permissions → 选 auto

跟 4-agent pipeline 的关系

之前 darkzodchi 的 4-agent pipeline（Planner → Coder → Tester → Reviewer）手工 handoff 文件。

Dynamic Workflows 是同一思路的工业级实现：

4-agent pipeline = 4 个 subagent + handoff 文件 + 串行
Dynamic Workflows = 100+ subagent + JS 编排 + 并行 + adversarial

Dynamic Workflows 取代的不是 4-agent pipeline——是4-agent pipeline 的"低效"。简单 task 仍用 subagent/4-agent 流水线，复杂 task 上 Dynamic Workflows。

适合谁 vs 不适合谁

适合

大规模代码迁移（Bun 那种，几十万行）
代码审查（adversarial verification 比人审质量高）
研究任务（多 agent 并行检索 + 验证）
复杂 bug 调试（多个 hypothesis 并行验证）

不适合

简单 task（"改个 typo"）—— overkill
实时响应（Dynamic Workflows 启动需要 30-60 秒）
Plan B 需要快速迭代——Dynamic Workflows 一次跑完，难中途改
没开 auto mode——必须信任 Claude 自主决策

Akshay 没说的两件事

1. JS 编排脚本的 debugging 难题。Dynamic Workflows 跑完出问题时，debug 的是 Claude 写的 JS 脚本 + 1000 个 subagent 的执行轨迹——这远超传统编程的 debug 能力。Anthropic 当前提供的 observability 工具只能看"哪些 subagent 跑了、输出什么"，不能完整 replay。复杂 Dynamic Workflow 出问题，目前基本靠"重新跑一遍"。

2. Adversarial verification 的"对抗"程度不可控。Dynamic Workflows 让 agent "互相 break 对方 finding"——但"break 到什么程度"是 Claude 自己决定的。有时 adversarial 太弱（agent 互相放水），有时太强（agent 互相否定导致 result collapse）。adversarial 强度是隐式超参，没有显式配置。实操中需要"跑一次看结果"再调，没有"一次跑对"的把握。

结论

Dynamic Workflows 的核心创新是把 agent 编排从 LLM 内存移到可执行代码——这绕过了 LLM context window 的硬限制。

三层级架构（subagent → Agent Teams → Dynamic Workflows）解决的不是"哪个最好"，是**"不同规模的任务用不同工具"**。5 个 subagent 够的事别上 Dynamic Workflows——启动成本和 observability 复杂度不值得。

Bun 的 11 天重写 75 万行 Rust 是 Dynamic Workflows 的最强证明——这种规模以前根本不可能。

SOTA Sync 的判断：未来 12 个月，Dynamic Workflows 类能力会成为 AI 编码工具的标配——不是"每个工具都有 Dynamic Workflows"，是"不提供的工具会被淘汰"。这是 agent 编排从"单 agent 写代码"到"工业级多 agent pipeline"的范式转移。

但 observability 是 Dynamic Workflows 的下一道关卡——1000 subagent 跑完出问题怎么 debug、怎么 replay、怎么 audit，目前没有成熟方案。这会是 AI Ops 领域的新机会——专门做 Dynamic Workflow 调试工具的创业公司会出现。