昨天 Anthropic 发了个大更新,Claude Code 支持 Dynamic Workflows 了——可以同时调度上百个 AI 子代理并行干活。
看到这个消息,我第一反应不是"好厉害",而是:我们做 AI 内容的人,什么时候也能有这种多模型编排的体验?
先说我的工作背景。我平时做 AI 视频课程研发,日常工作有很大一块是写 AI 图片和视频的生成提示词。这个活儿听起来简单,但实际操作起来,最费时间的不是写提示词本身,而是在不同模型之间来回切换、对比、调整。
一个画面描述,我通常要丢给 Claude 写一版,再丢给 GPT 写一版,有时候还会用 DeepSeek 跑一个低成本的版本做对照。三个模型、三个平台、三套账号、三份账单。每次切换都要重新登录、找对话、复制粘贴,一天下来光在"切平台"这件事上就能浪费一两个小时。更头疼的是费用管理。月底一看,Claude 充了多少、GPT 扣了多少、DeepSeek 花了多少,完全是一笔糊涂账。
上周朋友给我推荐了 ZenMux,说是一个 AI Gateway,一个账号就能用 200 多个模型。我本来没太当回事。这类聚合平台见过不少。但用了几天之后,确实有些地方超出预期。
如果只把它理解成"模型列表更长",其实会低估它。对创作者来说,更关键的是:它能不能把一个原本分散在多个网页、多个账号、多个账单里的工作流,收进一个可操作的界面里。
实测:同一个提示,三模型的输出差异
用一个真实工作场景来测试。描述一个北欧风客厅的 before / after 改造画面,要求提示词能直接用在主流的 AI 视频生成工具上。
我通过 ZenMux 的统一接口,用同一个提示分别调用了三个模型,看它们在同一个任务里的输出差异。
Claude:结构化能力最强
Claude 会自动把画面拆成前景、中景、背景三个层次,镜头语言描述得很专业。但有个小问题:它有时候"想太多",写出来的提示词偏长,直接丢给生成工具可能需要删减。
GPT-4o:画面感最好
GPT-4o 的用词偏视觉化和情绪化,会加很多氛围描写,比如"晨光透过亚麻窗帘洒在木地板上"这种。如果你对画面调性有明确要求,它的输出通常更接近"拿来就能用"的状态。
DeepSeek:性价比之王
DeepSeek 的输出质量不算顶尖,但完全够用,成本大概是 Claude 的几分之一。我一般用它来做初筛:先用 DeepSeek 快速跑十几个版本,挑出方向感最好的,再用 Claude 或 GPT 精修。
重点来了:这三个模型的切换,我全程没有离开 ZenMux 的界面。 不用换网页,不用换 API Key,不用重新登录。就在同一个地方,选个模型,发送,看结果,再换一个。
这种体验对我来说是真的实用。做课程备课的时候,我经常需要给学员展示"同一个需求,不同模型的输出有什么区别"。以前这个素材要花大半天准备,现在基本上十几分钟就能搞定。
统一账单和用量看板
ZenMux 后台有一个仪表盘,每个模型用了多少 token、花了多少钱、调用了多少次,全部一目了然。对我来说这不只是"方便"的问题。我做课程会涉及成本分析,比如告诉学员"批量跑提示词的成本大概是多少"。以前只能估算,现在直接拿后台数据就行。
ZenMux Auto:智能路由
开启之后,你不用手动选模型,ZenMux 会根据你的 prompt 自动匹配一个它认为性价比最优的模型。我测了几轮,它的选择逻辑大概是:简单任务会倾向选成本低的模型,复杂任务会往上选。不能说每次都完美,但作为一个"懒人默认选项"挺好用。
API 协议兼容
它兼容 OpenAI、Anthropic 和 Google Vertex AI 的协议。这意味着如果你之前写过调用这些 API 的脚本或工具,切到 ZenMux 基本上只需要改一下 base URL 和 Key,其他代码都不用动。这个对有一点技术基础的创作者很友好。
赔付保障
这是 ZenMux 一直在强调的差异化卖点。如果模型输出出现幻觉、延迟过高、或者吞吐量太低,系统会自动记录并补偿积分。老实说这一周我还没触发过赔付,模型表现都还行。但知道有这个兜底在,心理上确实更踏实。尤其是当你要把 AI 输出直接用在课程内容或者交付物里的时候,稳定性是真的重要。
公平起见,不足也得提
第一,模型数量。 ZenMux 目前接入了 200 多个模型,不算最多。有些平台号称 500+。但 ZenMux 的说法是它只接入"官方正规渠道"的模型,不做非官方转发。这个见仁见智:数量少但来源可靠,对于需要稳定出活的场景反而更放心。
第二,网关延迟。 走统一网关肯定会有一点额外延迟,官方数据大概是 50-150 毫秒。我在写提示词的场景里完全感知不到,但如果你是做实时对话类应用,建议自己跑个 benchmark 看看能不能接受。
第三,赔付是补偿积分,不是直接退现金。 对于大多数用户来说积分可以继续用,影响不大,但提前知道这个比较好。
最大的感受
以前我的工作流:
脑子里有个创意 → 打开 Claude 写一版 → 复制粘贴到 GPT 改一版 → 再开一个 DeepSeek 跑个便宜版本 → 手动对比三个输出 → 月底面对三份说不清楚的账单。
现在变成了:
脑子里有个创意 → 打开 ZenMux → 在同一个界面里连着测三个模型 → 后台自动记录用量和成本 → 搞定。
省掉的不只是时间,还有大量的"心智切换成本"。你不用再记哪个平台登录了没、余额够不够、Key 放在哪个文档里。
这个工具适合这几类人:
- 经常要对比多模型输出的 AI 内容创作者
- 做 AI 课程或教程,需要展示不同模型差异的人
- 独立开发者或小团队,不想维护一堆 API Key
- 想快速试用最新模型但懒得到处注册的人