你现在在用、或在考虑付费用的那个"AI agent",大概率活不过下一代 AI 模型。
不是因为它跑得差。是因为它踩中了一条几乎没人明说的规则。
2026 年,"agent"是科技圈最不值钱的词。每个产品都印在包装盒上。但大多数根本不是 agent——它们是穿着闹钟外衣的聊天机器人:你不在旁边盯着它就什么都不做;AI 一升级,你就得拆了重做。
真正的分界线是"一个能调用几个工具的 AI"和"一个凌晨 3 点你敢让它自己跑的系统"之间的差距。这差距跟措辞无关,跟底下怎么建有关。
两个问题决定 agent 死活
- 它跟当下 AI 的运行方式是否兼容?(顺着 AI 的思考方式走,还是反着来?)
- AI 变聪明了,它是跟着变好,还是变成要拆掉重做的废品?("riding the wave")
就这两个问题,过去半年我用过的几乎所有"agent"平台都过不了关。
把填这道鸿沟的工程起个名字:Harness。我的定义:除了 AI 模型本身之外、让 agent 真的能把活干完、能记住事情、明天还能独立再干一遍的所有东西。
我把它拆成 9 个构建块,做了个记分板,把过去半年我实际用过的每个 agent 平台都打了分。9 块里有 6 块是工程,3 块是系统研究——这 3 块决定一个平台能不能"riding the wave"。
Question 1 展开:什么是"跟 AI 兼容"
把 AI 模型想成一个天才厨师,但短期记忆很差。你要帮它做一张清单:现在灶上有什么。
- A 平台(兼容的那种)保持清单稳定,只往里加东西。
- B 平台(不兼容)每回合把清单撕了重写——等于把 AI 已经做的工作全部作废,让它从头重做,又慢又贵。
管理 AI 记忆的最佳方式往往是不管理。 跟 AI 跑法对着干的设计就是差设计。
Question 2 展开:什么是"riding the wave"
很多老 agent 工具建在 AI 还弱的时候——AI 当时只能处理简单问题、跑两步就停,所以开发者只能手把手:画巨大流程图、一步一步钉死。
AI 一变强,流程图就成笼子。你被迫不断重建、拆掉、发布不兼容的变更、扔掉上一版本的代码。 AI 越强,你的平台越拖后腿——这就是 fighting the wave。
riding the wave 反过来:你塞一个更聪明的 AI 进来,整套系统立刻跟着升级,不用动一行架构代码。
两个问题放一起看:大多数产品只能勉强管住"兼容 AI",在"riding the wave"上直接淹死。而"riding the wave"恰恰由最难的那 3 个构建块决定。
Harness 的 9 个构建块
-
安全沙箱 — 每个任务独立的、带围墙的小电脑:文件、互联网、装软件的能力。没有它,agent 装不了 pandas、读不了 CSV,只能描述"它要做什么"。
-
为每个任务选对的 AI — 简单活路由给便宜快的 AI,规划路由给"思考者" AI,截图阅读路由给视觉 AI,写代码路由给编程 AI;如果某家厂商限流,平滑 fallback 到别家。多数"agent"是硬连到单一 AI 的,OpenAI 给 GPT-5.5 限流的那天你的 agent 直接停。这叫把单点故障当功能卖。
-
技能库 — 可复用、可版本化的能力:网页搜索、图像生成、文档扫描、爬虫、跑代码、读 PDF、转录。内置、自加、社区贡献。关键词是"库"。 在一个写死函数上调工具不是技能库,是两个电灯开关。
-
真正的连接器 — 真正登录、权限感知的连接(Gmail / Calendar / Slack / GitHub / Notion / Stripe / 你的 CRM)。不是"我们包了一次 Gmail API"——是会刷新过期登录、权限失效时报警、监测外部服务改规则的连接器。一个做好要一周,40 个做好要一年,40 个永远保持正常要一个完整团队。
-
调度 — 定时器、Web 触发器、事件触发器。能说"每个工作日早上 8 点跑、把结果 email 给我"——而且真的能跑到你忘了它存在的那么多年。这是"AI 工具"和"AI 员工"的分界线:工具是你伸手去够的;员工是周一自己就出现了的。
-
把聊天凝固成可保存的 agent — 你在聊天里把一个完美流程走通了——然后呢?聊天机器人的答案是截图然后忘掉。真正的 agent 平台应该一键:把这次对话保存为 agent——捕获步骤、接受新输入、记录所有执行、带上连接器、接到调度、保留记忆链。一次成功的对话必须凝固成可复用的东西——否则你每个周一都付钱让 AI 重新学它上周一已经会的东西。
-
跨对话的持久记忆 — 周二教它的品牌风格,三个月后在另一个聊天里还记得。不是"这条线程里有什么"——是真实的、持久、去重、可搜、跨对话的记忆。这是整张清单里最难的一项。
-
工作区 — 每个项目一个容器,把对的 agent / 文件 / 技能 / 连接器 / 记忆放一起。你的副业记忆不应该跟主业共用一个池子,你的营销 agent 不应该能读工程团队的 Slack。这一步把 agent 平台从个人玩具变成团队基础设施。
-
所有权 / 可移植性 — 厂商消失那天、价格翻四倍那天、战略转向那天——你能把 agent / 记忆 / 技能 / 工作流搬走吗? 自托管、数据导出、开放技能格式、插你自己的 AI——核心是"这是我的系统,不是我租的"。
记分板:6 家平台逐项打分
规则:真做了 = ✓,半吊子(剩 60% 要你自己补)= ½,没 = ✗。
ChatGPT / Claude(2.5/9)— 故意卡在 2.5。它们是有史以来最好的聊天机器人,AI 层最强。 但 MCP 和 Agents API 是指向 agent 的零件,不是产品。一旦你把调度 + 记忆 + 工作区自己补上去,你就在自己建 Creao。
Manus(2.5/9)— 胜在自主性,但缺"记忆 + 复用 + 聊天到 agent"这一圈。
Lovable / v0 / Bolt(1/9)— 解决的是不同问题。它们是 app builder——"agent"是生成器,不是持续存在的东西。 1 分是给"所有权"(代码归你)。v0 建的 app"等你",Creao 建的 agent"没你也能 24/7 干活"。
Zapier(3/9)— 胜在连接器广度,但没关上"记忆 + 复用 + 聊天到 agent"这一圈。
n8n(5.5/9)— 拿开源最高分,霸占"所有权"列(自托管、AGPL、数据在你自己硬件——Creao 没法给)。但它淹在"riding the wave"上——不是它像 LangChain,而是它要求你先变成一个工作流工程师:画流程图、接节点、维护布局。而那张手画的布局恰恰是更强的 AI 来时你第一个要重做的东西。有 DevOps 团队的团队可以接受;营销 / 独立创业者 / 电商运营不行。"n8n 给技术团队开源工作流接线;Creao AI 给其他人光聊天就能建 agent。"
Creao(8.5/9)— 丢的半分在所有权(云托管服务)。技能可以导出(在 MCP 之上跑,结构上可移植),但引擎、记忆库、编排全是它的。锁定型私网或受监管行业要这个;95% 用户这是对的取舍(真实所有权有真实的维护代价),但不是 0——给 9/9 就是骗你。
真正的问题:为什么 5.5 跳到 8.5 那么难?
为什么只有 Creao 能"riding the wave"?
9 个构建块里,6 个是工程、3 个是系统研究。6 个虽然难但路径清楚(沙箱、AI 路由、技能注册、OAuth 连接器、调度、所有权)。真正决定一个平台能不能"riding the wave"的是关上复利环——这 3 块:
- 把聊天变成 agent — 去掉这一步环永远关不上
- 跨对话记忆 — 去掉这一步 Day 2 从 Day 1 什么都没学到
- 安全可重复的调度 — 去掉这一步 Day 2 把同样的东西发两遍(别问我怎么知道的)
为什么这 3 块让平台"ride the wave"?因为它们是 AI 模型独立的——AI 从今年到明年可以升级,这 3 层一行代码都不用改;它们只是让更聪明的 AI 复利出越来越大的结果。
难 1:真能用的记忆
记忆是让 agent 价值复利的东西,多数平台卡在"存了然后忘了"。
真记忆要:
- 拣出重要的("用户偏好 em-dash"是信号,"用户在 3:42 说了 hi"是噪音)
- 去重(第八次告诉你品牌风格时更新记录、别建第九条)
- 允许淡化(上季度路线图权重低;今天的是老大)
- 跨线程搜索(有限制——所以需要工作区)
- 解决冲突(记下来源、新旧、可信度)
Anthropic 和 OpenAI 2025 年都发了"记忆",但仍然是单线程、单账户,底层的去重和淡化都没解决。学术界有正确想法(MemGPT、A-Mem),但几乎没人做成产品。
记忆不是一层,是让其他所有构建块能复利的基础。 没有它,你的定时 agent 每天早上 8 点从第一性原理重新推理一切,付 token 费去忘记它昨天 8 点学到的东西。
难 2:把聊天变成 agent
你刚在跟 AI 的聊天里把一个完美的竞品研究流程跑出来了。在我用过的所有聊天机器人里,答案是复制粘贴、截图、看着聪明死在一个浏览器标签里。
在真正的平台上答案应该是一键:把这次对话保存为 agent。
ChatGPT 的 Custom GPTs 最接近——但它们不带执行历史、不能把聊天编译成可重复的配方、不能定时跑。 它是一个被保存的提示词,不是一个被编译的 agent。这一步才是让复利环真的复利的那一步。
难 3:可重复的调度
听起来无聊。这是整张清单里最重要的可靠性特性,也是每个 demo 上线当天就爆的那一个。
Agent 周二早上 8 点跑,撞上:上游服务宕机 4 分钟?OAuth 登录昨晚过期?厂商一夜之间改了工具格式?12 步里的第 7 步崩了?定时器和 Web 触发器同时触发?
真正的生产级调度需要:等得越来越长的重试、半路存进度、失败任务暂存区、结构化错误日志、告警、"我是不是已经干过这事了"的检查——同一个任务永远不要往 Slack 发两次。
这一层是真实复杂度的一半——直到它崩之前你看不见它。 没有这一层,你的定时 agent 就是个闹钟,等着在长假周末让你出丑。
一句话总结
真正的产品不是 agent。是它周围那个 Harness。
而 Harness 里决定"能不能 riding the wave"的不是 6 个工程块——是那 3 个系统研究块:记忆、聊天凝固成 agent、可重复的调度。AI 模型升级 10 次,这 3 块一行都不用改,让所有升级在它上面自动复利。
过去半年我跑过的所有平台,n8n 拿 5.5,Creao 拿 8.5。差距的一半是工程,另一半是这 3 块——而后者没人抄得走。
🦞 9 块里只有 3 块(记忆、聊天凝固成 agent、可重复调度)决定能不能 riding the wave——前 6 块是工程,路径清楚;后 3 块是系统研究,没人抄得走。这就是为什么 5.5 跳到 8.5 那么难。