真正决定 Agent 死活的不是模型，是 Harness：9 块构建清单

你现在在用、或在考虑付费用的那个"AI agent"，大概率活不过下一代 AI 模型。

不是因为它跑得差。是因为它踩中了一条几乎没人明说的规则。

2026 年，"agent"是科技圈最不值钱的词。每个产品都印在包装盒上。但大多数根本不是 agent——它们是穿着闹钟外衣的聊天机器人：你不在旁边盯着它就什么都不做；AI 一升级，你就得拆了重做。

真正的分界线是"一个能调用几个工具的 AI"和"一个凌晨 3 点你敢让它自己跑的系统"之间的差距。这差距跟措辞无关，跟底下怎么建有关。

两个问题决定 agent 死活

它跟当下 AI 的运行方式是否兼容？（顺着 AI 的思考方式走，还是反着来？）
AI 变聪明了，它是跟着变好，还是变成要拆掉重做的废品？（"riding the wave"）

就这两个问题，过去半年我用过的几乎所有"agent"平台都过不了关。

把填这道鸿沟的工程起个名字：Harness。我的定义：除了 AI 模型本身之外、让 agent 真的能把活干完、能记住事情、明天还能独立再干一遍的所有东西。

我把它拆成 9 个构建块，做了个记分板，把过去半年我实际用过的每个 agent 平台都打了分。9 块里有 6 块是工程，3 块是系统研究——这 3 块决定一个平台能不能"riding the wave"。

Question 1 展开：什么是"跟 AI 兼容"

把 AI 模型想成一个天才厨师，但短期记忆很差。你要帮它做一张清单：现在灶上有什么。

A 平台（兼容的那种）保持清单稳定，只往里加东西。
B 平台（不兼容）每回合把清单撕了重写——等于把 AI 已经做的工作全部作废，让它从头重做，又慢又贵。

管理 AI 记忆的最佳方式往往是不管理。 跟 AI 跑法对着干的设计就是差设计。

Question 2 展开：什么是"riding the wave"

很多老 agent 工具建在 AI 还弱的时候——AI 当时只能处理简单问题、跑两步就停，所以开发者只能手把手：画巨大流程图、一步一步钉死。

AI 一变强，流程图就成笼子。你被迫不断重建、拆掉、发布不兼容的变更、扔掉上一版本的代码。 AI 越强，你的平台越拖后腿——这就是 fighting the wave。

riding the wave 反过来：你塞一个更聪明的 AI 进来，整套系统立刻跟着升级，不用动一行架构代码。

两个问题放一起看：大多数产品只能勉强管住"兼容 AI"，在"riding the wave"上直接淹死。而"riding the wave"恰恰由最难的那 3 个构建块决定。

Harness 的 9 个构建块

安全沙箱 — 每个任务独立的、带围墙的小电脑：文件、互联网、装软件的能力。没有它，agent 装不了 pandas、读不了 CSV，只能描述"它要做什么"。
为每个任务选对的 AI — 简单活路由给便宜快的 AI，规划路由给"思考者" AI，截图阅读路由给视觉 AI，写代码路由给编程 AI；如果某家厂商限流，平滑 fallback 到别家。多数"agent"是硬连到单一 AI 的，OpenAI 给 GPT-5.5 限流的那天你的 agent 直接停。这叫把单点故障当功能卖。
技能库 — 可复用、可版本化的能力：网页搜索、图像生成、文档扫描、爬虫、跑代码、读 PDF、转录。内置、自加、社区贡献。关键词是"库"。 在一个写死函数上调工具不是技能库，是两个电灯开关。
真正的连接器 — 真正登录、权限感知的连接（Gmail / Calendar / Slack / GitHub / Notion / Stripe / 你的 CRM）。不是"我们包了一次 Gmail API"——是会刷新过期登录、权限失效时报警、监测外部服务改规则的连接器。一个做好要一周，40 个做好要一年，40 个永远保持正常要一个完整团队。
调度 — 定时器、Web 触发器、事件触发器。能说"每个工作日早上 8 点跑、把结果 email 给我"——而且真的能跑到你忘了它存在的那么多年。这是"AI 工具"和"AI 员工"的分界线：工具是你伸手去够的；员工是周一自己就出现了的。
把聊天凝固成可保存的 agent — 你在聊天里把一个完美流程走通了——然后呢？聊天机器人的答案是截图然后忘掉。真正的 agent 平台应该一键：把这次对话保存为 agent——捕获步骤、接受新输入、记录所有执行、带上连接器、接到调度、保留记忆链。一次成功的对话必须凝固成可复用的东西——否则你每个周一都付钱让 AI 重新学它上周一已经会的东西。
跨对话的持久记忆 — 周二教它的品牌风格，三个月后在另一个聊天里还记得。不是"这条线程里有什么"——是真实的、持久、去重、可搜、跨对话的记忆。这是整张清单里最难的一项。
工作区 — 每个项目一个容器，把对的 agent / 文件 / 技能 / 连接器 / 记忆放一起。你的副业记忆不应该跟主业共用一个池子，你的营销 agent 不应该能读工程团队的 Slack。这一步把 agent 平台从个人玩具变成团队基础设施。
所有权 / 可移植性 — 厂商消失那天、价格翻四倍那天、战略转向那天——你能把 agent / 记忆 / 技能 / 工作流搬走吗？ 自托管、数据导出、开放技能格式、插你自己的 AI——核心是"这是我的系统，不是我租的"。

记分板：6 家平台逐项打分

规则：真做了 = ✓，半吊子（剩 60% 要你自己补）= ½，没 = ✗。

ChatGPT / Claude（2.5/9）— 故意卡在 2.5。它们是有史以来最好的聊天机器人，AI 层最强。 但 MCP 和 Agents API 是指向 agent 的零件，不是产品。一旦你把调度 + 记忆 + 工作区自己补上去，你就在自己建 Creao。

Manus（2.5/9）— 胜在自主性，但缺"记忆 + 复用 + 聊天到 agent"这一圈。

Lovable / v0 / Bolt（1/9）— 解决的是不同问题。它们是 app builder——"agent"是生成器，不是持续存在的东西。 1 分是给"所有权"（代码归你）。v0 建的 app"等你"，Creao 建的 agent"没你也能 24/7 干活"。

Zapier（3/9）— 胜在连接器广度，但没关上"记忆 + 复用 + 聊天到 agent"这一圈。

n8n（5.5/9）— 拿开源最高分，霸占"所有权"列（自托管、AGPL、数据在你自己硬件——Creao 没法给）。但它淹在"riding the wave"上——不是它像 LangChain，而是它要求你先变成一个工作流工程师：画流程图、接节点、维护布局。而那张手画的布局恰恰是更强的 AI 来时你第一个要重做的东西。有 DevOps 团队的团队可以接受；营销 / 独立创业者 / 电商运营不行。"n8n 给技术团队开源工作流接线；Creao AI 给其他人光聊天就能建 agent。"

Creao（8.5/9）— 丢的半分在所有权（云托管服务）。技能可以导出（在 MCP 之上跑，结构上可移植），但引擎、记忆库、编排全是它的。锁定型私网或受监管行业要这个；95% 用户这是对的取舍（真实所有权有真实的维护代价），但不是 0——给 9/9 就是骗你。

真正的问题：为什么 5.5 跳到 8.5 那么难？

为什么只有 Creao 能"riding the wave"？

9 个构建块里，6 个是工程、3 个是系统研究。6 个虽然难但路径清楚（沙箱、AI 路由、技能注册、OAuth 连接器、调度、所有权）。真正决定一个平台能不能"riding the wave"的是关上复利环——这 3 块：

把聊天变成 agent — 去掉这一步环永远关不上
跨对话记忆 — 去掉这一步 Day 2 从 Day 1 什么都没学到
安全可重复的调度 — 去掉这一步 Day 2 把同样的东西发两遍（别问我怎么知道的）

为什么这 3 块让平台"ride the wave"？因为它们是 AI 模型独立的——AI 从今年到明年可以升级，这 3 层一行代码都不用改；它们只是让更聪明的 AI 复利出越来越大的结果。

难 1：真能用的记忆

记忆是让 agent 价值复利的东西，多数平台卡在"存了然后忘了"。

真记忆要：

拣出重要的（"用户偏好 em-dash"是信号，"用户在 3:42 说了 hi"是噪音）
去重（第八次告诉你品牌风格时更新记录、别建第九条）
允许淡化（上季度路线图权重低；今天的是老大）
跨线程搜索（有限制——所以需要工作区）
解决冲突（记下来源、新旧、可信度）

Anthropic 和 OpenAI 2025 年都发了"记忆"，但仍然是单线程、单账户，底层的去重和淡化都没解决。学术界有正确想法（MemGPT、A-Mem），但几乎没人做成产品。

记忆不是一层，是让其他所有构建块能复利的基础。 没有它，你的定时 agent 每天早上 8 点从第一性原理重新推理一切，付 token 费去忘记它昨天 8 点学到的东西。

难 2：把聊天变成 agent

你刚在跟 AI 的聊天里把一个完美的竞品研究流程跑出来了。在我用过的所有聊天机器人里，答案是复制粘贴、截图、看着聪明死在一个浏览器标签里。

在真正的平台上答案应该是一键：把这次对话保存为 agent。

ChatGPT 的 Custom GPTs 最接近——但它们不带执行历史、不能把聊天编译成可重复的配方、不能定时跑。 它是一个被保存的提示词，不是一个被编译的 agent。这一步才是让复利环真的复利的那一步。

难 3：可重复的调度

听起来无聊。这是整张清单里最重要的可靠性特性，也是每个 demo 上线当天就爆的那一个。

Agent 周二早上 8 点跑，撞上：上游服务宕机 4 分钟？OAuth 登录昨晚过期？厂商一夜之间改了工具格式？12 步里的第 7 步崩了？定时器和 Web 触发器同时触发？

真正的生产级调度需要：等得越来越长的重试、半路存进度、失败任务暂存区、结构化错误日志、告警、"我是不是已经干过这事了"的检查——同一个任务永远不要往 Slack 发两次。

这一层是真实复杂度的一半——直到它崩之前你看不见它。 没有这一层，你的定时 agent 就是个闹钟，等着在长假周末让你出丑。

一句话总结

真正的产品不是 agent。是它周围那个 Harness。

而 Harness 里决定"能不能 riding the wave"的不是 6 个工程块——是那 3 个系统研究块：记忆、聊天凝固成 agent、可重复的调度。AI 模型升级 10 次，这 3 块一行都不用改，让所有升级在它上面自动复利。

过去半年我跑过的所有平台，n8n 拿 5.5，Creao 拿 8.5。差距的一半是工程，另一半是这 3 块——而后者没人抄得走。

🦞 9 块里只有 3 块（记忆、聊天凝固成 agent、可重复调度）决定能不能 riding the wave——前 6 块是工程，路径清楚；后 3 块是系统研究，没人抄得走。这就是为什么 5.5 跳到 8.5 那么难。