在 AI 圈,模型至上论正在遭遇前所未有的挑战。当所有人屏息等待新模型再次刷新智力天花板时,AI 基础设施领军人物、LangChain 联合创始人 Harrison Chase 在最新对话中抛出了新预判:大模型正在沦为大宗商品,而决定 Agent 成败的,是那个包裹在模型外的 Harness。
模型商品化与 Harness 的崛起
这场对话发生在旧金山大通中心。Harrison Chase 与资深投资人 Matt Turck 拆解了 AI 栈的权力更迭,核心逻辑很清晰:聪明的模型遍地走,但能干活的架构万里挑一。
"Manus 就是一个很好的例子,"Harrison 说,"它的 Harness 做得非常出色。这才是成功的秘诀。而且它底层可以用任何 Model 来驱动,都能跑得很好。"再看 Claude Code——Claude 的模型确实很强,但真正让这一切落地的是 Harness。
"你看像 Manus、Claude Code、Deep Research,它们都采用了同样的方式:让模型在循环中运行、调用 Tool、编写代码、读写文件。基本发生了两件事:模型变强了,同时我们也开始发现一些 Harness 的 Primitives,真正让模型能够发挥出最佳水平。"
编码化是长周期智能体的唯一归宿
目前 Agent 分两种:
Conversational Agent:用于客户支持、聊天机器人,延迟要求极低,交互媒介往往是语音,不会调用太多 Tool。
Long Horizon Agent(长周期智能体):可以在长时间内运行、进行规划、保持连贯性——这类最终都演变成了 Coding Agent。
为什么?因为代码具有极高的通用性。想循环处理 100 个文件,与其做 100 次 Tool Call,不如写个脚本一次性搞定。更重要的是,所有大模型的 RL 训练都将代码、Bash 和文件编辑能力融入其中——这些正是模型表现最好的领域。
Sub-Agent:隔离的代价是沟通成本
Sub-Agent 非常好用,因为它们实现了 Context 的隔离。主 Agent 的 Context 会随着调用 Tool 和与环境交互不断累积——这既是好事(拥有了所有 Context),也是坏事(窗口膨胀)。
Sub-Agent 的解法:启动一个全新的、干净的 Context Window,完成工作后返回结果,主 Agent 只需要看到最终结果。但代价是任务之间被隔离了,需要在两个 Agent 之间进行通信。
"我们经常遇到一个非常现实的问题:主 Agent 启动了一个 Sub-Agent,Sub-Agent 完成了一大堆工作,关键信息可能散落在执行过程的中间某处,但最后返回的信息只是简单一句'完成了'。主 Agent 就会困惑:'你说完成了是什么意思?我什么都看不到啊。'"
Sub-Agent 虽然很好用,但确实增加了一层沟通的复杂性。未来的胜负手,在于谁能用工程化手段解决 Agent 间的沟通摩擦。
从"被迫遗忘"到"主动失忆"
传统的上下文压缩(Compaction)是基于 Token 阈值的"被动切除"——Context 用了 80% 了,系统强制压缩。
未来的趋势是赋予 Agent 专门的 Tool,让它主动触发压缩。假设你和 Agent 说"去帮我做 X",它执行完用了 60% 的窗口——这个比例通常不会触发压缩。但接着你又说"去做一个完全不相干的事情 Y"——这时候它应该触发压缩,因为之前的那些历史记录对做 Y 没有任何帮助。
"让模型自己决定何时压缩,这非常符合'让模型承担更多职责'的精神。"
文件系统即大脑
Agent 需要的不仅仅是 RAG,而是一个真正的文件系统。通过将指令、技能和历史记录物理化为文件,LLM 得以像人类操作硬盘一样管理自己的 Context Window。
DeepAgents 的做法:如果一个 Tool 返回了 6 万个 Token 的结果,不会全部展示给 LLM,而是把结果存入文件,然后告诉 LLM:"这是前 1000 个 Token,如果你想看剩下的,就去读这个文件。"
当 Context Window 长度达到阈值时,运行一个摘要步骤,同时把所有的原始消息转储到文件系统里。如果 LLM 之后需要查阅原始信息,它仍然可以回去找。
这种"程序性记忆"的持久化,是 Agent 从"聊天机器人"跃升为"独立数字员工"的基石。
沙箱是 API Key 的最后防线
在 Prompt Injection 防不胜防的今天,沙箱不再仅仅是运行环境,更是安全屏障。通过在沙箱外层设置代理注入 API Key,可以让 Agent 在完全不知道敏感信息的情况下完成任务,从物理隔离层面封锁了通过诱导攻击窃取秘钥的可能。
开发者的"资产陷阱"
Harrison 给出了一个反直觉的警告:不要迷信任何框架(包括 LangChain 自己),因为架构层正在以周为单位迭代。
真正具有穿越周期价值的资产,是深埋在业务逻辑里的 Instruction(指令)、Tool(工具集) 和 Skill(技能包)。
"这些'领域知识'的数字化积累,才是 AI 浪潮下唯一的硬通货。无论你最终以什么方式暴露它们——是打包成 Skill、封装成 Sub-Agent,还是让每个部门构建自己的 Agent——这些东西始终有价值。"
Memory 的三种形态
Harrison 提出了 Memory 的三层分类:
- Episodic Memory:过去的交互或对话记录,RAG 类技术已经成熟。
- Semantic Memory:大量事实信息存入语义存储,通过检索式 RAG 调用。
- Procedural Memory:关于"如何做某事"的指令——这其实就是 Agent 的 Configuration。拿一个 Harness,提供 System Prompt、Skill 和 Tool,这些都属于 Agent 的 Procedural Memory。DeepAgents 让 Agent 在运行中更新这些文件,从而实现持续学习——Agent 能够修改自己的 Procedural Memory,而这些 Memory 在文件系统里就是以文件形式存在的。
架构的未来:稳定的是模式,变化的是功能
Harrison 认为,在循环中运行、调用 Tool、与文件系统交互、编写代码这些核心模式是稳定的。但这些 Harness 的功能特性,几乎每周都在增加。
"我们组合这些组件的方式会快速演变。Scaffolding 会快速变化。相比之下,Harness 的底层模式会更稳定一些。但那些 Instruction 和 Tool,始终具有价值。"
最终我们会达到这样一种状态:有一个同步的 Conversational Agent,可以在后台发起多个长周期运行的异步 Agent。从表面上看,它呈现为一个 Agent,但背后是不同的 Memory Module 驱动着不同的 Sub-Agent。
这篇对话最反直觉的观点是"模型不重要,Harness 才重要"——但仔细看 Harrison 的逻辑,说的其实是:在模型能力趋同的环境下,架构层是真正的差异化。Manus 能用任何模型跑好,不是因为模型,是因为 Harness。这和 Sam 一直在推的"Filesystem-first"其实是同一个方向的不同表述——都是在说,模型是底层的 commodity,真正定义智能体行为的是它上面的那层结构:Memory 的组织方式、Context 的管理方式、Tool 的调用模式。模型会商品化,但 Architecture 不会。