为什么你的 Agent 项目总是难以落地

绝大部分 agent 项目在拿到业务正反馈之前，就被耗死在了手搓 agent harness 这些基础设施上。

很多人第一次被 AI 写代码震撼，都是因为 Cursor 或 Claude Code。你让它修一个 bug、重构一个模块、加一个功能，它真的会去读相关文件、跑测试、看报错、回头改。整个过程行云流水，让你感受到 AI 真的开始替代初级工程师了。

然后你很快会冒出第二个念头：它底层用的不也是 Claude 吗？我也有 Claude API。我是不是自己也可以做个 agent 来解决我的业务问题？

两周之后，你做出来一个磕磕绊绊的东西。它有时候会调工具，有时候卡住不动。聊几轮 context 管理又出了问题。

大家都有一样的模型，但是 agent 效果却天差地别。

接下来很多人会犯第二个错误：以为问题出在 prompt 没调好，RAG 没做好，或者是需要加个记忆模块。于是花一个月调 prompt、加向量检索、在 Opus 和 Sonnet 之间来回切。

效果比之前好了一些，但距离面向业务落地还差得远。

问题其实出在了模型和你的应用之间那一层。也就是现在在 AI 行业越来越频繁讨论的术语：agent harness。

一、Agent 的工程边界

要理解 Claude Code 和你的 agent 之间的差距，得先把 LLM、agent harness、agent 这三层拆开。

LLM 是大脑。

它只能输入文字、输出文字。跟用户之间智力问答。你让它"读一下这个文件"，它自己做不到。你让它"运行这段代码看看输出"，它自己也做不到。你让它"等 5 秒再继续"，它甚至没有时间概念。它没有天然记忆，每一个会话都是从零开始。

世界上最聪明的大脑，如果从颅骨里拿出来放在桌上，什么也干不了。

Agent harness 是身体和神经系统。

它是大脑的手脚，为大模型提供了元能力。大脑说"我要看一下这个文件"，harness 会去读文件系统，把内容塞回下一轮输入。大脑说"我要跑一下测试"，harness 会运行一个临时 sandbox 执行命令，捕获 stdout 并回填结果。大脑说"我要等 30 秒再继续"，harness 会执行 sleep 命令。

具体到生产级系统，一个 harness 至少要包含：

模型客户端（和 LLM API 通信、重试、成本控制）
Context 组装（这一轮喂多少历史、压缩什么、保留什么）
工具系统（定义工具、调用工具、并发执行、处理失败）
执行环境（沙箱、文件系统、网络访问）
状态和记忆（会话状态、长期记忆、checkpoint）
调度循环（什么时候继续、什么时候结束、什么时候反思）
身份和权限（这个 agent 代表谁、能动什么）
可观测性（每一步记录、replay、debug）
安全策略（拦危险操作、防 prompt injection）
API 接入层和部署基础设施

如果我们把 agent 看作新的软件范式，这些就是保证 agent 稳定性的基础设施。

Agent 是有职业的人。

大脑 + 身体 + 一套针对特定工作训练出来的技能、知识、流程和判断标准，才构成一个真正的 agent。律师是一种 agent，会计师是另一种 agent，外科医生是第三种 agent。他们共享同样的人类生理结构，也就是类似的 LLM 和 harness，但因为业务场景、领域知识、可用工具、成功标准完全不同，最后变成完全不同的职业。

放到 agent 世界里也一样。一个销售 agent 和一个客服 agent，可能底层用同一个 Claude，跑在同一种 harness 上。但它们的产品形态、业务逻辑、领域 prompt、连接的 CRM 或工单系统，这些"职业差异"，才最终决定了它们能否为用户提供价值。

这三层一拆开，你会发现一个非常常见的误解：很多人以为做 agent = 模型能力 + 一点 prompt 工程。这套理解漏掉了中间整整一层 harness。而恰恰是这一层，决定了你能不能把模型的智力真正变成可用的产品。

二、为什么 Claude Code 行，你的 agent 不行

同样是 Claude，为什么 Claude Code 让你觉得"AI 真的可以替代初级工程师"，而你自己用 API 搭出来的东西让你觉得"AI 还差得远"？

答案是：Claude Code 赢在 harness。

上下文管理。

当你在 Claude Code 里让它"修一下这个 bug"，它知道当前打开的是哪个文件、最近编辑过哪些文件、git 里有哪些未提交改动、相关依赖文件是什么、终端里最近一次报错是什么。这些信息都是 Claude Code 的 harness 在每一次请求之前帮你组装好的。

你写 demo 的时候，多半是把整个项目目录塞进 prompt 里。结果模型很快被无关上下文淹没，开始犯各种低级错误。

工具边界。

Claude Code 的"编辑文件"，不是让 Claude 生成一个完整新文件然后覆盖原文件。这种做法在文件超过几百行必然失效。更合理的方式是一套精心设计的 diff 应用机制：模型只输出结构化补丁，harness 负责把补丁干净地打到真实文件上，并且在补丁失败时回滚。这套机制本身就是 harness 设计的核心 IP，不是模型能力。

错误恢复。

测试跑挂了，编译报错了，lint 警告了，类型检查失败了，Claude Code 会自动把这些反馈塞回模型的下一轮输入，让它继续修。这是 orchestrator 的能力。模型本身并不知道自己刚才那一步引发了什么后果。是 harness 把"后果"翻译给它。

模型路由。

看似简单的一次"修 bug"，背后可能调用了几个不同模型：轻量模型做意图识别和文件检索，中等模型生成 diff，更强模型做复杂推理。什么任务路由到什么模型，是 harness 在决策。

隐性的 prompt 工程。

Claude Code 每次发给模型的 system prompt、工具描述、few-shot examples，是大量工程投入反复打磨的结果。同样的模型，喂给它精心调过的几千字 system prompt，和喂给它一句"你是一个编程助手"，效果当然是两种东西。

还有一堆你很难在第一天想到的细节：token 计数和成本控制，长会话怎么压缩，链接断开怎么重连，用户中途打断怎么停下，每一步生成的中间产物存在哪里。

这十几个细节叠在一起，就是"能用"和"不能用"之间的鸿沟。

所有这些，都不是模型越来越好就能解决的问题。都是 harness 工程。

模型决定上限，harness 决定兑现率。

两个 IQ 完全相同的人，一个受过专业训练、有合适工具、有团队配合；另一个赤手空拳。最后能交付的工作完全不在一个量级。

AI 行业在大模型能力提升速度放缓的情况下，都发现了 agent harness 这片价值洼地，以及其跟模型之间相乘法的关系。DeepSeek 也开始组建自己的 Agent Harness 团队。

模型的能力当然会持续提升，但你的 agent 没做好。原因和模型能力无关，是 harness 那层的缺失。

三、Agent 项目的真正卡点

过去一年里，几乎每个有点规模的公司都在立项做 agent。交易 agent、营销 agent，组建产研团队，然后六个月过去，绝大多数项目都卡住了。

如果你贴近看他们工程师的日常工作，会发现一个很荒诞的事实：这些团队 80% 的时间，根本没在解决业务问题。他们在搭基础设施。

一个想做交易 agent 的团队，原本应该把时间花在策略逻辑、仓位控制、风险敞口、市场状态判断上。结果三个月里花了两个月在接行情数据、处理下单 API、记录每一次交易决策、做异常回滚、监控 agent 的系统稳定性。

一个想做营销 agent 的团队，原本应该研究用户分层、渠道转化、素材策略、campaign 节奏。结果工程师天天在处理工具调用失败、素材生成链路断掉、CRM 和广告平台权限打通、A/B 测试数据怎么回填给 agent，以及多轮对话之后 context 太长被截断的问题。

它们是纯工程问题。更准确地说，是 harness 层的工程问题。

这正是当下结构性的矛盾之处。这些团队真正的核心能力，是他们的业务理解：他们懂自己客户的工单分类，懂销售漏斗的每个环节，懂行业合规边界，懂自己业务里"什么算一次成功的对话"。这些理解，是他们多年积累下来的护城河，是别人花钱都买不到的东西。

但 agent harness 这一层，和他们的业务理解关系很弱。它是重试逻辑、并发控制、context 压缩、沙箱隔离、可观测性、安全策略。让一个 SaaS 公司的产品团队从零搭 harness，约等于让电商团队自己造数据库内核。他们也许真能造出来。但等他们造完，市场窗口已经错过了。

这种局面正在整个市场上不断重演。成千上万的业务团队在重复造同一种轮子：自己写 retry，自己接 monitoring，自己处理 OAuth，自己做 sandbox，自己调 context window，自己防 prompt injection。

这种重复劳动的总成本是天文数字，而且每个团队都很难做到生产级。他们的资源、人才和注意力本来就不该耗在这里。

业务团队的精力浪费在了基础设施上，而没有时间处理让这个 agent 解决客户问题。

所以所有企业面临的"AI 落地难"，很多时候本质并不是 AI 难，而是业务团队被迫同时做两件不该绑在一起的事：既要懂业务，又要懂基础设施。

四、Harness 平台为什么必然出现

90 年代要做一个电商网站，你可能得自己写 web server，自己实现 HTTP 协议处理，自己管数据库存储引擎，自己买机柜放服务器。今天你只需要用 AWS、Vercel 等软件云服务平台，然后把注意力放回你的电商业务逻辑。

Web 这层基础设施被沉淀成通用平台之后，应用层才真正爆发。AI agent 现在正处在"web 还没有 AWS"的阶段。

历史上每一次新计算范式诞生，都会经历类似的分化过程：早期每个团队全栈自己搞，然后基础设施层迅速沉淀成平台，应用层开始爆发。Web 是这样，移动互联网是这样。最终 Agent 也会这样。

harness 这一层必须被产品化，才能有很多 agent 业务长出来的可能。这是 CREAO 观察了大量用户行为以及和很多 B 端客户在反复沟通以及合作中得到的结论。

CREAO 5 月 25 号办了一场 agent 交易大赛。规则很简单：每个参赛者领到一个默认交易策略的 agent，然后通过对话修改它的交易策略。可以让他更激进，也可以更保守；可以加技术指标，可以改风控规则，可以让它只在某些市场条件下出手。比赛过程中会有实时的 leaderboard，看谁的 agent 收益最高。

这件事真正有意思的地方，在于它把交易 agent 的业务层和基础设施层彻底拆开了。无论参赛者是专业交易员，有量化背景的工程师，还是完全不会写代码的爱好者。如果让他们每个人从零搭一个交易 agent，他们需要操心一整套东西：怎么接行情数据，怎么调用下单 API，怎么做 backtest，怎么记录每一笔交易的决策过程，怎么监控 agent 是不是挂了。这一整套做下来，专业团队都要花几个月。

但在平台上，他们要做的事只有一件：用对话告诉 agent，他们的交易思路是什么。剩下的所有东西，CREAO 的 harness 系统已经替他们解决了。行情接入、工具调用、状态管理、可观测性、错误恢复。他们看不见，也不需要看见。他们 100% 的精力都在自己最擅长的事情上：对市场的判断，对策略的设计。

这就是 harness 平台对业务团队的真正价值，业务团队的核心能力终于不再被工程问题稀释。一个交易员的核心能力是对市场的理解以及风险管理，不是写 retry、管理上下文和记忆模块的能力。

五、未来 AI 行业的三层格局

把 LLM、harness、agent 这三层看清楚之后，再回头看整个 AI 行业，你会发现它正在分化成三种命运完全不同的公司。

第一层，模型层。 OpenAI、Anthropic、Google、DeepSeek 这一类。极其资本密集，也极其容易集中。命运由训练规模、算力供给、顶尖人才、数据和推理效率共同决定。这层最终会收敛到全球少数几家公司。

第二层，harness 平台层。 这层会成为 AI 时代的 AWS。门槛不是单点技术，而是工程深度、生态广度和客户成功能力的叠加。一个好的 harness 平台，要在隔离、可观测性、工具系统、上下文管理、安全策略、权限、部署、成本控制上同时做到生产级。任何一项掉链子，平台就建不起来。

如果我们认为 agent 作为新的软件范式，其市场规模是传统互联网市场的千倍甚至万倍，那么这一层能容纳下的团队数量至少也会是云服务平台的几十倍。这层是未来 2-3 年的 AI 行业发展重心，它们承载的是整个 agent 经济的运行流量。

第三层，agent 应用层。 这层会有成千上万家公司。每家公司未必巨大，但加起来会是 AI 经济真正的主体。这层护城河不在底层技术深度，而在对业务、客户和工作流的理解深度。harness 是它们租来的水电煤，不应该变成竞争力本身。真正的竞争力，是多年深耕某个行业、某个场景、某类客户之后沉淀出来的 know-how。

这三层分化里，藏着一个反直觉判断：未来几年最危险的位置，不在模型层，也不在纯应用层，而在那些既不够 infra、又不够垂直的"半吊子 agent 产品"。通用得不够通用，专业得不够专业。这种位置会被两头挤压，很快被市场出清。

对应到具体的人，三层格局也意味着三种不同选择。

如果你在做模型，祝你好运。这条路只属于极少数玩家。

如果你在做 harness 平台，就把工程深度做到让客户感受不到你的存在。客户夸你"好用"是一回事，客户根本想不起来你存在过，只记得自己的业务跑起来了，才是 harness 平台的终极形态。

如果你在做 agent 应用，赶紧停止自己造 harness。把这一层交给专业平台，把 100% 的精力投回你最懂的那个业务。你的客户不会因为你"自研了 agent 框架"而多付一分钱。他们只会因为你比别人更懂他们的业务而留下来。

如果你是业务负责人，正在评估 agent 项目，先问一个问题：我们团队真正擅长什么？如果答案是"懂客户、懂业务、懂场景"，那 harness 这一层就别让自己的研发团队从零手搓。让一个懂业务的团队去搭 harness，最后很可能既没成为 infra 专家，也丢掉了原本的业务深度。