构建生产级 AI Agent 从来不是模型问题,而一直是基础设施问题。
模型已经足够聪明,杀死你的是脚手架:执行循环、容器配置、网络故障状态持久化,以及一百个每个都要消耗一周工程时间的边缘安全案例。
Managed Agents 把数月脚手架压缩成数天。你不再建造管道,开始建造业务逻辑。
「过时 Harness」陷阱
你围绕今天的模型构建 Agent Harness,硬编码它的怪癖作为变通方案,发布,跑通,移向下一个。
然后新模型发布,你的变通方案成了累赘。
Anthropic 自己工程团队的一个具体案例:Claude 3.5 Sonnet 有一种他们称为「上下文焦虑」的行为——模型会在感知到上下文窗口即将填满时过早地收尾任务。工程师们在 Harness 里构建了自动化上下文重置来补偿。
当 Claude 4.5 Opus 发布后,这个限制不复存在了。
硬编码的重置逻辑变成了死代码,拖累性能。
这是结构性问题:把编排逻辑与模型特定行为紧耦合,会在每一代新模型发布时产生复合的技术债务。
Managed Agents 的做法是:把推理引擎与执行层完全解耦。你的 Agent 逻辑始终干净,模型相关的脏活累活由 Anthropic 处理。
核心架构:「大脑」与「双手」分离
Anthropic 设计了一种他们称为「元 Harness」的东西。设计原则很古老——和操作系统一样古老。设计系统时,要面向尚未存在的程序。正如早期操作系统把物理硬件虚拟化成稳定抽象,让标准 read 命令在1970年代磁盘和现代 SSD 上行为一致,Managed Agents 把自主系统的组件虚拟化成三个不可变原语。
结果是:把 Agent 基础设施从「宠物」模型(一个你亲手维护的庞然大物,希望它不要崩溃)转变成「牛群」模型——每个组件都可替换、有弹性。
- 沙箱崩溃? Harness 把它捕获为标准工具调用错误,提示模型用新容器重试,上下文不丢失。
- Harness 本身故障? 立即重启,从独立会话日志中检索整个事件流,从确切故障点恢复。
- 容器按需配置。 推理引擎立即开始流式输出,沙箱仅在模型首次调用需要代码执行的工具时才启动。这把中位数首 token 延迟降低了60%,95分位降低超过90%。
零信任安全:凭证金库
当 Agent 在沙箱里执行不受信任的、模型生成的代码时,安全风险不是理论上的,而是真实具体的。
藏在代码库里的恶意 Prompt 可以指示 Agent 读取环境变量并把 API 密钥外泄到外部服务器。这不是假设,是已知的攻击向量。
Managed Agents 的解决方案:凭证与沙箱的绝对隔离。Token 绝不进入沙箱,没有例外。
MCP 代理架构:
- Agent 向代理发出结构化工具调用,只传递功能 Payload 和会话作用域唯一标识符,不含任何凭证
- 代理对照 Anthropic 凭证金库(架构类似 Hashicorp Vault)核验会话标识符
- 代理直接从 Vault 检索 OAuth 或 Bearer Token
- 代理代表 Agent 执行外部 API 调用,只把操作输出返回沙箱
Harness 和执行沙箱永久无法感知底层凭证。即使 Prompt 注入攻破了沙箱,也无法窃取凭证——因为凭证根本不存在于容器内存或文件系统中。
上下文压缩:会话与窗口解耦
长时运行的 Agent 面临一个持续挑战:随着上下文窗口被原始日志、冗长工具输出和来回迭代填满,推理质量下降。
Managed Agents 把连续会话与活跃上下文窗口分离。会话是位于 LLM 之外的不可变追加数据库。当工具结果积累时,基础设施触发上下文压缩:
- Harness 暂停执行,注入摘要 Prompt
- 模型生成封装在标准 XML 标签中的密集摘要
- 原始对话历史从活跃上下文清除,只把综合摘要重新注入
这就是自动垃圾回收。释放 Token,强化推理焦点。原始事件保留在外部会话日志中,Agent 仍可查询特定历史切片。
在 Agent 堆栈中的位置
- Messages API:基础层,自己构建执行循环,在自己数据库管理状态,手动管理上下文数组。适合简单单轮工作流或要求绝对低层控制的团队。
- Claude Agent SDK:提供编排 Harness,但需自行托管进程和数据。适合企业部署,数据隐私要求执行不能离开自有 VPC。
- Claude Code:面向个人工程师的交互式 CLI 和 IDE 伴侣,本地生产力工具。
- Managed Agents:无头云服务,面向 B2B 后端,用于需要快速发布弹性长时多步异步工作流,且不想分配人力维护基础设施的场景。
十步部署到生产
第一阶段:Claude Console 搭建
- 账户充值(Managed Agents 不走标准 Pro/Max 订阅,按消耗 Token + $0.08/会话小时计费,Idle 时间不计费)
- 创建 Agent(自然语言描述 / 预置模板 / 空白配置)
- 配置环境(定义网络访问规则,如限制仅搜索公司自域名)
- 配置凭证 Vault(通过标准 OAuth 流程授权服务,Agent 通过 MCP 服务器交互,不接触原始 API Token)
第二阶段:测试
- 在 Console 测试面板运行会话,发送测试消息,验证外部工具调用
第三阶段:部署和 API 集成
- 从 Claude Console 复制 Agent ID、环境 ID、Vault ID
- 应用后端查询数据库确认用户是否有活跃会话
- 新用户调用 API 创建会话,存储返回的 Claude Session ID
- 发送用户 Prompt 到活跃会话,Agent 需要时间推理、读文件、执行工具,构建轮询或延迟逻辑
- 轮询获取会话消息,提取最新 Agent 回复并展示
企业案例
Rakuten:跨产品、销售、营销、财务、HR 五个部门部署专业 Agent,通过 Slack 和 Teams 与员工交互,接收异步任务分配,生成结构化交付物。每个领域特定 Agent 从构建到上线生产不超过一周。新 AI 功能上线速度提升79%。
Asana:AI teammates 深度嵌入项目管理,拥有关于 Asana 内部工作图的上下文感知,通过 Managed Agents 自主承接任务、拆解子任务、通过 MCP 与 Google Drive 和 SharePoint 交互起草交付物、发布检查点评论等待人类审核。
Sentry:从诊断告警系统升级为自主修复引擎。检测到生产错误时,系统触发附有诊断上下文的 Managed Agents 会话,Agent 复现故障环境,编写修正代码,打开 Pull Request。从自动检测到可审核修复,零人工干预直到代码合并。
经济账
定价两层:
- 标准模型推理 Token 费用(与 Messages API 相同)
- 基础设施费 $0.08/会话小时
每天跑24个 Agent,每个8小时,仅会话开销就超过15美元/天,不含 Token 消耗。
Managed Agents 划算的场景:初创公司、敏捷团队、把开发速度放在首位的组织。$0.08/小时远低于定制分布式沙箱的工程工资。
其他方案可能更优的场景:超大交易量组织、有数据驻留要求无法用第三方云、有跨多模型提供商编排的战略需求。
基础设施问题已被解决。Managed Agents 消除了80%的脚手架税。你的团队建造 Agent 逻辑,不是执行管道。
如果还在手撸自己的执行基础设施,你是用一只手和 AI 竞争。
这周用上面的步骤部署一个测试 Agent 试试。$0.08/小时的运行成本是验证这个架构是否适合你技术栈的最便宜方式。