LangChain 的编码 Agent 在 Terminal Bench 2.0 上从 Top 30 冲到 Top 5——排名从 52.8% 升到 66.5%。参数改动:零。改动内容:harness。
这不是孤例。七项独立研究表明,复杂企业任务中 agent 失败率高达 70-95%。但 Gartner 的预测更值得关注:2027 年超过 40% 的 Agent AI 项目会被取消。而那些真正在生产环境跑通 agent 的团队,优势来源不是更好的模型访问权限——是更好的 harness。
独立开发者 Nyk 在 X 上发布了一份完整的 Harness Engineering 框架,获得了大量关注。
什么是 Harness
Harness 是包裹在模型外围的基础设施,负责管理模型的运作方式——既不是模型本身,也不是提示词。
OpenAI 的 Codex 团队用这个思路构建了一个超过百万行代码的生产应用——零行代码是人类手写的。工程师们设计的是 harness:约束、反馈回路、文档、linter 和生命周期管理,让模型能够可靠地写代码。
Harness 有三个核心职责:
- Context Architecture:决定模型在每个步骤看到什么信息
- Execution Guardrails:执行约束,规定模型能做什么、不能做什么
- Memory Infrastructure:确保模型从自己的历史中学习
Context Architecture:指令文件不是越大越好
典型的反模式:从 CLAUDE.md 或 AGENTS.md 开始,之后变成越来越厚的百科全书。每个边缘 case 加一条规则,每次失败加一条指令,文件很快突破 2000 行。模型开始忽略一半内容。
当"所有东西都很重要",真正重要的反而被淹没了。
OpenAI Codex 团队的解法:把根指令文件当作目录来用,真正的知识存在结构化的 docs/ 目录中。模型在正确的时间获得正确的上下文——而不是所有上下文同时灌输。
具体原则:
- 根指令文件控制在 200 行以内
- 知识按主题组织到结构化目录
- 动态上下文注入:按任务加载相关文档,而非每次 session 全量加载
- 每月清理一次:如果一条规则 30 天内没有阻止过一次失败,删除它
四根支柱
Harness Engineering 建立在四根支柱上,常规方案通常只建一、两根,生产级系统需要全部具备:
Pillar 1: Context Architecture(分层渐进披露)
Layer 1: 项目架构、规范、不变式(始终加载)
Layer 2: 模块级文档、schema、约束(按任务加载)
Layer 3: 文件历史、近期变更、相关测试结果(按文件加载)
Token 使用量按层追踪,任一层超过 window 的 40% 就告警。
Pillar 2: Agent Specialization(专业分工) 一个通用 agent 无法 scale。生产系统使用专业分工的窄域 agent:
- 每个域一个 agent(代码生成、测试、审查、部署)
- 每个 agent 只获得它需要的工具,不做权限蔓延
- Agent 之间通过结构化交接文档通信,不共享 context window
Pillar 3: Persistent Memory(持久记忆) 对话历史在 window 关闭后消失——这不是记忆。真正的记忆存在文件系统:
decisions.md:架构决策及理由failure-catalog.md:索引化失败模式和解决方案session-state.md:上次 session 变更了什么、什么测试挂了、模型学到了什么
Agent 在 session 启动时读取记忆,结束时写入记忆。记忆是 append-only 的,按独立流程定期清理。
Pillar 4: Structured Execution(结构化执行) 模型永远不应该从提示词直接到代码。结构化执行强制执行工作流:研究 → 计划 → 执行 → 验证。
safety-nets/
simulation-gate.md # 每次部署前模拟
test-gate.md # 提交前测试必须通过
review-gate.md # 关键路径人工审查
rollback-plan.md # 失败自动回滚
golden-paths/
code-patterns.md # 每种语言的批准模式
architecture-rules.md # 系统边界约束
audit/
action-log.md # 每个 agent 动作带时间戳记录
cost-tracker.md # 累计花费追踪
decision-trail.md # 记录每个决策的理由
模型层正在商品化
这是文章最核心的论点:GPT-5、Claude Opus、Gemini 2.5——每发布一次,能力差距就缩小一分。Carnegie Mellon 的研究发现 agent 只能完成 24% 的标准办公任务,失败原因是基础设施,而非智能。
真正的问题不是"哪个模型更强",而是"哪个系统更好地包裹了模型"。
LangChain 用同一个模型,只改进了 harness,从 Top 30 冲到 Top 5。OpenAI 的 Codex 团队也证明了这一点:积累的 harness 上下文让模型越来越可靠——不是因为模型变好了,而是因为 harness 让模型的任务变简单了。
模型可以替换。Harness 积累的上下文、失败模式、架构决策不行。六个月的积累无法通过换模型或换框架来复制。
这才是真正的护城河。
The model layer is commoditizing fast. The teams that win are building harnesses, not shopping for models.
The harness is the product. The model is the engine. Nobody buys a car for the engine alone.