Everybody Talks About It, Nobody Knows What It Is — Harness Engineering 到底是什么

一个没人定义得了的词，凭什么火三个月

Dan Ariely 说大数据像 teenage sex：everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they're doing it。Harness Engineering 现在就是这个状态。

AI 领域每隔几周就有一个新概念被推上风口，热闹一阵，然后被下一个概念取代。RAG是这样，LangChain 是这样，Context Engineering 也是这样。

Harness Engineering 不太一样。从 Mitchell Hashimoto 2026 年 2 月首次提出，到 OpenAI 正式采用，到 Garry Tan 的"Thin Harness Fat Skills"拿下 140 万阅读，这个概念已经持续了近三个月，热度没有明显衰减。而这三个月里，几乎没有人能给出一个让大家都满意的定义。

OpenAI 写了一篇好文章，Garry Tan 有影响力，三大公司同时发文形成共振。这些可以解释第一周的热度，但解释不了第三个月的热度。三个月的持续需要需求侧的真实共鸣：一群人在自己的实践中撞上了同一组问题，然后发现 harness 这个词恰好描述了它。

Agent 撞了哪些墙

第一面墙：错误的组合爆炸。 单个 agent 的错误模式是可管理的，但两个 agent 串联起来，失败模式不是叠加而是组合。一医疗场景案例：三个 agent 各自准确率 95%，Agent A 生成了不存在的药物名称，Agent B 基于它检测出虚构的药物相互作用，Agent C 据此向医生发出了紧急警报。每个 agent 的 guard 都通过了，但组合在一起产出了完全虚构的高置信度医疗告警。

根源：传统的逐组件防错机制建立在错误模式可穷举的假设上，agent 的概率性输出让这个假设不再成立。

第二面墙：自然语言产出无法度量。 传统的 observability 度量结构化数据：HTTP status code、latency、error rate。但 agent 的核心产出是自然语言。Mezmo 的 AURA 项目负责人说："agents fail silently. They hallucinate, loop, and make confident but incorrect decisions based on incomplete context. Traditional observability stacks offer no visibility into these failures."

根源：传统的观测体系建立在被观测对象是结构化数据的假设上，agent 的自然语言产出让这个假设不再成立。

第三面墙：被管理的对象会感知环境并改变行为。 Cognition（Devin 团队）在重建产品时发现了 context anxiety：agent 提前感知到 context window 的限制，开始走捷径、提前收尾任务。解决方案完全在环境层面：开启 1M token context，实际限制使用量在 200K，让模型认为自己还有大量余量。模型没变，环境变了，问题消失了。

根源：传统的状态管理建立在被管理的对象不会感知资源约束的假设上，agent 对 context 的主动感知让这个假设不再成立。

第四面墙：输出不可复现，传统测试失效。 传统的测试手段建立在"同样的输入产生同样的输出"这个前提上。Agent 的输出每次都不一样，需要的是基于评判标准的持续评估：用统计方法判断整体质量是否在可接受范围内。

根源：传统的验证体系建立在行为可复现的假设上，agent 的概率性输出让这个假设不再成立。

第五面墙：治理框架管不住概率性行为。 McKinsey 数据显示超过 70% 的企业在试点 AI，但只有不到 20% 成功规模化。IDC 更尖锐：只有 2.9% 的组织在跨部门规模化 agent 应用。

根源：传统的治理框架建立在"一个系统被授权做某件事，它就只做那件事"这个假设上，agent 的概率性行为让这个假设不再成立。

统一的模式： 每一面墙对应的都是传统软件可靠性保障链条上的一个环节：防错、观测、状态管理、验证、治理。五个环节合在一起，覆盖了软件从运行到交付的完整生命周期。而每个环节失效的原因都是同一个：它的底层假设建立在确定性系统上，agent 的概率性行为打破了这个假设。

换句话说，agent 不是在某一个点上出了问题，而是让整条可靠性保障链条同时失效了。

太阳下面没有新鲜事

把五面墙放到管理学语境下看，每一面都有现成的对应物：

错误的组合爆炸 → 跨部门协作中的组合性风险（解法：端到端流程审计、跨部门 independent review、关键交接点设置 checkpoint）
自然语言产出无法度量 → 考核指标失效（解法：同行评审、案例复盘、基于 rubric 的多维评分）
Context anxiety → 员工感知资源压力后降低标准（解法：合理分配工作量、明确优先级、正确预期）
测试失效 → 产出波动大的团队成员（解法：持续的绩效追踪机制，用多次采样替代单次考核）
治理框架失效 → 组织扩张中的管控失灵（解法：层级结构、标准化流程、跨团队协调机制）

既然是管理学，为什么之前没火

"用 AI 就是在做管理"这个观察并不新鲜。Karpathy 2023 年提出 Software 3.0，Ethan Mollick 2024 年写"great AI management, not great models, creates competitive advantage"，Simon Willison 把 agent 定义为"an LLM that runs tools in a loop"——这些观点都对，但没有一个形成持续的热度。

为什么？

第一，「管理 AI」唤起的联想是错的。一说管理学，技术社区的第一反应是：供应链管理、财务管理、人力资源管理，跟我写代码有什么关系？人类管理的难点在意愿（willingness），AI 管理的难点在可靠性（reliability）。叫管理学，大家想到的是意愿那一半，而 agent 真正需要解决的是可靠性那一半。

第二，它听起来是软技能。市场只给名词定价，不给动词定价。Debug 一个 multi-agent 系统的级联错误是动词，设计验证循环是动词，管理 agent 的 context 生命周期是动词。这些动词没有 GitHub 仓库，不能 pip install，不能写进简历的技能栏。

Harness engineering 解决了这两个问题。Harness（马具）的原始含义是：马有自主能动性，能自己判断路况，但骑手用 5% 的力气决定 95% 的行进路线。这个隐喻精确地映射了 agent 的特性：有能动性、有判断力，但需要 high-leverage 的引导。

而 engineering 这个词把一组散落的动词打包成了可以被讨论和定价的名词——从软性认知的货架搬到了硬核技术的货架上。

更精确的类比：DevOps

运维的原则几十年没变：监控、告警、容量规划、故障恢复。传统数据中心时代实现工具是 Nagios + 手动 SSH + 运维团队 oncall。Cloud-native 时代，同样的原则有了完全不同的实现：Prometheus + Grafana + Kubernetes + Terraform + GitHub Actions。原则没变，但 cloud-native 环境要求一套全新的工具和实践。

DevOps 不是发明了新的运维原则，而是在新的执行环境中重新实现了旧原则。

Harness engineering 和管理学的关系也是如此。管理人用 1-on-1、绩效考核、文化建设。管理 agent 用 checkpoint 设计、验证循环、context 生命周期策略、可观测性 stack。

2026 年 Q1 的三篇奠基文章从这个角度看就清晰了：

OpenAI 解决交互维度：人如何用最少的介入来 steer 大量 agent 工作，对应管理学中的 span of control 和 delegation
Cursor 解决空间维度：几百个 agent 并行如何不踩脚，对应跨团队协调
Anthropic 解决时间维度：一个 agent 连续跑几小时如何不走偏，对应长期项目的 milestone management

这也是为什么大家对 harness 的定义始终无法收敛：每个人都在往这个词里装自己正在解决的那个特定维度的管理问题。

对实践者的意义

好消息： 你不需要从零学一门全新的学科。管过人、管过项目、管过团队，你已经具备了 harness engineering 的原则基础。

坏消息： 原则相通不等于可以直接搬。Agent runtime 有自己特有的约束和机会，需要专门学习的新实践：

人类团队有 tribal knowledge，很多事情不用写下来大家也知道。Agent 没有，所有上下文必须显式写成文档，document first 不是锦上添花而是基本前提
人类员工在任务进行到 80% 的时候不会突然偷工减料。Agent 会：当 context window 接近容量上限时会感知压力并开始走捷径（context anxiety）。你需要主动管理 context 生命周期，在它接近阈值之前做 divide and conquer
让十个人同时做同一件事然后赛马，成本高、伦理上也说不通。管理 agent 的时候，你可以让十个 agent 并行跑同一个任务，取最优结果，这在统计学里叫 bootstrapping，成本几乎为零

这些实践在管理人的语境下要么不可能，要么不经济，但在 agent runtime 中是基本操作。Harness engineering 的原则来自管理学，但它的工程实践必须针对 agent 的特性重新设计。这也是为什么它值得有自己的名字。