瓶颈已经转移了。

不再是如何写代码——而是怎么验证行为、怎么捕捉回归、怎么调试失败、怎么在系统演进和用户行为漂移中维护评估和可靠性。

工程的新时代,是设计能持续自我维持和自我改进的系统。

auto-harness 是什么

Gauri Gupta 开源了一套 self-improving loop。让 Agent 连上它,它就自己跑起来:挖 failure、转成 eval、修复 bug。全部自主完成,不需要人盯着。

在 Tau3 基准测试任务上,Agent 分数从 0.56 提升到 0.78——约 40% 的提升,同时自动维护着 live evals。

这个 flywheel 是怎么转的

1. 从生产 traces 里挖 failure

Agent 在真实环境里跑,失败的轨迹被记录下来。

2. 按根因聚类,生成 eval 追踪候选

失败不是单独处理,而是按根因分组。每个 cluster 代表一类问题,可以被一个 eval case 追踪。

3. 把 failure clusters 转成可复用的 living eval cases

一次性的调试变成了持续存在的测试用例。随着 Agent 继续跑,这些 eval case 也在更新。

4. 在测试环境里自主提出并验证 harness 修改建议

不是人来修,是系统自己在隔离环境里实验,验证修改是否有效。

5. 只接受同时满足两个条件的修改

  • 性能有提升
  • 不在已修复的 failure 上引入回归

核心判断

工程的新时代 = 设计能持续自我改进的系统。这包括:

  • 定义 Agent 如何运作的 robust harnesses
  • 持续测量行为的 evaluation layers
  • 约束系统输出的 constraints
  • 把失败转化为可操作信号的 feedback loops

一个 flywheel,依赖 Agent 经验和反馈实时变强。

为什么快过人工

每次迭代,Agent 会探索多个候选并从失败的实验迭代中 self-recover。结果是一个 Agentic harness,比人类进化得更快、更可靠——因为它利用了更多上下文、以远更大规模运行实验、并行探索。

人在这个循环里的角色是设计这个 flywheel,不是执行它。