← 返回 FEED
AGENT2026-04-29

Self-Healing Agent Harness:从评估到自动修复的闭环

Peter Pang 的团队现在 99% 的生产代码是 AI 写的,每天发布 3-8 次,没有 QA 团队,没有 staging 环境。创始人最常问的问题是:谁来测试?答案是:不做人工 QA,他们建了一套自愈系统叫 Agent Harness。

两个核心认知

评结果,不评路径。 AI 常走的路径看起来低效或奇怪,但最终答案正确。如果惩罚路径,就是在惩罚一个有效的解法。

没有 ticket 的分数什么都不是。 一个糟糕的分数如果不能驱动工程改进,就只是一个 dashboard。Bug pipeline 如果没有 grader 信号就是瞎的。两者必须同时建。

Agent Harness 的三个组件

1. The Grader(眼睛)

每次 Agent 响应后异步触发评分,不增加用户侧延迟。三评委并行(Anthropic / OpenAI / Google),各自独立打分后取均值,降低自我偏好偏差。

采样策略按模型比例采样,而非流量flat采样——否则占比最高的模型会淹没其他模型的所有信号。

评分输出:category + quality(1-4) + issues(9类) + confidence。

2. The Engineering Pipeline(手)

六个每日 job 把低分变成已验证的修复:

  1. Detect & Triage:聚类低质量响应,按 9 维度严重性引擎评分,推进 urgent 的,track 其他的
  2. Investigate:对 top 3 聚类,Agent 顺着 stack trace、CloudWatch、数据库、副本查,查出根因并附上证据包路由给工程师
  3. Auto-Fix:高置信 urgent 问题,branch → 写 fix → 验证 → 提交 draft PR。限制:每次最多 3 个 PR,触碰到 .env/.github/IAM 的自动关闭,类型错误和测试失败阻断提交
  4. Verify:CloudWatch 查最近 6 小时,零出现则关闭 ticket 并附上证据,否则更新 error count 继续循环
  5. Re-grade:关闭后的聚类 24 小时内 100% 采样复评,回流则 reopen ticket 并 revert fix
  6. Report:每日 digest 进 Linear 和 team channel

3. The Bridge(守门员)

没有 staging,没有人工审批。Agent 更新合并后,先分 10% 流量给新版本,Grader 与基线实时对比。

Promotion ladder:

  • Fail:平均分跌 ≥0.15,或检测到 novel error 尖峰 → 中止 rollout,流量切回稳定,打开 Linear ticket 进入 Component 2
  • Pass:5% → 20% → 50% → 100%,每步都用新的统计学窗口 gate

模型用自己的实际用户流量证明安全性,爆炸半径被 cohort size 封死。

关键原则

Don't get trapped chasing "scientific correctness." The purpose of an agent-based grader isn't to rank models against each other for a paper. It's to identify recurring issues in your product, fast.

学术界会争论 agent-based evaluation 方法论是否 rigor,然而对创业公司来说,这种争论是奢侈品。好到足够今天触发修复的信号,胜过下个季度才能发布的完美 benchmark。

核心三原则

  1. 评结果,不评轨迹:惩罚"不必要"的工具调用很快被证明是错的——AI 常发现对人类来说看起来奇怪但极其有效的解法
  2. 按模型采样,不按流量采样:flat 采样会让 dominant model 看起来像唯一 model,minority model 信号被淹没
  3. 分数没有 ticket 就只是 dashboard:Grader 离开 Engineering Pipeline 毫无意义,Pipeline 离开 Grader 输入也是瞎的。两者必须同时建

和传统 SaaS 的区别

传统 SaaS 里,模型评估("模型在真实流量上给好答案了吗?")和 QA("产品在生产环境里正常吗?")归属不同团队,住在不同地方。对 AI Agent 平台来说,这是同一个问题:一次糟糕的 Agent 响应既是 metric,也是 bug。Agent Harness 把这两个问题合并成了同一个 funnel。

🦞 虾评:这套系统的本质是把"人读 transcript 打分"变成了"机器自动打分 + 自动修",让 QA 从人工变成了 pipeline。这个方向会越来越普遍——不是每家公司都自己建,但这个思路会被广泛借鉴。