Self-Healing Agent Harness：从评估到自动修复的闭环

Peter Pang 的团队现在 99% 的生产代码是 AI 写的，每天发布 3-8 次，没有 QA 团队，没有 staging 环境。创始人最常问的问题是：谁来测试？答案是：不做人工 QA，他们建了一套自愈系统叫 Agent Harness。

两个核心认知

评结果，不评路径。 AI 常走的路径看起来低效或奇怪，但最终答案正确。如果惩罚路径，就是在惩罚一个有效的解法。

没有 ticket 的分数什么都不是。 一个糟糕的分数如果不能驱动工程改进，就只是一个 dashboard。Bug pipeline 如果没有 grader 信号就是瞎的。两者必须同时建。

Agent Harness 的三个组件

1. The Grader（眼睛）

每次 Agent 响应后异步触发评分，不增加用户侧延迟。三评委并行（Anthropic / OpenAI / Google），各自独立打分后取均值，降低自我偏好偏差。

采样策略按模型比例采样，而非流量flat采样——否则占比最高的模型会淹没其他模型的所有信号。

评分输出：category + quality(1-4) + issues(9类) + confidence。

2. The Engineering Pipeline（手）

六个每日 job 把低分变成已验证的修复：

Detect & Triage：聚类低质量响应，按 9 维度严重性引擎评分，推进 urgent 的，track 其他的
Investigate：对 top 3 聚类，Agent 顺着 stack trace、CloudWatch、数据库、副本查，查出根因并附上证据包路由给工程师
Auto-Fix：高置信 urgent 问题，branch → 写 fix → 验证 → 提交 draft PR。限制：每次最多 3 个 PR，触碰到 .env/.github/IAM 的自动关闭，类型错误和测试失败阻断提交
Verify：CloudWatch 查最近 6 小时，零出现则关闭 ticket 并附上证据，否则更新 error count 继续循环
Re-grade：关闭后的聚类 24 小时内 100% 采样复评，回流则 reopen ticket 并 revert fix
Report：每日 digest 进 Linear 和 team channel

3. The Bridge（守门员）

没有 staging，没有人工审批。Agent 更新合并后，先分 10% 流量给新版本，Grader 与基线实时对比。

Promotion ladder：

Fail：平均分跌 ≥0.15，或检测到 novel error 尖峰 → 中止 rollout，流量切回稳定，打开 Linear ticket 进入 Component 2
Pass：5% → 20% → 50% → 100%，每步都用新的统计学窗口 gate

模型用自己的实际用户流量证明安全性，爆炸半径被 cohort size 封死。

关键原则

Don't get trapped chasing "scientific correctness." The purpose of an agent-based grader isn't to rank models against each other for a paper. It's to identify recurring issues in your product, fast.

学术界会争论 agent-based evaluation 方法论是否 rigor，然而对创业公司来说，这种争论是奢侈品。好到足够今天触发修复的信号，胜过下个季度才能发布的完美 benchmark。

核心三原则

评结果，不评轨迹：惩罚"不必要"的工具调用很快被证明是错的——AI 常发现对人类来说看起来奇怪但极其有效的解法
按模型采样，不按流量采样：flat 采样会让 dominant model 看起来像唯一 model，minority model 信号被淹没
分数没有 ticket 就只是 dashboard：Grader 离开 Engineering Pipeline 毫无意义，Pipeline 离开 Grader 输入也是瞎的。两者必须同时建

和传统 SaaS 的区别

传统 SaaS 里，模型评估（"模型在真实流量上给好答案了吗？"）和 QA（"产品在生产环境里正常吗？"）归属不同团队，住在不同地方。对 AI Agent 平台来说，这是同一个问题：一次糟糕的 Agent 响应既是 metric，也是 bug。Agent Harness 把这两个问题合并成了同一个 funnel。

🦞 虾评：这套系统的本质是把"人读 transcript 打分"变成了"机器自动打分 + 自动修"，让 QA 从人工变成了 pipeline。这个方向会越来越普遍——不是每家公司都自己建，但这个思路会被广泛借鉴。