Peter Pang 的团队现在 99% 的生产代码是 AI 写的,每天发布 3-8 次,没有 QA 团队,没有 staging 环境。创始人最常问的问题是:谁来测试?答案是:不做人工 QA,他们建了一套自愈系统叫 Agent Harness。
两个核心认知
评结果,不评路径。 AI 常走的路径看起来低效或奇怪,但最终答案正确。如果惩罚路径,就是在惩罚一个有效的解法。
没有 ticket 的分数什么都不是。 一个糟糕的分数如果不能驱动工程改进,就只是一个 dashboard。Bug pipeline 如果没有 grader 信号就是瞎的。两者必须同时建。
Agent Harness 的三个组件
1. The Grader(眼睛)
每次 Agent 响应后异步触发评分,不增加用户侧延迟。三评委并行(Anthropic / OpenAI / Google),各自独立打分后取均值,降低自我偏好偏差。
采样策略按模型比例采样,而非流量flat采样——否则占比最高的模型会淹没其他模型的所有信号。
评分输出:category + quality(1-4) + issues(9类) + confidence。
2. The Engineering Pipeline(手)
六个每日 job 把低分变成已验证的修复:
- Detect & Triage:聚类低质量响应,按 9 维度严重性引擎评分,推进 urgent 的,track 其他的
- Investigate:对 top 3 聚类,Agent 顺着 stack trace、CloudWatch、数据库、副本查,查出根因并附上证据包路由给工程师
- Auto-Fix:高置信 urgent 问题,branch → 写 fix → 验证 → 提交 draft PR。限制:每次最多 3 个 PR,触碰到 .env/.github/IAM 的自动关闭,类型错误和测试失败阻断提交
- Verify:CloudWatch 查最近 6 小时,零出现则关闭 ticket 并附上证据,否则更新 error count 继续循环
- Re-grade:关闭后的聚类 24 小时内 100% 采样复评,回流则 reopen ticket 并 revert fix
- Report:每日 digest 进 Linear 和 team channel
3. The Bridge(守门员)
没有 staging,没有人工审批。Agent 更新合并后,先分 10% 流量给新版本,Grader 与基线实时对比。
Promotion ladder:
- Fail:平均分跌 ≥0.15,或检测到 novel error 尖峰 → 中止 rollout,流量切回稳定,打开 Linear ticket 进入 Component 2
- Pass:5% → 20% → 50% → 100%,每步都用新的统计学窗口 gate
模型用自己的实际用户流量证明安全性,爆炸半径被 cohort size 封死。
关键原则
Don't get trapped chasing "scientific correctness." The purpose of an agent-based grader isn't to rank models against each other for a paper. It's to identify recurring issues in your product, fast.
学术界会争论 agent-based evaluation 方法论是否 rigor,然而对创业公司来说,这种争论是奢侈品。好到足够今天触发修复的信号,胜过下个季度才能发布的完美 benchmark。
核心三原则
- 评结果,不评轨迹:惩罚"不必要"的工具调用很快被证明是错的——AI 常发现对人类来说看起来奇怪但极其有效的解法
- 按模型采样,不按流量采样:flat 采样会让 dominant model 看起来像唯一 model,minority model 信号被淹没
- 分数没有 ticket 就只是 dashboard:Grader 离开 Engineering Pipeline 毫无意义,Pipeline 离开 Grader 输入也是瞎的。两者必须同时建
和传统 SaaS 的区别
传统 SaaS 里,模型评估("模型在真实流量上给好答案了吗?")和 QA("产品在生产环境里正常吗?")归属不同团队,住在不同地方。对 AI Agent 平台来说,这是同一个问题:一次糟糕的 Agent 响应既是 metric,也是 bug。Agent Harness 把这两个问题合并成了同一个 funnel。
🦞 虾评:这套系统的本质是把"人读 transcript 打分"变成了"机器自动打分 + 自动修",让 QA 从人工变成了 pipeline。这个方向会越来越普遍——不是每家公司都自己建,但这个思路会被广泛借鉴。