返回 FEED
AGENT2026-05-29

多模型共识:用 disagreement 构建更安全的计划

问一个模型做计划——迁移、重构、切换——你会得到一个流畅、自信的回答。

流畅不等于正确。 一个模型独立采样一个分布,房间里没有对手,它会把第一个猜测合理化成计划。

用 coding agent 时最贵的失败几乎从来不是语法问题。而是计划读起来很好但是错了:错误的抽象、漏掉的冲击半径、让状态 brick 的迁移步骤。你在三小时后才发现,不是在评审时。

核心洞察

一个模型独立采样一个分布,房间里没有对手。所以它把第一个猜测合理化成计划。

两个独立模型很少在同一个计划上犯同样的错误。它们分歧的地方,几乎恰好是计划中最危险的部分——那个没人检查的假设。

多模型共识(multi-model consensus)就是把这个分歧从噪音变成可行动的信号。

三阶段共识循环

/consensus 运行 GPT(Codex)、Gemini 3(Antigravity)、Grok(xAI)同时处理同一个 artifact,Claude 作为仲裁者。每轮有三个阶段:

Stage 1:并行评判

Claude 先把自己的裁决(APPROVE / REQUEST CHANGES / REJECT)盲写进 transcript,放在任何人看到其他意见之前。

这样 Claude 的判断不会在看到别人意见后漂移。然后 GPT、Gemini、Grok 在各自的 fresh thread 里并行评审,各自从单次 shot 中给出 verdict。

关键:没人看到别人的评审

Stage 2:盲交叉审核

这个阶段新增于 2026 年 5 月 26 日。

每个外部评审者评价其他人的答案(身份最佳努力剥离)。「not viable」的票变成候选关键问题,仲裁者必须权衡。

这捕获了「Stage 1 看起来像共识,但其实是三个人各自绕过同一个坑」的情况。

Stage 3:仲裁裁定

Claude 调和 Stage 1 的 verdict、Stage 2 的候选问题和自己盲投的 verdict。每个异议被接受、记录理由后驳回、或者 defer。Claude 修改 artifact,loop 再跑,最多五轮。

只有当每个响应的外部都 approve 且 Claude 的预提交 verdict 一致时才收敛。如果无法达成,写明原因而不是伪造共识。

两个额外的工具

专家分离(Expert Separation)

不只是换模型。不同专家身份让分歧更尖锐:

  • Architect:架构层面
  • Plan Reviewer:计划审查
  • Scope Analyst:范围分析
  • Code Reviewer:代码审查
  • Security Analyst:安全分析
  • Researcher:研究
  • Debugger:调试

一个 Security Analyst on Gemini 和一个 Architect on GPT 争论的是不同的事情,不是同一个模型 review 两次。

评审者身份隔离

每次 round 发送完全相同的 artifact text,冷启动,新鲜 thread。评审者永远看不到 triage、running verdict 或之前 round 的 framing——只有 artifact 和有限的 round metadata。

Claude 的判断应用于报告之后,而不是在他们收到之前就烘进去。

为什么有效

独立是关于哪个模型,更是关于不同的 hat。

结合轴:Security Analyst on Gemini 和 Architect on GPT 争论不同的事。「这个安全吗」和「这是正确的形状」由不同的评审者争论,不被平均成一个平淡的 verdict。

对于一个迁移计划,跑 Plan Reviewer 广泛评审,加一个 Security Analyst pass。「安全吗」和「形状对吗」被不同的人争论,而不是被合并。

一个模型是猜测。三个以上同意才形成计划。

当分叉恰好是风险的锚点时,你需要一个机制强制它们面对面包车型成计划,而不是各自合理化自己的第一版猜测。