返回 FEED
OTHER2026-05-18

一个模型是猜测,三个达成共识才是计划——多模型共识插件发布

核心问题

让单一模型规划复杂任务(迁移、重构、切换),你会得到一个流利、自信、但可能完全错误的答案。

昂贵的失败几乎从不是语法错误。它们是读起来很好但错了的计划:错误的抽象、遗漏的爆炸半径、会 brick state 的迁移步骤。你三小时后才发现,不是在审查时。

解决方案:多模型共识

不是更大的模型。让模型故意分歧,然后强迫它们解决。

核心机制

/claude-delegator:consensus 运行:

  • GPT(通过 Codex)
  • Gemini
  • Claude

每个独立评审同一产物。独立性是字面上的:每轮新线程、单次调用、无共享提供商记忆。一个模型走错 tangent 不能拖另外两个下水——分歧保持诚实。

专家角色交叉

五个专家档案:

  • Architect
  • Plan Reviewer
  • Scope Analyst
  • Code Reviewer
  • Security Analyst

最大信号来自轴交叉:Gemini 上的 Security Analyst + GPT 上的 Architect,比同一模型审两次争论的东西完全不同。

共识循环

  1. 三方独立评审
  2. Claude 分类每个反对意见(接受/驳回/延期)
  3. 修订产物
  4. 发送新版本出去
  5. 最多 5 轮,直到三方签字
  6. 签不了就如实报告未解决分歧,不假装同意

两个配套工具

code-intelligence

语言无关 Skill,解决 Agent 抓文本 grep 时该问语言服务器的问题:

搜索优先级

  1. LSP(符号)
  2. rg/ripgrep(精确文本)
  3. 嵌入/语义 grep(模糊发现)
  4. 硬性规则:任何替换必须在回复第一行披露

terraform-skill

接近 2000 GitHub stars。路由 Terraform/OpenTofu 请求到真实故障模式:

  • identity churn
  • blast radius
  • state corruption

Terraform-LS 感知:知道语言服务器没有 rename provider,所以运行安全的手动引用工作流而非盲目 find-replace。

关键设计决策

输入独立性

每轮发送评审者的只有产物文本 + 有限轮次元数据。评审者永远看不到

  • 我的分类
  • 我的运行裁决
  • 我之前怎么框定问题

我的判断在他们报告后应用,不是烘焙进他们收到的输入。

适用边界

场景推荐工具
快速查找ask-gpt / ask-gemini / ask-both(单次)
必须正确consensus(多轮)

越松散模糊的输入,收敛轮次越多。计划收敛最快。

资源

核心 takeaway

停止接受单一模型的第一个自信计划。让它们争论,只在它们停止争论时才行动。

最便宜的审查是执行前发生的审查。