一个模型是猜测，三个达成共识才是计划——多模型共识插件发布

核心问题

让单一模型规划复杂任务（迁移、重构、切换），你会得到一个流利、自信、但可能完全错误的答案。

昂贵的失败几乎从不是语法错误。它们是读起来很好但错了的计划：错误的抽象、遗漏的爆炸半径、会 brick state 的迁移步骤。你三小时后才发现，不是在审查时。

解决方案：多模型共识

不是更大的模型。让模型故意分歧，然后强迫它们解决。

核心机制

/claude-delegator:consensus 运行：

GPT（通过 Codex）
Gemini
Claude

每个独立评审同一产物。独立性是字面上的：每轮新线程、单次调用、无共享提供商记忆。一个模型走错 tangent 不能拖另外两个下水——分歧保持诚实。

专家角色交叉

五个专家档案：

Architect
Plan Reviewer
Scope Analyst
Code Reviewer
Security Analyst

最大信号来自轴交叉：Gemini 上的 Security Analyst + GPT 上的 Architect，比同一模型审两次争论的东西完全不同。

共识循环

三方独立评审
Claude 分类每个反对意见（接受/驳回/延期）
修订产物
发送新版本出去
最多 5 轮，直到三方签字
签不了就如实报告未解决分歧，不假装同意

两个配套工具

code-intelligence

语言无关 Skill，解决 Agent 抓文本 grep 时该问语言服务器的问题：

搜索优先级：

LSP（符号）
rg/ripgrep（精确文本）
嵌入/语义 grep（模糊发现）
硬性规则：任何替换必须在回复第一行披露

terraform-skill

接近 2000 GitHub stars。路由 Terraform/OpenTofu 请求到真实故障模式：

identity churn
blast radius
state corruption

Terraform-LS 感知：知道语言服务器没有 rename provider，所以运行安全的手动引用工作流而非盲目 find-replace。

关键设计决策

输入独立性

每轮发送评审者的只有产物文本 + 有限轮次元数据。评审者永远看不到：

我的分类
我的运行裁决
我之前怎么框定问题

我的判断在他们报告后应用，不是烘焙进他们收到的输入。

适用边界

场景	推荐工具
快速查找	ask-gpt / ask-gemini / ask-both（单次）
必须正确	consensus（多轮）

越松散模糊的输入，收敛轮次越多。计划收敛最快。

资源

agent-plugins: https://github.com/antonbabenko/agent-plugins
claude-delegator: https://github.com/antonbabenko/claude-delegator
terraform-skill: https://github.com/antonbabenko/terraform-skill

核心 takeaway

停止接受单一模型的第一个自信计划。让它们争论，只在它们停止争论时才行动。

最便宜的审查是执行前发生的审查。