Compound Engineering 更新,v2.60.0 今日发布。主题是端到端流程收紧:review 不再可选,plan 在实施前捕获更多漏洞,日常使用摩擦持续下降。

Review 强制化:这是本版本最大的投入方向

第一步:headless mode。 其他 skills 可以编程方式调用 review,不需要交互式提示符,也不需要 git 流程。这解锁了第二步:让 code review 变成整个流水线的必选关卡。

ce:work、ce:brainstorm、ce:plan 现在全部强制执行 review 作为不可绕过的 checkpoint,不再是没人触发的可选项。ce:work 默认展示完整 review,只有在给出充分理由时才能降级到有限 review。

然后才是降噪。 先强制,再降噪——顺序不能反过来,否则就是在强制噪音。

6 级置信度 rubric:假阳性削减 49%

v2.60 引入了置信度评分系统,每个发现都过一遍 6 级评分(0.00–1.00),0.60 以上才呈现。

被压制的 6 类假阳性:

  1. 已存在的问题
  2. 风格挑剔
  3. 有意为之的设计模式
  4. 在别处已处理的情况
  5. 代码复述
  6. 泛泛的建议

49% 的假阳性削减,且不损失真实 bug 检测能力。

另一个关键点:意图验证。 Review 现在会对照 PR 上下文(标题、正文、关联 issue)验证发现——如果发现和你实际要做的事情矛盾,直接压制。

多人标记加权。 如果两个或更多 persona reviewer 标记了同一个问题,置信度 +0.10 boost。

结构化输出。 发现现在以 pipe 分隔的表格形式强制呈现,不再是自由文本,更容易扫描和一致化。

ce:work 复杂度感知:不需要预建 plan 文档

很多人直接开干,不想走 plan 流程。ce:work 现在接受原始 prompt,自动评估复杂度:

  • 简单工作:跳过仪式,直接干
  • 中等工作:以内联任务形式处理
  • 复杂工作:推荐先走 planning

配合这个变化,universal test discovery 现在在实施前先找已有测试,让测试和代码变更保持同步。测试 deliberation 从二元判断(测试通过/不通过)改为逐任务确认"测试是否已覆盖"——强制你思考行为变更是否需要测试,而不是只看现有测试是否仍然通过。

reviewer 新增第 5 条检查:检测到有行为代码变更(新分支、状态修改、API 变更)但没有对应测试增加时,直接 flag。

另外:ce:work 现在能检测 auto-generate 的 worktree 分支名(如 "worktree-printing-ruby-raven")并建议改成有意义的名称。

ce:brainstorm bug fix:验证不是设计

Phase 1.1 有个狡猾的 bug:把"不做技术设计"和"不看技术文件"混为一谈。结果是 agent 无法对照实际源文件验证基础设施声明——最后 requirements 文档会写着"表 X 不存在"当事实,却没有检查过 schema。已修复。验证当前状态(读 schema、routes、configs)现在始终允许,而实施决策仍然 defer to planning。未验证的声明必须标注为假设,Phase 3 finalization 在传播下游之前会 catch 未验证的 absence claims。

ce:plan:interactive deepening 模式

Plan 现在有 interactive deepening 模式,你可以在 agent 发现被整合之前接受、拒绝或讨论——而不是所有内容自动合并后再来整理。

对那些怀念 "deepen-plan" skill 的人:现在支持通过 ce:plan 调用,说 "deepen" 就能自动运行。

另外:document-review 在 deepening 后被跳过的 bug 已修复。plan 验证时还会 flag 空白的测试场景,确保带 feature 的单元不会被当作完整。

复杂文档自动生成图表

跨功能 feature,ce:brainstorm、ce:plan 和 git-commit-push-pr 都支持。当文档达到一定复杂度阈值(5+ 非线性单元、3+ 交互面、密集的系统影响章节),自动生成 flow diagrams、comparison tables 或关系图(mermaid 或 ASCII)。PR 描述使用更高的触发阈值,因为 reviewer 是扫描而不是研究它们。

PR feedback loop 检测

当你和 PR feedback 玩打地鼠游戏时——同一个代码区域反复收到类似评论——系统现在会检测到这个循环。

按关注类别和空间邻近性聚类。2 轮 fix-verify 之后,剩余问题作为"重复模式"浮现,而不是单独的 ticket。增加了 actionability filter,去掉 approvals、status badges 和 wrapper 文本,不会再把一个 👍 当成需要处理的评论。

Autofix 决策树简化

原来的 3 级 autofix(auto / batch_confirm / present)简化为 2 级(auto / present),砍掉了用户总是接受所以没意义的中间步骤。明显的修复自动应用,模糊的情况才浮现出来让人 review。

Review 结束消息现在还会告诉你下一步该做什么:requirements → "用 /ce:plan 创建 plan",plans → "用 /ce:work 实施"。