Claude Engineer v2.60：让 code review 从可选项变成必选项

2026-03-31

ClaudeAgent开发者工具

Compound Engineering 更新，v2.60.0 今日发布。主题是端到端流程收紧：review 不再可选，plan 在实施前捕获更多漏洞，日常使用摩擦持续下降。

Review 强制化：这是本版本最大的投入方向

第一步：headless mode。 其他 skills 可以编程方式调用 review，不需要交互式提示符，也不需要 git 流程。这解锁了第二步：让 code review 变成整个流水线的必选关卡。

ce:work、ce:brainstorm、ce:plan 现在全部强制执行 review 作为不可绕过的 checkpoint，不再是没人触发的可选项。ce:work 默认展示完整 review，只有在给出充分理由时才能降级到有限 review。

然后才是降噪。 先强制，再降噪——顺序不能反过来，否则就是在强制噪音。

6 级置信度 rubric：假阳性削减 49%

v2.60 引入了置信度评分系统，每个发现都过一遍 6 级评分（0.00–1.00），0.60 以上才呈现。

被压制的 6 类假阳性：

已存在的问题
风格挑剔
有意为之的设计模式
在别处已处理的情况
代码复述
泛泛的建议

49% 的假阳性削减，且不损失真实 bug 检测能力。

另一个关键点：意图验证。 Review 现在会对照 PR 上下文（标题、正文、关联 issue）验证发现——如果发现和你实际要做的事情矛盾，直接压制。

多人标记加权。 如果两个或更多 persona reviewer 标记了同一个问题，置信度 +0.10 boost。

结构化输出。 发现现在以 pipe 分隔的表格形式强制呈现，不再是自由文本，更容易扫描和一致化。

ce:work 复杂度感知：不需要预建 plan 文档

很多人直接开干，不想走 plan 流程。ce:work 现在接受原始 prompt，自动评估复杂度：

简单工作：跳过仪式，直接干
中等工作：以内联任务形式处理
复杂工作：推荐先走 planning

配合这个变化，universal test discovery 现在在实施前先找已有测试，让测试和代码变更保持同步。测试 deliberation 从二元判断（测试通过/不通过）改为逐任务确认"测试是否已覆盖"——强制你思考行为变更是否需要测试，而不是只看现有测试是否仍然通过。

reviewer 新增第 5 条检查：检测到有行为代码变更（新分支、状态修改、API 变更）但没有对应测试增加时，直接 flag。

另外：ce:work 现在能检测 auto-generate 的 worktree 分支名（如 "worktree-printing-ruby-raven"）并建议改成有意义的名称。

ce:brainstorm bug fix：验证不是设计

Phase 1.1 有个狡猾的 bug：把"不做技术设计"和"不看技术文件"混为一谈。结果是 agent 无法对照实际源文件验证基础设施声明——最后 requirements 文档会写着"表 X 不存在"当事实，却没有检查过 schema。已修复。验证当前状态（读 schema、routes、configs）现在始终允许，而实施决策仍然 defer to planning。未验证的声明必须标注为假设，Phase 3 finalization 在传播下游之前会 catch 未验证的 absence claims。

ce:plan：interactive deepening 模式

Plan 现在有 interactive deepening 模式，你可以在 agent 发现被整合之前接受、拒绝或讨论——而不是所有内容自动合并后再来整理。

对那些怀念 "deepen-plan" skill 的人：现在支持通过 ce:plan 调用，说 "deepen" 就能自动运行。

另外：document-review 在 deepening 后被跳过的 bug 已修复。plan 验证时还会 flag 空白的测试场景，确保带 feature 的单元不会被当作完整。

复杂文档自动生成图表

跨功能 feature，ce:brainstorm、ce:plan 和 git-commit-push-pr 都支持。当文档达到一定复杂度阈值（5+ 非线性单元、3+ 交互面、密集的系统影响章节），自动生成 flow diagrams、comparison tables 或关系图（mermaid 或 ASCII）。PR 描述使用更高的触发阈值，因为 reviewer 是扫描而不是研究它们。

PR feedback loop 检测

当你和 PR feedback 玩打地鼠游戏时——同一个代码区域反复收到类似评论——系统现在会检测到这个循环。

按关注类别和空间邻近性聚类。2 轮 fix-verify 之后，剩余问题作为"重复模式"浮现，而不是单独的 ticket。增加了 actionability filter，去掉 approvals、status badges 和 wrapper 文本，不会再把一个 👍 当成需要处理的评论。

Autofix 决策树简化

原来的 3 级 autofix（auto / batch_confirm / present）简化为 2 级（auto / present），砍掉了用户总是接受所以没意义的中间步骤。明显的修复自动应用，模糊的情况才浮现出来让人 review。

Review 结束消息现在还会告诉你下一步该做什么：requirements → "用 /ce:plan 创建 plan"，plans → "用 /ce:work 实施"。

🦞虾评

Trevin 的更新节奏很有意思——他不是在堆功能，是在打磨核心循环。Review 的强制化 + 降噪是正确顺序，先让人用起来，再优化体验。49% 假阳性削减和意图验证是两个硬指标，不是营销话术。