Compound Engineering 更新,v2.60.0 今日发布。主题是端到端流程收紧:review 不再可选,plan 在实施前捕获更多漏洞,日常使用摩擦持续下降。
Review 强制化:这是本版本最大的投入方向
第一步:headless mode。 其他 skills 可以编程方式调用 review,不需要交互式提示符,也不需要 git 流程。这解锁了第二步:让 code review 变成整个流水线的必选关卡。
ce:work、ce:brainstorm、ce:plan 现在全部强制执行 review 作为不可绕过的 checkpoint,不再是没人触发的可选项。ce:work 默认展示完整 review,只有在给出充分理由时才能降级到有限 review。
然后才是降噪。 先强制,再降噪——顺序不能反过来,否则就是在强制噪音。
6 级置信度 rubric:假阳性削减 49%
v2.60 引入了置信度评分系统,每个发现都过一遍 6 级评分(0.00–1.00),0.60 以上才呈现。
被压制的 6 类假阳性:
- 已存在的问题
- 风格挑剔
- 有意为之的设计模式
- 在别处已处理的情况
- 代码复述
- 泛泛的建议
49% 的假阳性削减,且不损失真实 bug 检测能力。
另一个关键点:意图验证。 Review 现在会对照 PR 上下文(标题、正文、关联 issue)验证发现——如果发现和你实际要做的事情矛盾,直接压制。
多人标记加权。 如果两个或更多 persona reviewer 标记了同一个问题,置信度 +0.10 boost。
结构化输出。 发现现在以 pipe 分隔的表格形式强制呈现,不再是自由文本,更容易扫描和一致化。
ce:work 复杂度感知:不需要预建 plan 文档
很多人直接开干,不想走 plan 流程。ce:work 现在接受原始 prompt,自动评估复杂度:
- 简单工作:跳过仪式,直接干
- 中等工作:以内联任务形式处理
- 复杂工作:推荐先走 planning
配合这个变化,universal test discovery 现在在实施前先找已有测试,让测试和代码变更保持同步。测试 deliberation 从二元判断(测试通过/不通过)改为逐任务确认"测试是否已覆盖"——强制你思考行为变更是否需要测试,而不是只看现有测试是否仍然通过。
reviewer 新增第 5 条检查:检测到有行为代码变更(新分支、状态修改、API 变更)但没有对应测试增加时,直接 flag。
另外:ce:work 现在能检测 auto-generate 的 worktree 分支名(如 "worktree-printing-ruby-raven")并建议改成有意义的名称。
ce:brainstorm bug fix:验证不是设计
Phase 1.1 有个狡猾的 bug:把"不做技术设计"和"不看技术文件"混为一谈。结果是 agent 无法对照实际源文件验证基础设施声明——最后 requirements 文档会写着"表 X 不存在"当事实,却没有检查过 schema。已修复。验证当前状态(读 schema、routes、configs)现在始终允许,而实施决策仍然 defer to planning。未验证的声明必须标注为假设,Phase 3 finalization 在传播下游之前会 catch 未验证的 absence claims。
ce:plan:interactive deepening 模式
Plan 现在有 interactive deepening 模式,你可以在 agent 发现被整合之前接受、拒绝或讨论——而不是所有内容自动合并后再来整理。
对那些怀念 "deepen-plan" skill 的人:现在支持通过 ce:plan 调用,说 "deepen" 就能自动运行。
另外:document-review 在 deepening 后被跳过的 bug 已修复。plan 验证时还会 flag 空白的测试场景,确保带 feature 的单元不会被当作完整。
复杂文档自动生成图表
跨功能 feature,ce:brainstorm、ce:plan 和 git-commit-push-pr 都支持。当文档达到一定复杂度阈值(5+ 非线性单元、3+ 交互面、密集的系统影响章节),自动生成 flow diagrams、comparison tables 或关系图(mermaid 或 ASCII)。PR 描述使用更高的触发阈值,因为 reviewer 是扫描而不是研究它们。
PR feedback loop 检测
当你和 PR feedback 玩打地鼠游戏时——同一个代码区域反复收到类似评论——系统现在会检测到这个循环。
按关注类别和空间邻近性聚类。2 轮 fix-verify 之后,剩余问题作为"重复模式"浮现,而不是单独的 ticket。增加了 actionability filter,去掉 approvals、status badges 和 wrapper 文本,不会再把一个 👍 当成需要处理的评论。
Autofix 决策树简化
原来的 3 级 autofix(auto / batch_confirm / present)简化为 2 级(auto / present),砍掉了用户总是接受所以没意义的中间步骤。明显的修复自动应用,模糊的情况才浮现出来让人 review。
Review 结束消息现在还会告诉你下一步该做什么:requirements → "用 /ce:plan 创建 plan",plans → "用 /ce:work 实施"。
Trevin 的更新节奏很有意思——他不是在堆功能,是在打磨核心循环。Review 的强制化 + 降噪是正确顺序,先让人用起来,再优化体验。49% 假阳性削减和意图验证是两个硬指标,不是营销话术。