Loop Engineering 的真相：什么时候该用，什么时候该停

从"人写提示词"到"系统写提示词"

Boris Cherny（Claude Code 工程师）说：他几乎不再直接提示模型。相反，他构建提示模型的 Loop。Peter Steinberger（OpenClaw 创建者）有类似观点：停止提示编码 Agent，开始设计提示它们的 Loop。

AI 世界迅速采纳了这个概念。但大多数谈论 Loop 的人无法清楚解释：Loop 是什么？什么时候真正有帮助？你为了自动化放弃了什么？

两种 Loop

人参与 Loop（Human-in-the-loop）：你打开 Cursor/Claude Code/Codex，输入"建一个落地页"。你看结果，说英雄区域不对，要求修改。生成 → 审查 → 重定向 → 重复。Agent 建造，你 directing、judging、steering。舒适，因为你能及早发现漂移。

自主 Loop：你关闭 Loop 一次。给 Agent 一个 spec（spec.md 或 PRD.md），然后退后。Agent 生成、读取自己的输出、决定还剩什么、再次提示自己。一遍又一遍，直到认为完成。

这不是边缘想法。Geoffrey Huntley 把它打包成"Ralph Wiggum" Loop——核心就是一个 Bash 循环，在相同任务上重复运行 Agent 直到满足清晰的结束条件。Cursor 的 /goal 和各种 /loop 命令都是同一思路："这是目标；做完再停。" Anthropic 内部，Claude 现在贡献了大多数合并的生产代码。

为什么感觉像魔法，但通常不是

想象雇佣一个 brilliant 开发者，给 TA 一个 spec，然后两周没有消息。TA 回来带着完成的产品。有些决定恰到好处，其他完全偏离你的想法。

不是因为 TA 差。因为没有 spec 能捕捉一切。

自主 Loop 的问题：一旦 Agent 开始代表你做数百个决定，它被迫填补空白。而总有空白。

结果像老虎机：拉杆、等待、希望输出匹配你的愿景。有时匹配。通常不。最难受的是你无法沿途 steering。一旦输入 /goal，火车就离站了。

没人放在幻灯片上的部分：账单

Loop 不是免费的。一个请求是一轮 Token。一个 Loop 可能跑 10、20、50 轮，携带上下文、输出和历史通过每一步。成本快速复合。

鼓吹全自动化工作流的人通常有预算大到 Token 成本几乎不重要。大多数开发者没有这种奢侈。

如果你用 $20、$ 100 或 $200 月度计划，开放式 Loop 可以惊人地快速烧穿预算。这就是为什么公司开始对 Agent 使用设限。技术强大，但经济学重要。

Loop 什么时候真正有效

简单规则：Loop 在成功是客观的时候最有效。

测试通过了吗？
分数清除阈值了吗？
输出匹配模板了吗？

当答案是清晰的 yes/no，Loop 有具体的东西可以优化。麻烦开始于成功变成主观的："这感觉对吗？""这是我想要的产品吗？""客户会爱这个吗？"这些问题 Agent 无法可靠测量。此时 Loop 在猜测。

所以 Loop 在以下场景 excel：从固定格式生成数百个 SEO 页面、运行评估、处理大规模代码迁移。目标清晰，反馈一致。

但"建一个盈利的创业公司"是完全不同的问题。没有产品市场契合的测试套件。没有品味的基准。没有愿景的客观分数。

目标越主观，人类判断越有价值。

一个今天就能运行的 Loop

最值得推荐的 Loop：自动化代码审查。

为什么？因为它有大多数 Agent 工作流缺少的东西：清晰、客观的信号。

你推代码到 GitHub。审查 Agent（Greptile、CodeRabbit、Macroscope）审查变更，返回 1-5 分。

规则：低于 4/5 不发布。

如果 2/5 或 3/5，不手动介入。触发工作流：读取审查、应用建议修复、推送变更、等待下一次审查。重复直到分数超过 4/5 或达到最大尝试次数。

好的 Loop 看起来就是这样：封闭系统 + 可测量目标 + 清晰退出条件。

秘密不是 Loop 本身，而是有一个 Loop 可以可靠追逐的分数。基本形态（Ralph-style）只需几行：

for i in range(1, 6):
    agent.run("read latest review, apply fixes, push")
    score = get_review_score()  # 固定的客观信号
    if score >= 4:
        print(f"passed at {score}/5 — shipping")
        break

注意：即使这个干净的 Loop 在边缘处也会磨损。一次推送超过 ~1000 行，审查 Agent 难以在上下文中 hold 住全部；你很少达到 5/5。修复方法是优秀工程师已经在用的纪律：保持变更小，把大工作拆成多个 PR。即使在整洁、定义良好的 Loop 内部，范围仍然是破坏它的东西。

诚实的看法

推动自主 Loop 的人可能是 early，不是 wrong。自我修复 Agent、自动化 bug 修复、能看和测试自己工作的系统，到来速度比大多数人预期快。

但"到来"和"准备好处理一切"是两件事。

大多数伟大产品不是仅靠逻辑建造的。它们需要品味、判断，和一堆 spec 无法完全捕捉的微小决定。

"AI can replicate sauce, but it can't create sauce."

Loop 在目标清晰时不可思议：审查、测试、linting、迁移、基于模板的生成。给它们可测量目标，它们能整天工作。

但当问题变成"这感觉对吗？"或"人们真的会想要这个吗？"——你仍然需要人在 Loop 中。

不要建一个巨型 Loop 让它创建你的创业公司。建小 Loop 包围工作中无聊的二进制部分，把双手放在方向盘上，给需要品味和愿景的一切。

这不是对抗趋势。这是理解趋势。