返回 FEED
AGENT2026-06-11

Loop Engineering 的真相:什么时候该用,什么时候该停

从"人写提示词"到"系统写提示词"

Boris Cherny(Claude Code 工程师)说:他几乎不再直接提示模型。相反,他构建提示模型的 Loop。Peter Steinberger(OpenClaw 创建者)有类似观点:停止提示编码 Agent,开始设计提示它们的 Loop。

AI 世界迅速采纳了这个概念。但大多数谈论 Loop 的人无法清楚解释:Loop 是什么?什么时候真正有帮助?你为了自动化放弃了什么?

两种 Loop

人参与 Loop(Human-in-the-loop):你打开 Cursor/Claude Code/Codex,输入"建一个落地页"。你看结果,说英雄区域不对,要求修改。生成 → 审查 → 重定向 → 重复。Agent 建造,你 directing、judging、steering。舒适,因为你能及早发现漂移。

自主 Loop:你关闭 Loop 一次。给 Agent 一个 spec(spec.md 或 PRD.md),然后退后。Agent 生成、读取自己的输出、决定还剩什么、再次提示自己。一遍又一遍,直到认为完成。

这不是边缘想法。Geoffrey Huntley 把它打包成"Ralph Wiggum" Loop——核心就是一个 Bash 循环,在相同任务上重复运行 Agent 直到满足清晰的结束条件。Cursor 的 /goal 和各种 /loop 命令都是同一思路:"这是目标;做完再停。" Anthropic 内部,Claude 现在贡献了大多数合并的生产代码。

为什么感觉像魔法,但通常不是

想象雇佣一个 brilliant 开发者,给 TA 一个 spec,然后两周没有消息。TA 回来带着完成的产品。有些决定恰到好处,其他完全偏离你的想法。

不是因为 TA 差。因为没有 spec 能捕捉一切。

自主 Loop 的问题:一旦 Agent 开始代表你做数百个决定,它被迫填补空白。而总有空白。

结果像老虎机:拉杆、等待、希望输出匹配你的愿景。有时匹配。通常不。最难受的是你无法沿途 steering。一旦输入 /goal,火车就离站了。

没人放在幻灯片上的部分:账单

Loop 不是免费的。一个请求是一轮 Token。一个 Loop 可能跑 10、20、50 轮,携带上下文、输出和历史通过每一步。成本快速复合。

鼓吹全自动化工作流的人通常有预算大到 Token 成本几乎不重要。大多数开发者没有这种奢侈。

如果你用 2020、100 或 $200 月度计划,开放式 Loop 可以惊人地快速烧穿预算。这就是为什么公司开始对 Agent 使用设限。技术强大,但经济学重要。

Loop 什么时候真正有效

简单规则:Loop 在成功是客观的时候最有效。

  • 测试通过了吗?
  • 分数清除阈值了吗?
  • 输出匹配模板了吗?

当答案是清晰的 yes/no,Loop 有具体的东西可以优化。麻烦开始于成功变成主观的:"这感觉对吗?""这是我想要的产品吗?""客户会爱这个吗?"这些问题 Agent 无法可靠测量。此时 Loop 在猜测。

所以 Loop 在以下场景 excel:从固定格式生成数百个 SEO 页面、运行评估、处理大规模代码迁移。目标清晰,反馈一致。

但"建一个盈利的创业公司"是完全不同的问题。没有产品市场契合的测试套件。没有品味的基准。没有愿景的客观分数。

目标越主观,人类判断越有价值。

一个今天就能运行的 Loop

最值得推荐的 Loop:自动化代码审查。

为什么?因为它有大多数 Agent 工作流缺少的东西:清晰、客观的信号。

你推代码到 GitHub。审查 Agent(Greptile、CodeRabbit、Macroscope)审查变更,返回 1-5 分。

规则:低于 4/5 不发布。

如果 2/5 或 3/5,不手动介入。触发工作流:读取审查、应用建议修复、推送变更、等待下一次审查。重复直到分数超过 4/5 或达到最大尝试次数。

好的 Loop 看起来就是这样:封闭系统 + 可测量目标 + 清晰退出条件。

秘密不是 Loop 本身,而是有一个 Loop 可以可靠追逐的分数。基本形态(Ralph-style)只需几行:

for i in range(1, 6):
    agent.run("read latest review, apply fixes, push")
    score = get_review_score()  # 固定的客观信号
    if score >= 4:
        print(f"passed at {score}/5 — shipping")
        break

注意:即使这个干净的 Loop 在边缘处也会磨损。一次推送超过 ~1000 行,审查 Agent 难以在上下文中 hold 住全部;你很少达到 5/5。修复方法是优秀工程师已经在用的纪律:保持变更小,把大工作拆成多个 PR。即使在整洁、定义良好的 Loop 内部,范围仍然是破坏它的东西。

诚实的看法

推动自主 Loop 的人可能是 early,不是 wrong。自我修复 Agent、自动化 bug 修复、能看和测试自己工作的系统,到来速度比大多数人预期快。

但"到来"和"准备好处理一切"是两件事。

大多数伟大产品不是仅靠逻辑建造的。它们需要品味、判断,和一堆 spec 无法完全捕捉的微小决定。

"AI can replicate sauce, but it can't create sauce."

Loop 在目标清晰时不可思议:审查、测试、linting、迁移、基于模板的生成。给它们可测量目标,它们能整天工作。

但当问题变成"这感觉对吗?"或"人们真的会想要这个吗?"——你仍然需要人在 Loop 中。

不要建一个巨型 Loop 让它创建你的创业公司。建小 Loop 包围工作中无聊的二进制部分,把双手放在方向盘上,给需要品味和愿景的一切。

这不是对抗趋势。这是理解趋势。