Agents Need Feedback Loops, Not Perfect Prompts

对于需要做大量判断和品味决策的 Agent 来说，起步时的 Prompt 只是开始。真正优秀的 Agent 会从团队的日常工作中学习什么是"好"，并持续自我改进。

所有人都在努力写出更好的 Prompt。这本身没错，但忽略了一个更关键的挑战：你今天写的最佳 Prompt，一个月后就不再是最佳了。

产品在变，用户在变，团队的品味在持续精进，新的边界案例不断涌现。如果 Agent 做的是需要判断力和品味的工作，没有任何静态 Prompt 能覆盖它未来需要知道的一切。

这改变了核心问题：不再是"如何写出完美的 Prompt"，而是"如何让 Agent 在上线后持续向团队学习"。

Warp 的实战：社区回复 Agent Buzz

Warp 的开发者体验团队需要处理大量社交媒体上的用户提及——Twitter、Reddit 和其他平台上每周超过一千条。团队热爱与用户交流，但小规模团队不可能手动跟进每一条对话。

很多 Agent 开发的核心循环很简单：尝试、检查、重试。写代码时有明确的信号：测试、构建、浏览器检查、命令输出。但社交回复不是这样——Agent 不能发一堆公开回复，然后等着看品牌信任度是升是降，再回来调整。反馈循环太长、太吵、太贵。

很多 Agent 卡在这个状态：几乎能用，输出够好到让你抱有希望，但不够好到可以放心信任。团队不断微调 Prompt，期待下一个版本能弥合差距。

Warp 认为这找错了抽象层级。让 Agent 完成一次任务不是难点，构建一个让 Agent 从团队日常工作中持续学习的系统才是。

Buzz 的第一版和很多初版 Agent 一样：一份长长的规则清单。提到 bug 时这么说，被和其他工具比较时那么说，问到价格时提这个方案。

这非常脆弱。Prompt 越来越长，回复越来越机械，一旦出现没预设过的场景就崩溃。于是团队把技能从规则转向原则：

技能文件变小了，Agent 却变强了。回复开始像团队真正会说的话，Agent 能处理更多情况，因为指令不再是巨大的决策树。

但原则只是给了 Buzz 更好的起点，无法封装它可能需要的所有东西。

有了基于原则的技能后，团队开始给 Buzz 反馈。它会起草回复，人类指出问题或写出自己会用的话，然后 Buzz 尝试基于反馈更新自己的指令。

这带来了下一个失败模式：Agent 想把每个修正都变回规则。比如，如果人类说回复太营销化，它就加一条规则"永远不要在第一句话提价格"。可迁移的原则应该是"如果对方在发泄情绪，先共情，不要推销"。Agent 需要被教会如何从反馈中学习。

于是团队单独建了一个学习技能。它查看 Agent 的建议、人类的实际做法、当前指令，然后问：缺少或不清楚什么原则，才能达到预期输出？

这很像教新团队成员，并让他们学会更广泛的想法。一个有益的副作用是，反馈迫使团队更清晰地表达自己的判断。很多品味 implicitly 存在于人的头脑中，教 Agent 会迫使它落到纸面上。

Buzz 已经把每条提及和草稿回复发到 Slack 频道，团队把反馈接口做到最小：用 emoji 反应表示实际做了什么，可选在线程里加备注。一次点击就够，线程是额外上下文。

然后每天，Buzz 收集反应和线程反馈，对比自己的建议和团队的实际做法，提取持久的学习点，更新相关技能文件，并开一个 PR。

这个小小的 Slack 闭环让系统在实践中运转起来。从 Agent 获得杠杆效应的最佳方式，不是把每个人都变成 Prompt 工程师，而是设计工作流，让团队的正常判断和品味成为周围系统的训练信号。

Agent 重写自己的指令，这安全吗？Warp 的做法是：把 Agent 技能当作代码对待。

当 Agent 反复做某项工作时，Prompt 逐渐成为需要审查的东西。如果这些指令决定生产行为，它们应该活在仓库里，有版本历史、审查和回滚。日常学习 Agent 不直接改变生产行为，而是开 PR 展示它审查了什么反馈、认为什么原则该改、技能文件的确切 diff。人类像审查其他变更一样审查它。

这获得了自改进的好处，但没有放弃控制。Buzz 可以持续提出改进，但持久变更经过审查，确保不会跑偏。

如今，Buzz 每月处理数千条跨 Twitter、Reddit、Bluesky、LinkedIn 等平台的提及。大约一半不需要回复，这意味着团队只花时间处理真正需要关注的——这已经是巨大的时间节省。

Buzz 运行在大约 15 个技能上，涵盖分类、起草、学习、分析和报告。团队用 OpenClaw 进行 Agent 管理和编排，Buzz 可以在后台运行，由定时任务或新提及触发。

这让团队在不增加人手的情况下完成更多工作，把更多时间花在真正擅长的事上：知道什么重要、做品味判断、与社区建立关系、决定 Warp 在外人眼中应该是什么样的公司。

做判断密集型工作的 Agent 需要从它试图近似的人类判断中学习。Warp 每次构建类似 Agent 时都记住这三点：

目标不是从系统中移除人类判断和品味，而是让它们产生复利。每次团队纠正 Agent，下一次运行应该好一点。每次持久改进都应该经过审查并提交。

久而久之，Agent 越来越不像某人一次性写的 Prompt，越来越像团队思考方式的工作记忆。最优秀的团队不会只写更好的 Prompt，他们会构建更好的循环。