对于需要做大量判断和品味决策的 Agent 来说,起步时的 Prompt 只是开始。真正优秀的 Agent 会从团队的日常工作中学习什么是"好",并持续自我改进。
所有人都在努力写出更好的 Prompt。这本身没错,但忽略了一个更关键的挑战:你今天写的最佳 Prompt,一个月后就不再是最佳了。
产品在变,用户在变,团队的品味在持续精进,新的边界案例不断涌现。如果 Agent 做的是需要判断力和品味的工作,没有任何静态 Prompt 能覆盖它未来需要知道的一切。
这改变了核心问题:不再是"如何写出完美的 Prompt",而是"如何让 Agent 在上线后持续向团队学习"。
Warp 的实战:社区回复 Agent Buzz
Warp 的开发者体验团队需要处理大量社交媒体上的用户提及——Twitter、Reddit 和其他平台上每周超过一千条。团队热爱与用户交流,但小规模团队不可能手动跟进每一条对话。
很多 Agent 开发的核心循环很简单:尝试、检查、重试。写代码时有明确的信号:测试、构建、浏览器检查、命令输出。但社交回复不是这样——Agent 不能发一堆公开回复,然后等着看品牌信任度是升是降,再回来调整。反馈循环太长、太吵、太贵。
很多 Agent 卡在这个状态:几乎能用,输出够好到让你抱有希望,但不够好到可以放心信任。团队不断微调 Prompt,期待下一个版本能弥合差距。
Warp 认为这找错了抽象层级。让 Agent 完成一次任务不是难点,构建一个让 Agent 从团队日常工作中持续学习的系统才是。
从规则到原则
Buzz 的第一版和很多初版 Agent 一样:一份长长的规则清单。提到 bug 时这么说,被和其他工具比较时那么说,问到价格时提这个方案。
这非常脆弱。Prompt 越来越长,回复越来越机械,一旦出现没预设过的场景就崩溃。于是团队把技能从规则转向原则:
- 提供帮助,不要防御性回应
- 不要居高临下对用户说话
- 核实事实性声明,对照文档检查
- 听起来像是做产品的人,不是处理反馈的人
技能文件变小了,Agent 却变强了。回复开始像团队真正会说的话,Agent 能处理更多情况,因为指令不再是巨大的决策树。
但原则只是给了 Buzz 更好的起点,无法封装它可能需要的所有东西。
教 Agent 如何从反馈中学习
有了基于原则的技能后,团队开始给 Buzz 反馈。它会起草回复,人类指出问题或写出自己会用的话,然后 Buzz 尝试基于反馈更新自己的指令。
这带来了下一个失败模式:Agent 想把每个修正都变回规则。比如,如果人类说回复太营销化,它就加一条规则"永远不要在第一句话提价格"。可迁移的原则应该是"如果对方在发泄情绪,先共情,不要推销"。Agent 需要被教会如何从反馈中学习。
于是团队单独建了一个学习技能。它查看 Agent 的建议、人类的实际做法、当前指令,然后问:缺少或不清楚什么原则,才能达到预期输出?
学习流程的七步
- 识别对错 — 从具体反馈出发,要具体
- 问为什么 — 失败是症状,找到根本原因
- 抽象到模式 — 这适用于这一个案例之外吗?
- 对照现有原则 — 锐化、编辑、删除还是新增?
- 写成原则而非规则 — 描述如何思考,不是做什么
- 放在正确的位置 — 章节位置影响 Agent 的应用
- 编辑并提交 — 更新技能文件,保持紧凑,合并重叠原则
这很像教新团队成员,并让他们学会更广泛的想法。一个有益的副作用是,反馈迫使团队更清晰地表达自己的判断。很多品味 implicitly 存在于人的头脑中,教 Agent 会迫使它落到纸面上。
零摩擦的反馈闭环
Buzz 已经把每条提及和草稿回复发到 Slack 频道,团队把反馈接口做到最小:用 emoji 反应表示实际做了什么,可选在线程里加备注。一次点击就够,线程是额外上下文。
然后每天,Buzz 收集反应和线程反馈,对比自己的建议和团队的实际做法,提取持久的学习点,更新相关技能文件,并开一个 PR。
这个小小的 Slack 闭环让系统在实践中运转起来。从 Agent 获得杠杆效应的最佳方式,不是把每个人都变成 Prompt 工程师,而是设计工作流,让团队的正常判断和品味成为周围系统的训练信号。
安全地让 Agent 自改进
Agent 重写自己的指令,这安全吗?Warp 的做法是:把 Agent 技能当作代码对待。
当 Agent 反复做某项工作时,Prompt 逐渐成为需要审查的东西。如果这些指令决定生产行为,它们应该活在仓库里,有版本历史、审查和回滚。日常学习 Agent 不直接改变生产行为,而是开 PR 展示它审查了什么反馈、认为什么原则该改、技能文件的确切 diff。人类像审查其他变更一样审查它。
这获得了自改进的好处,但没有放弃控制。Buzz 可以持续提出改进,但持久变更经过审查,确保不会跑偏。
成果
如今,Buzz 每月处理数千条跨 Twitter、Reddit、Bluesky、LinkedIn 等平台的提及。大约一半不需要回复,这意味着团队只花时间处理真正需要关注的——这已经是巨大的时间节省。
Buzz 运行在大约 15 个技能上,涵盖分类、起草、学习、分析和报告。团队用 OpenClaw 进行 Agent 管理和编排,Buzz 可以在后台运行,由定时任务或新提及触发。
这让团队在不增加人手的情况下完成更多工作,把更多时间花在真正擅长的事上:知道什么重要、做品味判断、与社区建立关系、决定 Warp 在外人眼中应该是什么样的公司。
三个核心原则
做判断密集型工作的 Agent 需要从它试图近似的人类判断中学习。Warp 每次构建类似 Agent 时都记住这三点:
- 原则胜过规则,因为规则过拟合,原则可迁移
- Agent 需要学会如何学习,否则反馈会变成脆弱的例外清单
- 反馈循环必须活在团队已有的工作流中,否则人们会停止参与
目标不是从系统中移除人类判断和品味,而是让它们产生复利。每次团队纠正 Agent,下一次运行应该好一点。每次持久改进都应该经过审查并提交。
久而久之,Agent 越来越不像某人一次性写的 Prompt,越来越像团队思考方式的工作记忆。最优秀的团队不会只写更好的 Prompt,他们会构建更好的循环。