Every 的 AI 一年复盘：Agent 越强，越需要懂业务的人

Every 创始人 Dan Shipper 在 Lenny's Podcast 里讲 AI 预测，听起来更像 Every 过去一年把公司推进 AI 工作流之后的复盘。

Every 现在接近 30 个人，一年前大概 15 个。工程、设计、写作、编辑、销售、客服都在用 Codex、Claude Code、Co-work 做日常工作。按常见想象，这种公司应该越做越轻，人数越来越少。但 Dan 看到的结果反过来：AI 用得越深，工作反而变多了。

个人 agent 很快变成维护负担

OpenClaw 刚出来时，Every 内部也很兴奋，不少人都去搭自己的 agent。想象很迷人：每个人都有一个小 daemon，像挂在肩膀上的个人分身。

但 agent 一旦真的跑起来，就不只是一个工具了。它会坏，需要上下文，需要有人盯着它为什么做错了，需要有人不断把它修到下次少犯错。人们只是想完成工作，很少有人愿意为了一个随时出问题的 harness 去 SSH 到服务器上折腾。

所以 Dan 后来反而更看好公司先有一个总 agent。Shopify 有，Ramp 有，Every 内部也有 Claudie，负责跑他们的 consulting practice。

这个 agent 背后还是人，通常是 forward deployed engineer 这类角色，既懂工程，也懂业务现场，负责把 agent 养到整个组织都能用。

Every 的 Nitesh 就是这种角色。他是 AI engineer，但很多时间已经从传统写代码移到 Slack 里跟 Claudie 对话，追问它为什么做了某个奇怪决定，再把系统修到下次少犯同类错误。表面上是在维护 agent，实际是在给全公司搭一套别人可以安全使用的系统。

浏览器开始被塞进 agent 里

公司级 agent 解决的是异步协作，另一条线发生在个人电脑上。

Dan 觉得 Claude Code 最早抓住的点，是把 agent 放到你的电脑里。它能访问你能访问的文件、命令行、代码、浏览器和本地环境。这个模式一开始看起来像 coding agent，后来慢慢变成知识工作的入口。

他现在的 daily driver 是 Codex desktop app。每个项目一个 thread，里面开着浏览器，写文档时就在 Proof 里写，Codex 能看见他正在改什么，也能做 research、整理邮件、查资料、生成报告。

他以前很难 inbox zero，最近连续 10 天做到了。Codex 先通过 email agent Cora 把邮件拉出来，渲染成一个页面，然后 Dan 对着每封邮件口述处理方式。律师的问题，就让 Codex 去收集过去 4 年的文件，整理成报告再发回去。

SaaS 会被推到新的位置

以前大家想的是把 AI 放进浏览器或 SaaS 工具里，Dan 现在看到的是把浏览器放进你常用的 agent 里。SaaS 仍然存在，只是会运行在 Codex、Claude Code、Co-work 这样的工作面里面。

这样一来，SaaS 公司要服务的就不只是人，还包括人带来的 agent。HTML 要可读，CLI 和 Web 状态要同步，agent 一次改了很多东西时，用户要看得见、能批准、能回滚。用户带着自己的 AI 来用你的工具，token 花在用户那边，SaaS 公司也不用把所有 AI 成本吞进毛利里。

Proof 里已经能看到这种循环。用户遇到问题，不一定自己写 support ticket，他的 agent 会发 bug report，里面有复现步骤、环境信息，甚至对开源代码的初步判断。这个 report 进 GitHub issue 后，公司这边也可以再派 agent 去修。用户侧 agent 和公司侧 agent 之间，开始形成很快的反馈闭环。

代码变多以后，最缺的是会删的人

Dan 对 automation 的判断，来自一个很狼狈的经历。他用 vibe coding 做了 Proof，内部测试还可以，正式发布后服务器每 10 分钟就挂一次。Codex 每次说修好了，结果又带出 4 个新错误。后来他找了两位 senior engineer 分别重写代码库，再拿这些结果去评估模型。

旧模型大概 30 分，人类 senior engineer 是 80 多到 90 多分。GPT-5.5 做到 62 分，差异在于它敢于从第一性原理重写，其他不少 coding model 只会在边缘打补丁。

但 Dan 说，就算模型很快追上这个 benchmark，他也可以立刻改 benchmark，把当前模型重新打到 0 分。benchmark 测的是已经被人框出来、写成 prompt、可以评分的问题。人的工作经常发生在更上一层：发现当前问题的提法就错了，判断系统该不该重写，需求该不该拒绝，PR 该不该合并。

这也是 AI-forward 公司还在招工程师的原因。代码变多之后，PR 也会变多。OpenClaw 的 Pete 可能一天收到几千个 PR，再开很多 Codex instance 去筛。问题从能不能 build，转成哪些东西该 merge，哪些东西该删掉，怎么让产品保持一个完整的整体。

PM 和设计师会被放大

执行变便宜以后，Dan 最看好的两类人反而是 PM 和 full-stack designer。

Every 内部有个 Marcus，原来是 PM，做过 Axios 的 writing product，带到过千万级 ARR。后来休了一年，深度使用 Cursor，现在用 Claude Code。他只算 lightly technical，知道 database migration 是什么，能看懂一些代码，但一年前 Every 绝不会雇他来独立做现在这份工作。

现在 coding model 足够强，他可以把一点技术理解、很强的产品判断、写作 sense、用户 sense 拼在一起。Dan 说 Marcus ship 得比团队里不少人都快，而且每个用户、每次对话、每个反馈在他那里都会变成产品下一步的线索。

设计师也类似。以前设计师做出一个漂亮 interaction，经常卡在工程实现上。现在 full-stack designer 可以直接把想法做出来，甚至直接提 PR。AI 生成的界面很容易长得一样，有审美和交互能力的人，更容易和默认输出拉开差距。

AI 写作会先进入内部文档

Dan 还讲了一个很多人会低估的变化：大家会读更多 AI 生成的文档和邮件，而且会慢慢接受这些 AI 产物。

Every 做季度规划时，用 Notion agent 让每个人回答上一年发生了什么、今年目标是什么、指标是什么、这些目标和公司策略怎么连起来，最后生成每个团队的计划文档。Dan 作为 CEO 要看的，是谁需要跟谁对齐，哪份计划质量低，哪份计划真的能执行。

他对 AI 文档的标准是：AI 写可以，但发的人要知道里面每一行是什么意思。如果一份文档发送者讲不出内容，那就是 slop。

说到邮件也差不多。他说自己现在大部分邮件都由 GPT-5.5 和 Codex 写。有一次 Codex 没按惯例请他确认，直接把邮件发给了投资人。他赶紧去 sent 里看，结果发现那封邮件基本就是他自己会发的版本。作为一个写作者，他仍然在意人类写作，但很多内部沟通更看重意图和判断，句子本身可以交给模型。

最后还是要亲手玩

每次新模型出来，Dan 都会把以前做不了的事情重新翻出来试一遍。senior engineer benchmark 以前做不好，GPT-5.5 出来后就到了 62 分。很多能力边界会突然移动，只有一直在现场的人能第一时间看见。

AI 的前沿在任何一个真人用 AI 做真实事情的地方。模型公司在造工具，但他们不可能知道每个行业、每个岗位、每个具体工作流里最值得保留的用法。

最该做的事情，是把自己的工作流搬进 Codex、Co-work、Claude Code 或类似工具里试一遍。找一个真的困扰你的问题，让 AI 去解决。你一旦找到那个「原来这也能做」的时刻，后面就不太需要靠 FOMO 推着自己学了。