个人助手式 AI 的天花板很明显:它只服务一个人,上下文只存在于这个人的脑子里。ericosiu 的解法是把"共享大脑"做成组织的核心设施——每个员工的 Agent 都连接到同一个知识库,销售成单的那一刻,客户经理的 Agent 已经收到交接信息;内容团队的数据表现好的那一刻,销售 Agent 已经调整了外展角度。
这是真正的组织智能,不是工具的集合。
三层记忆架构
第一层是每日笔记。每天一个 markdown 文件,记录当天发生的所有事情原始数据。脚本从 Agent 会话里自动抽取内容写入,不需要人工整理。
第二层是长期记忆。从每日笔记里提炼关键人物、活跃项目、已做决策、经验教训。系统自动维护,每个 Agent 启动时必读。
第三层是组织知识。这层是真正拉开差距的地方。他们导入了 2862 份销售通话记录,用 AI 生成 7 份 playbook,总共 81KB 的组织知识——这些以前只存在于人的脑子里。一个新员工第一天就能调用这些知识,而不需要在茶水间里偷偷问老同事。
每周一的日常
没有人布置任务,Agent 在所有人打开电脑之前就开始工作了:
销售 Agent 扫描 CRM,识别停滞的交易,起草多个角度的激活邮件,等待代表一键审批。运营 Agent 检查所有活跃客户账户,标记出交付延迟的两个账户,起草带有具体数字的状态更新,而不是"我们正在处理"。内容 Agent 分析上周表现,发现一个播客带来的流量是平时的 4 倍,立刻起草三个二次创作角度:短视频片段、博客文章、社交 thread。
Agent 提议,人类审批,工作在 standup 之前就已经开始了。
从"有感而发"到"系统驱动"的内容生产
他们有一个系统每 12 小时扫描 X 上最有影响力的账号,对每条帖子打分(病毒潜力 × 与己相关度),超过 60 分的自动起草一篇用创始人语气写成的文章。一篇文章产生了 50 万次浏览和 10 条线索,计算成本是 0.5 美元。
这意味着当 Google DeepMind 的"AI Agent 陷阱"论文发布时,他们 24 小时内就能发出一篇有防御性观点的文章。当 Claude Code 源码泄露时,同样的事情发生。热点话题有 48 小时的窗口期,这个系统确保他们每次都在窗口内。
安全是真实的挑战
他们跑在网络上的 Agent 处理外部数据、起草邮件、管理 CRM——Google DeepMind 论文里提到的 6 种攻击向量对他们全部适用:内容注入、语义操纵、记忆污染、越狱序列、系统级联、审批疲劳。
他们建了 4 个模块 38 个测试的安全防护层:HTML 净化器(剥离注入文本)、外发风险高亮(可疑 URL 和承诺性语言)、记忆溯源(每个记忆写入带信任分数 0.3-1.0)、偏见检测器(抓取内容里的 promotional 语言和越狱框架)。
诚实评估:他们的安全分数从 4/10 提升到了 6/10。行业领先者大概 7/10。没有人到 9/10,因为 prompt injection 这个问题根本没有被解决。但大多数跑 AI Agent 的公司大概只有 2/10——因为他们根本没想过这个问题。
核心设计原则
确定性工作交给 Python 脚本,LLM 只处理判断和合成。一旦把确定性工作和 LLM 工作混在一起,系统会以不可预测的方式崩溃,你就会开始不信任它。而把边界画清楚之后,它就变成了你真正依赖的东西。
每周失败率:大约 20 次 cron 错误、8 次 API 超时、4 次 Agent 输出异常、2 次需要人工介入、1 次真正出问题。每周真正需要处理的故障只有 1 次。
难度和收益
前期成本很高。人类 chief of staff 会读空气、隐性学习、主动调整。AI Agent 需要把一切都写成文字,把每个边缘情况都显式处理。这需要 2 个月建基础设施。但之后,每新增一个团队成员,给他配一个完全配置好的 Agent 的边际成本接近零。
2862 份通话记录 worth 的组织知识、跨团队共享上下文、每周都在自我改进的 Agent——这些不是一个工具能买来的,是这套系统长出来的。
这套系统的本质是把"组织知识沉淀"从依赖人变成依赖文件。Filesystem-first 在个人场景里是工作流优化,在组织场景里是真正的护城河——因为文件比人稳定,不会突然离职或失忆。关键在于文件结构的设计要能承载知识的演化,而不是一开始就把所有关系定死。