核心洞察
Agent 就像罐子里的大脑——聪明、快速、愿意聊几小时,但完全隔绝于你的真实生活。
集成就是给它装上感官和四肢。接 2 个,你得到一个能读 Gmail 的聊天机器人。接 12 个,你早上解锁手机会看到 Hermes 已为你跑完复杂工作流。
四大功能维度
每个真正有用的 Agent 设置最终都做四件事:研究、行动、工作空间、记忆。缺一个,Agent 在那个方向就瞎了。
维度 1:研究(世界的眼睛和耳朵)
让 Agent 能自己发现信息,不用你 spoon-feed 上下文。
| 工具 | 作用 |
|---|---|
| Firecrawl | 专为 Agent 设计的网页搜索,数据更干净、响应更快、token 消耗更少 |
| 了解人们对产品/ niche/问题的真实想法,5 分钟发现痛点 | |
| YouTube Transcripts | 提取任意视频字幕,长播客/教程/演讲秒变可搜索笔记 |
维度 2:行动(世界的手和声音)
让 Agent 能做实事,而不只是描述它会做什么。
| 工具 | 作用 |
|---|---|
| Browserbase | 真实浏览器访问,能登录、点击、导航反爬虫网站。与 Firecrawl 配合,Agent 自动选择 |
| Bland/Twilio | 给 Agent 打电话的能力,能代你预约餐厅 |
| Stripe | 处理支付、客户、失败扣款、退款。问「为什么这个客户流失」,Agent 给你带收据的答案 |
维度 3:工作空间(你实际生活的地方)
让 Agent 在你的业务内部运作。
| 工具 | 作用 |
|---|---|
| Google Workspace | Gmail、Calendar、Drive、Docs、Sheets 一站式连接。Agent 不读 inbox 就不算为你工作 |
| Discord | 按频道分配不同工作流。客服频道:每天早上扫描邮件 → 提取工单 → 按优先级分类丢到 Discord |
| GitHub | 代码、Issue、PR 管理,让 Agent 成为能开 PR、审代码、分类问题的工程队友 |
维度 4:记忆(长期大脑)
让 Agent 永远记得你读过、学过、说过、写过的东西。
| 工具 | 作用 |
|---|---|
| Readwise | 把你所有书摘、文章高亮、推文、播客笔记汇到一个可查询的地方,解决「死知识」问题 |
| Granola | 可搜索的会议转录,问「那个客户上个月怎么说的定价」,秒答 |
| Obsidian | Karpathy 风格的 LLM wiki 第二大脑,Agent 能跨整个 vault 阅读并连接你忘记的想法 |
链式调用的威力
单独接入每个工具都有用。但堆叠起来后,它们开始做你没意识到可能的事。
工作流 1:赞助筛选器
有人 X DM 或邮件谈赞助 → Hermes 自动读取 → Firecrawl 爬他们网站 → Reddit + YouTube 扫描真实口碑 → Discord 丢一页 fit-rating
4 个工具协同,全自动。
工作流 2:客服 Agent
每天早上扫描 Gmail 支持邮件 → 按问题类型分类 → 带优先级标签丢到 Discord 支持频道 → 每周 Obsidian 总结 5 个该修的根因问题
4 个工具 + 定时触发。
工作流 3:周一业务仪表盘
每周一 8am:Stripe 拉收入/新订阅/退款/流失 → Browserbase 抓 X 和 LinkedIn 粉丝增长/帖子浏览 → Discord 发周环比分析
10 秒读完,替代 1 小时 dashboard 跳转。
接入方法(10 分钟)
Step 1:打开 Hermes,问「怎么连接 [工具]?」
Agent 会告诉你 OAuth/API key/MCP 需要什么,在同一次对话里带你走完。
Step 2:测试再下一步
问一个必须连接工具才能回答的问题:
- 「我今天日历有什么?」
- 「找那封客户关于合同的最后一封邮件」
- 「拉最近 5 笔 Stripe 失败扣款」
Step 3:堆叠
2 个工具有用,12 个工具才是上面那些工作流开始运转的时候。
核心结论
第一次它直接做了那件事,聊天机器人就死了,超级 Agent 出现了。
资源
- 作者:Ole Lehmann (@itsolelehmann)
- 原文:https://x.com/itsolelehmann/status/2056343273023688989