不是广撒网,是精准筛选
卡尔的AI沃茨开源了 「伯乐 Skill」。它的作用不是抓全网 AI 新闻,也不是把 150+ 信息源打包成一个新入口。
每个人的信息需求不一样,阅读习惯也不一样。
伯乐做的是更上游的事:
- 判断一个信息源值不值得长期追更
- 判断会不会跟现有信息流有内容重复
- 如果值得,应该怎么接进来最稳定
作者踩过的坑
RSS 执念阶段:看到好博客就订阅,看到 Newsletter 不错就加,看到聚合站更新多也塞进去。以为把所有好东西塞进 RSS 就不会错过重要信息。
结果很快被信息淹没。每天几千条、几万条更新躺在那里,还没点开就开始信息焦虑。而且大量内容重复——一个模型发布,官方博客发一遍,聚合站转一遍,Newsletter 讲一遍,X 上再来十几个人点评一遍。
AI 预处理阶段:去重、过滤、总结,把链接放后面,只留下文字,像读干净日报一样阅读。做了半年发现更要命的缺点:
要判断一个东西值不值得深挖,不能只看 AI 处理过的文字。必须知道它来自哪里。官方发布?二手转述?聚合站搬运?开发者本人博客?营销号转了三四遍的版本?
原始来源不是可有可无的链接。它是一条信息的身份证。
AI News Radar 阶段:公开的 24 小时 AI 更新雷达。普通用户直接打开页面就能看到最近 24 小时 AI、模型、开发者工具和技术生态里发生了什么。
跑了两个月发现问题:固定站点最多只能成为起点,不能成为所有人的终点。每个人的信息需求不一样——有人只看模型更新,有人只看开发者工具,有人关心论文,有人关心产品发布。
伯乐 Skill 阶段:不是再折腾一个更大的聚合站。真正的问题不是选择全盘接收 500 个源,而是在 500 个源里挑出合适的方式,根据自己的阅读习惯,保留适合自己的 10 个。
伯乐的三绝招
第一招:找结构化入口
抓之前,先判断这个网站自己有没有更适合 Agent 的入口。
例子:AI HOT
这个站不只是可视化网页,还专门做了 Agent 接入:Skill、RSS、REST API 三条路。
伯乐 Skill 不需要明确告诉它这个网页已经有三种方式了。它会从首页开始读取网站的所有路径,发现已有 RSS 和 API,就优先走结构化入口:
- 精选内容 →
/feed.xml - 全部内容 →
/feed/all.xml - 日报 →
/feed/daily.xml - 开发者细筛 →
/api/public/items或/api/public/daily
第二招:分层保留,坏源跳过
例子:Info Flow
伯乐把它归到聚合源层。不是官方一手源,但提供很好的广度。处理方式不是把整个页面当一篇文章读完,而是识别页面里公开的 feed 列表,再逐个读取子 feed。
如果某个子 feed 坏了,就跳过,不会让一个坏源拖垮整条线。
筛选时保留两层:
- 第一手层:OpenAI、Anthropic、Google DeepMind、Google AI Blog——负责信息可信度
- 聚合层:TechURLs、Buzzing、Info Flow、TopHub——负责信息广度
两层的信息角色不一样。
第三招:学习别人的养马技术
例子:Follow Builders
本身是一个 Skill,追踪 X 上的创业者、产品经理和工程师,也追踪博客和播客。伯乐在收录时判断:Follow Builders 输出的是 JSON 文件。所以在可视化时可以直接读取 GitHub 把这个 JSON 可视化,不需要额外模型额度来运行 skill。
X API 策略优化:
- 只看过去 24 小时内容,保留备份去重
- 每个账号最多保留 3 条新 Tweets
- 去掉无效转发和回复
能有效降低成本,满额返回 125 条顶上天也就 $0.625/天,5 块不到。
伯乐 Skill 的能力
伯乐能判断:
- 一个信息源的内容值不值得长期追更
- 会不会跟现有信息流有内容重复
- 如果值得,应该怎么接进来最稳定
支持 9 类信源类型,默认版本 22 个信息源。作者把自己日常订阅的 150 个左右信息源的原生网站,在不依赖任何 RSS 或脚本解析的前提下,交给伯乐去学习判断:
- 判断能稳定获取信息源的方式是什么
- 根据这个方式做 7 天观察期,观察是否能长期获得稳定的 AI 信息
- 做 URL、标题、正文的内容过滤,跟现有信息源差异大于 65% 才会保留
输出形式
开箱即食:伯乐 Skill 生成的网页,包含信息、信息来源、双语翻译、分类、时间轴、原始链接和信源健康状态检查。
自定义部署:
安装伯乐 Skill(https://github.com/aiwarts/ai-news-radar),再问我要信息源清单,目标是部署一个不需要服务器,能用 GitHub Actions 自动更新的 AI 日报网站。
核心洞察
以前觉得每天看到的信息越多越安全。真正有安全感的不是信息量,是判断力。
AI 让获取信息的成本越来越低。选择信息源、保留原始来源、判断哪些值得长期追——这些事情更重要。
千里马常有,新闻很多,更新很多,热点很多。真正缺的是一个能帮你看马的人。