返回 FEED
GITHUB2026-05-16

X 开源推荐算法第二次大更新

马斯克 2026 年 1 月承诺开源 X 新算法后,官方仓库在 5 月 15 日迎来第二次主提交。相比 1 月 20 日的首版,这次规模明显更大:187 个文件变更,新增 18,263 行、删除 926 行,核心增量从「解释推荐架构」推进到「补出可运行推理链路和广告混排逻辑」。

Phoenix 端到端推理链路

最关键的变化是 Phoenix 推荐模型终于有了端到端演示。新加入的 phoenix/run_pipeline.py 可以从导出的 checkpoint、用户行为序列和预计算语料出发,依次跑完召回和排序:先根据用户历史找出候选内容,再预测点赞、回复、转发、停留等互动概率,最后合成排序分数。这比 1 月版本只给检索和排序模块说明更接近真实推荐流程。

这次还新增了约 3GB 的 mini Phoenix 模型 artifact,用于开箱跑示例推理。不过仓库文档存在一处参数冲突:根 README 写的是 256 维 embedding、2 层 Transformer,Phoenix 文档和参数表写的是 128 维 embedding、4 层 Transformer,具体配置仍需以 artifact 解压后的 config.json 为准。

广告混排逻辑首次公开

1 月马斯克原话承诺会开源自然内容和广告推荐相关代码,但首版几乎没有广告混排细节。5 月更新补上了 home-mixer/ads/,可以看到广告插入并非固定位置硬塞,而是会受安全间隔、相邻内容风险、作者账号、关键词和品牌安全规则影响。

这意味着广告在信息流中的位置是动态计算的——不是每隔 N 条塞一条,而是根据内容安全、用户画像和广告主约束实时调整。对于研究信息流产品的人来说,这是首次能看到 X 的广告策略底层逻辑。

内容理解管线 Grox

此外,X 还加入了新的 grox/ 内容理解管线,覆盖垃圾内容识别、帖子分类、政策安全判断和多模态 embedding。这是推荐系统的「安检层」——在内容进入排序流程之前,先经过一轮自动审核和分类。

整体评估

这次更新真正补的是推荐系统外围生产链路:候选怎么来、广告怎么插、安全怎么拦、结果怎么写回。它仍然不是完整生产代码(缺少实时数据流、A/B 测试框架、用户反馈闭环),但已经比 1 月那版更像一套能被研究者拆解的 X For You 推荐系统样本。

对于做推荐系统的工程师和产品经理,这份代码的价值在于:

  • 看到一个大厂级推荐系统的模块划分(Home Mixer / Thunder / Phoenix / Candidate Pipeline)
  • 理解「无手工特征」的纯 Transformer 排序思路
  • 观察广告和内容如何在同一条管线中混排
  • 学习候选隔离(Candidate Isolation)等工程 trick

如果你想本地跑起来,需要准备:Python 环境、3GB 模型下载、以及一定的耐心来对齐文档中的参数矛盾。