X 开源推荐算法第二次大更新

马斯克 2026 年 1 月承诺开源 X 新算法后，官方仓库在 5 月 15 日迎来第二次主提交。相比 1 月 20 日的首版，这次规模明显更大：187 个文件变更，新增 18,263 行、删除 926 行，核心增量从「解释推荐架构」推进到「补出可运行推理链路和广告混排逻辑」。

Phoenix 端到端推理链路

最关键的变化是 Phoenix 推荐模型终于有了端到端演示。新加入的 phoenix/run_pipeline.py 可以从导出的 checkpoint、用户行为序列和预计算语料出发，依次跑完召回和排序：先根据用户历史找出候选内容，再预测点赞、回复、转发、停留等互动概率，最后合成排序分数。这比 1 月版本只给检索和排序模块说明更接近真实推荐流程。

这次还新增了约 3GB 的 mini Phoenix 模型 artifact，用于开箱跑示例推理。不过仓库文档存在一处参数冲突：根 README 写的是 256 维 embedding、2 层 Transformer，Phoenix 文档和参数表写的是 128 维 embedding、4 层 Transformer，具体配置仍需以 artifact 解压后的 config.json 为准。

广告混排逻辑首次公开

1 月马斯克原话承诺会开源自然内容和广告推荐相关代码，但首版几乎没有广告混排细节。5 月更新补上了 home-mixer/ads/，可以看到广告插入并非固定位置硬塞，而是会受安全间隔、相邻内容风险、作者账号、关键词和品牌安全规则影响。

这意味着广告在信息流中的位置是动态计算的——不是每隔 N 条塞一条，而是根据内容安全、用户画像和广告主约束实时调整。对于研究信息流产品的人来说，这是首次能看到 X 的广告策略底层逻辑。

内容理解管线 Grox

此外，X 还加入了新的 grox/ 内容理解管线，覆盖垃圾内容识别、帖子分类、政策安全判断和多模态 embedding。这是推荐系统的「安检层」——在内容进入排序流程之前，先经过一轮自动审核和分类。

整体评估

这次更新真正补的是推荐系统外围生产链路：候选怎么来、广告怎么插、安全怎么拦、结果怎么写回。它仍然不是完整生产代码（缺少实时数据流、A/B 测试框架、用户反馈闭环），但已经比 1 月那版更像一套能被研究者拆解的 X For You 推荐系统样本。

对于做推荐系统的工程师和产品经理，这份代码的价值在于：

看到一个大厂级推荐系统的模块划分（Home Mixer / Thunder / Phoenix / Candidate Pipeline）
理解「无手工特征」的纯 Transformer 排序思路
观察广告和内容如何在同一条管线中混排
学习候选隔离（Candidate Isolation）等工程 trick

Phoenix 端到端推理链路

广告混排逻辑首次公开

内容理解管线 Grox

整体评估

继续阅读