杨植麟在英伟达 2026 年度 GPU 技术大会(加州圣何塞)上发表演讲,主题是"How We Scaled Kimi K2.5"。核心信息很清晰:开源模型要赶上闭源,不仅要开放,还必须足够强大——而强大的路径是三个维度的规模化扩展。

Token 效率:用更好的优化器把曲线往左移

标准扩展定律告诉我们:训练 token 越多,损失越低。但 Kimi 的目标不只是增加训练 token,而是提高 token 效率——用相同的 token 数量获得更低的损失,把曲线往左移。

这不只是效率问题,是关于提升智能上限。假设你有 50 万亿高质量 token,token 效率提升两倍,就等于拥有了 100 万亿 token 的效果。在高质量数据日益稀缺的时代,这直接决定了智能的天花板。

Kimi 的解法是 Muon 优化器——作为二阶优化器,它对每个梯度更新的转换方式使各条目彼此正交,与传统 Adam 不同。正确实现后,可获得 2 倍 token 效率提升。

但大规模训练 Muon 遇到了新挑战:当扩展到 1 万亿参数模型时,最大 logits 迅速爆炸(超过 1000,典型值约为 50-100),训练发散。

解法是 QK-Clip 技术:对每个注意力头,在前向传播时计算最大 logit,然后计算裁剪值,将查询和键值限制在给定范围内,避免爆炸。实证结果:裁剪技术完全不影响训练损失,但有效约束了最大 logit,神经网络似乎学会了自我约束。这个组合让 Kimi 成功将 Muon 扩展到 1 万亿参数,创下机器学习史上最大规模 Muon 训练的纪录。

长上下文:Kimi Linear 架构

Transformer 相比 LSTM 的核心优势:在整个上下文中持续改善。LSTM 在达到一定 token 数后就饱和,无法处理超长 Agent 轨迹。Transformer 则能在整个上下文长度上持续降低损失——这是 Agent 时代最重要的能力。

Kimi 引入了 Kimi Linear 架构:新的线性注意力变体 Kimi Delta Attention,核心改进是引入了细颗粒度衰减因子——不再是全局单一衰减因子,而是对角矩阵控制每个通道的独立衰减率。这意味着某些通道可以衰减得非常慢,保留跨长距离的上下文信息;同时其他通道可以快速遗忘旧信息、刷新观察新信息。大幅增加了模型的表现力。

为了在现代 GPU 上高效并行计算,他们将整个等式改写为包含矩阵求逆运算和累积衰减因子的三个方程——这是精确数学等价公式,不是近似,在不牺牲性能的情况下实现与线性注意力相当的效率。

实测结果:扩展到 256k 上下文长度时,相比标准 Transformer 架构可节省约 50% 成本。

Agent Swarms:并行化压缩执行时间

这是 Kimi 近期重点投入的新方向。核心思路:不再依赖单一 Agent,而是组织一群可以并行完成子任务的 Agent 集群。

范式:协调者(主 Agent)负责任务分解和结果汇总,子 Agent 分别处理不同子任务——类似人类组织的运作方式:CEO 分解任务给不同角色,整个组织朝共同目标前进。

关键数据:Agent Swarms 相比单 Agent 能显著减少执行时间,且任务越复杂,节省越多——低复杂度节省约 3 倍,最高复杂度可节省 4.5 倍。这意味着可以扩展到 100 甚至上千个 Agent,在可接受时间内完成复杂任务,产生实际经济价值。

扩展维度包括:

  • 输入规模化:并行下载阅读数百甚至上千个来源
  • 输出规模化:并行撰写 100 页文献综述
  • 行动规模化:同时执行 10 种不同数据分析任务
  • 编排规模化:学习设计子任务并汇总结果

Kimi 为 Agent Swarms 定义了新的目标函数,包含三个奖励:实例化奖励(激励并行执行,防止退化为串行)、完成奖励(激励每个子任务有较高完成率)、结果奖励(衡量整个任务是否完成)。训练初期权重较高,随后逐渐衰减。

Kimi K2.5:原生视觉-文本融合

基于 Muon 和 Kimi Linear 两项技术,Kimi 在一月底打造了 K2.5。K2.5 有几个关键创新:

原生联合视觉-文本能力的首个开源模型。以往开源模型通常在纯文本模型基础上"后加"视觉能力——先训练 20 万亿 token 的文本模型,再做 2 万亿 token 的视觉训练。K2.5 不同:从第一天起就融合视觉和文本 token,称为"早期融合"。

这催生了新能力:两种模态可以相互增强。视觉 RL(仅使用视觉任务,不涉及文本任务)能提升推理密集型文本任务的表现;反之,强大的文本模型在"零视觉 SFT"方法下,仅用文本 SFT 数据做联合 RL,就能在视觉任务上达到接近最先进的性能。

预训练过程极其稳定。K2.5 在 K2 模型 15 万亿 token 基础上,额外再训练 15 万亿——整个过程没有损失尖题,引入 Muon 优化器后未观察到任何异常波动。

注意力残差:新架构开源

Kimi 还发布了新架构的技术报告"注意力残差"。动机来自一个简单观察:残差连接是旋转 90 度的 LSTM 变体——LSTM 在时间维度上通过门控传递隐藏状态,残差连接在深度维度上同理。

那么在深度维度上应用注意力,就是残差连接的自然泛化:不再只取最后一层隐藏状态,而是考虑之前所有层的隐藏状态,用注意力机制组装聚合来计算当前层结果。

为减少开销,他们设计了"块注意力残差"变体:将网络分成若干块(如每 16 层或 4 层),仅在每个块输出上应用注意力残差,块内仍用标准残差。

结果:token 效率提升 24%(50 万亿高质量 token 相当于超过 60 万亿的效果),验证损失始终低于原始曲线;在 GPQA、数学、Human Eval 等编码推理任务上取得显著改进。

开源的逻辑

杨植麟在演讲结尾点出了这件事的更大的图:十年前,发表新思想但缺乏严谨实验,难以产出可靠结果。现在有了 Scaling 阶梯,有足够资源在不同规模、不同环境下训练模型,更容易得出自信、可靠的结论。这也是为什么在"古老技术"上仍能观察到新进展——Adam 发明于 2014 年,现在有了 MuonClip;注意力机制发明于 8 年前,现在有了 Kimi Linear;残差连接也面临挑战,现在有了注意力残差。

开源社区会看到越来越多这样的进展。