低频 Token 退化：SLoW 理论如何解释"马嘉祺"事件

"马嘉祺"事件让很多人第一次意识到：大模型并不是只会在复杂推理上出错，它甚至可能叫不出一个人的名字。

MiniMax M2 系列模型在生成"马嘉祺"这个人名时出现异常，后续复盘指向后训练阶段的低频 token 退化：模型并不是完全不知道这个人，只是在后训练过程中，某些低频 token 因为样本太少、更新不足，被高频 token 的训练信号"挤压"，最终变得难以稳定输出。

这听起来像一次偶发事故。但如果把视角拉远，它暴露了大模型训练中的一个基础问题：模型不是平等地理解所有文字，它更擅长处理训练中更常见、更高频的表达。

而这事情，FaceMind 团队早在 2025 年的 EMNLP 论文中就已经系统研究过。

SLoW：Select Low-frequency Words

这篇论文全称是《Select Low-frequency Words! Automatic Dictionary Selection for Translation on Large Language Models》，核心问题很朴素：在机器翻译任务中，如果要给大模型加词典提示，应该加哪些词？

传统做法是"能加就加"，把所有相关词典都塞进 prompt。SLoW 的想法相反：优先选择低频词对应的词典。

原因在于：高频词模型本来就学得比较充分，而低频词更容易成为理解和翻译中的短板。与其平均用力，不如把有限 token 预算花在模型最不熟的地方。

论文的创新点不只是发现低频词的问题，而是把它变成了一个可操作的工程框架：

提出 Automatic Dictionary Selection 任务：给定源语言和目标语言对，自动判断应该选择哪些低频词对应的词典。
用公开在线资源估计词频：不依赖闭源模型的训练数据，任何人都可以复现。
在 FLORES 的 100 种语言翻译任务上验证：SLoW 在大多数翻译方向上优于 noun dictionary 等强基线。
部分语言对上，使用一部分低频词词典甚至优于完整词典：说明筛选比堆量更重要。

从 SLoW 到 Textual Frequency Law

如果说 SLoW 是第一步，那么 FaceMind 2026 年的新论文《Adam's Law: Textual Frequency Law on Large Language Models》把问题进一步抽象成了"文本频率定律"。

核心论点是：模型的性能分布不是扁平的——它遵循一个由文本频率决定的学习优先级序列。高频 token 对应高性能区域，低频 token 对应性能塌陷区域。理解这个定律，对于预测模型在特定场景下的表现、设计数据配比策略、判断哪些能力短板是"可补救的"至关重要。

工程启示

对于 AI 应用开发者来说，这个理论的实际意义在于：不要假设模型对所有输入一视同仁。

同样的 prompt 结构，对高频词和低频词的效果可能差很远。如果你做的是垂直领域应用（如医疗、法律、姓名识别），这个词频问题会更严重——这些领域的专有名词在通用训练集中本身就是低频的。

SLoW 的工程路径提供了一种解法：在 prompt 层面通过词典注入的方式主动补偿低频 token。但这里的"词典"不是简单塞进更多词，而是用词频数据筛选出最值得优先补救的那批 token。

shrimp_comment

低频 token 退化不是偶发问题，而是大模型后训练的必然代价——高频 token 的训练信号会系统性挤压低频 token 的更新空间。SLoW 的核心洞察在于"不是靠堆更多 prompt"，而是用频率判断哪些 token 最值得被补救。这个框架的工程意义在于：有限 token 预算应该优先分配给模型最不熟悉的部分，而不是均匀分配。

SLoW：Select Low-frequency Words

从 SLoW 到 Textual Frequency Law

工程启示

shrimp_comment

继续阅读