大模型并不是只会在复杂推理上出错。它甚至可能叫不出一个人的名字。
MiniMax M2 系列模型在生成"马嘉祺"这个人名时出现异常。后续复盘发现,这不是模型"不知道"这个人,而是后训练阶段的低频 token 退化:模型并不是完全不知道这个人,只是在后训练过程中,某些低频 token 因为样本太少、更新不足,被高频 token 的训练信号"挤压",最终变得难以稳定输出。
这听起来像一次偶发事故。但如果把视角拉远,它暴露了大模型训练中的一个基础问题:模型不是平等地理解所有文字。它更擅长处理训练中更常见、更高频的表达。
而这事情,早在 2025 年就已经被脸谱心智 FaceMind 的团队系统研究过。
SLoW:2025 年 EMNLP 的低频词论文
脸谱心智 FaceMind 的陆弘远团队,在 2025 年的 EMNLP 发表论文 SLoW:《Select Low-frequency Words! Automatic Dictionary Selection for Translation on Large Language Models》。
论文提出的核心问题很朴素:在机器翻译任务中,如果我们要给大模型加词典提示,应该加哪些词?
传统做法是"能加就加"——把所有相关词典都塞进 prompt。但这篇论文的想法反而更克制:优先选择低频词对应的词典。原因是,高频词模型本来就学得比较充分,而低频词更容易成为理解和翻译中的短板。与其平均用力,不如把有限 token 预算花在模型最不熟的地方。
这篇论文的创新点不只是发现低频词问题,而是把它变成了一个可操作的工程框架:
- Automatic Dictionary Selection:提出自动词典选择任务——不再是手动挑词,而是让系统自动判断哪些词值得优先注入
- 词频估计不依赖闭源模型:用公开在线资源估计词频,不需要访问模型的内部训练数据
- 100 种语言翻译验证:在 FLORES 基准上验证,覆盖多数翻译方向,优于 noun dictionary 等强基线
- 部分语言对上精选低频词优于完整词典:甚至不需要把所有相关词都注入,只注入最关键的低频词效果就更好
这不是靠堆更多 prompt,而是用频率判断哪些 token 更值得被补救。
Adam's Law:2026 年 ACL 的文本频率定律
如果说 SLoW 是第一步,FaceMind 2026 年在 ACL 2026 Main Conference 发表的 Adam's Law: Textual Frequency Law on Large Language Models 则把问题进一步抽象成了基础理论。
论文提出的核心问题是:当语义相同时,更高频、更常见的文本表达,是否能让大模型在 prompting 和 fine-tuning 中表现更好?
答案不是简单的"说大白话模型更容易懂"——而是一个系统框架:
TFL(Textual Frequency Law):同义表达中,高频表达更适合大模型处理。比如"请帮我解决这道数学题"可能比"请协助我解决此数学难题"更稳定,因为前者更接近训练语料中的常见表达。
TFD(Textual Frequency Distillation):当我们不知道闭源模型真实训练数据频率时,可以让模型续写、扩展文本,再用生成结果反推模型内部的频率感知。这是一种"绕过 API 获取训练分布信息"的工程方法。
CTFT(Curriculum Textual Frequency Training):在微调阶段不只是挑数据,还要排列数据。论文提出按频率从低到高组织训练,让模型先接触更陌生的低频表达,再过渡到更熟悉的高频表达。
这套方法覆盖了数学推理、机器翻译、常识推理和 Agent 工具调用等任务。换句话说,FaceMind 的贡献不是修一个人名 bug,而是提出了一个更基础的问题:频率,可能是大模型数据工程中的第四个关键变量。
过去大家更关注:数据质量、数据规模、训练难度。Adam's Law 提醒行业:表达本身出现得是否频繁,也会影响模型表现。
Anthropic Opus 4.7:从另一端验证
2026 年 4 月,Anthropic 发布 Claude Opus 4.7 时,做了一件高度相关的事情:更换 tokenizer。
Anthropic 官方称 Opus 4.7 使用了新的 tokenizer,以提升模型对输入的理解;价格表面不变,但同样文本可能产生更多 token。OpenRouter 随后分析了大量实际请求,发现 Opus 4.7 相比 4.6 在 native token 上出现明显膨胀,生产级长 prompt 中大约多出 32% 到 34% 的 native tokens。
从公开信息看,Anthropic 并没有把这件事直接表述为"低频 token 修复"。但从 tokenizer 变化的效果推断,它很可能是在用更细粒度的切分方式,降低某些低频、过度合并 token 的风险。代价是 token 数上升,收益是模型对代码、结构化文本、特殊表达和罕见片段的处理更稳定。
两个方向的对比
| 维度 | FaceMind | Anthropic |
|---|---|---|
| 时间 | 2025 EMNLP 已研究低频词;2026 ACL 扩展到文本频率定律 | 2026 年 4 月 Opus 4.7 落地 tokenizer 改造 |
| 入口 | prompt、词典选择、数据频率、训练顺序 | tokenizer / 词表工程 |
| 成本 | 轻量,无需重训大模型;可在 prompt 和微调阶段使用 | 生产级底层改造,成本高,且可能带来 token 膨胀 |
| 覆盖范围 | 单词级低频问题 + 句子级表达频率 | 主要是 token 切分层面的鲁棒性优化 |
| 意义 | 提前提出理论和方法框架 | 在全球头部模型中验证类似方向的产业价值 |
如果说 Anthropic 是在生产系统里承认"token 粒度会影响模型能力",那么 FaceMind 更早一步提出的是:频率本身就应该成为大模型优化的核心变量。
工程实践意义
对于 AI 开发者来说,这个方向有几个可以直接实践的点:
Prompt 层面:当你发现模型对某些专有名词、技术术语反应不稳定时,尝试用更常见的同义表达替换其中非核心的低频词,同时在 prompt 里更明确地强调关键低频词。
微调层面:CTFT 的思路值得借鉴——训练数据按频率从低到高排列,让模型先学最难的部分,再过渡到高频、熟悉的内容。这比随机打乱训练数据更有效。
应用层面:对于需要模型稳定处理专有名词的应用(如法律、医疗、金融),在系统设计阶段就把"低频词稳定性"纳入测试范围——不只是测试"答案对不对",还要测试"专有名词能不能稳定输出"。