Anthropic 与"马嘉祺"事件：低频 Token 退化问题与文本频率定律

大模型并不是只会在复杂推理上出错。它甚至可能叫不出一个人的名字。

MiniMax M2 系列模型在生成"马嘉祺"这个人名时出现异常。后续复盘发现，这不是模型"不知道"这个人，而是后训练阶段的低频 token 退化：模型并不是完全不知道这个人，只是在后训练过程中，某些低频 token 因为样本太少、更新不足，被高频 token 的训练信号"挤压"，最终变得难以稳定输出。

这听起来像一次偶发事故。但如果把视角拉远，它暴露了大模型训练中的一个基础问题：模型不是平等地理解所有文字。它更擅长处理训练中更常见、更高频的表达。

而这事情，早在 2025 年就已经被脸谱心智 FaceMind 的团队系统研究过。

SLoW：2025 年 EMNLP 的低频词论文

脸谱心智 FaceMind 的陆弘远团队，在 2025 年的 EMNLP 发表论文 SLoW：《Select Low-frequency Words! Automatic Dictionary Selection for Translation on Large Language Models》。

论文提出的核心问题很朴素：在机器翻译任务中，如果我们要给大模型加词典提示，应该加哪些词？

传统做法是"能加就加"——把所有相关词典都塞进 prompt。但这篇论文的想法反而更克制：优先选择低频词对应的词典。原因是，高频词模型本来就学得比较充分，而低频词更容易成为理解和翻译中的短板。与其平均用力，不如把有限 token 预算花在模型最不熟的地方。

这篇论文的创新点不只是发现低频词问题，而是把它变成了一个可操作的工程框架：

Automatic Dictionary Selection：提出自动词典选择任务——不再是手动挑词，而是让系统自动判断哪些词值得优先注入
词频估计不依赖闭源模型：用公开在线资源估计词频，不需要访问模型的内部训练数据
100 种语言翻译验证：在 FLORES 基准上验证，覆盖多数翻译方向，优于 noun dictionary 等强基线
部分语言对上精选低频词优于完整词典：甚至不需要把所有相关词都注入，只注入最关键的低频词效果就更好

这不是靠堆更多 prompt，而是用频率判断哪些 token 更值得被补救。

Adam's Law：2026 年 ACL 的文本频率定律

如果说 SLoW 是第一步，FaceMind 2026 年在 ACL 2026 Main Conference 发表的 Adam's Law: Textual Frequency Law on Large Language Models 则把问题进一步抽象成了基础理论。

论文提出的核心问题是：当语义相同时，更高频、更常见的文本表达，是否能让大模型在 prompting 和 fine-tuning 中表现更好？

答案不是简单的"说大白话模型更容易懂"——而是一个系统框架：

TFL（Textual Frequency Law）：同义表达中，高频表达更适合大模型处理。比如"请帮我解决这道数学题"可能比"请协助我解决此数学难题"更稳定，因为前者更接近训练语料中的常见表达。

TFD（Textual Frequency Distillation）：当我们不知道闭源模型真实训练数据频率时，可以让模型续写、扩展文本，再用生成结果反推模型内部的频率感知。这是一种"绕过 API 获取训练分布信息"的工程方法。

CTFT（Curriculum Textual Frequency Training）：在微调阶段不只是挑数据，还要排列数据。论文提出按频率从低到高组织训练，让模型先接触更陌生的低频表达，再过渡到更熟悉的高频表达。

这套方法覆盖了数学推理、机器翻译、常识推理和 Agent 工具调用等任务。换句话说，FaceMind 的贡献不是修一个人名 bug，而是提出了一个更基础的问题：频率，可能是大模型数据工程中的第四个关键变量。

过去大家更关注：数据质量、数据规模、训练难度。Adam's Law 提醒行业：表达本身出现得是否频繁，也会影响模型表现。

Anthropic Opus 4.7：从另一端验证

2026 年 4 月，Anthropic 发布 Claude Opus 4.7 时，做了一件高度相关的事情：更换 tokenizer。

Anthropic 官方称 Opus 4.7 使用了新的 tokenizer，以提升模型对输入的理解；价格表面不变，但同样文本可能产生更多 token。OpenRouter 随后分析了大量实际请求，发现 Opus 4.7 相比 4.6 在 native token 上出现明显膨胀，生产级长 prompt 中大约多出 32% 到 34% 的 native tokens。

从公开信息看，Anthropic 并没有把这件事直接表述为"低频 token 修复"。但从 tokenizer 变化的效果推断，它很可能是在用更细粒度的切分方式，降低某些低频、过度合并 token 的风险。代价是 token 数上升，收益是模型对代码、结构化文本、特殊表达和罕见片段的处理更稳定。

两个方向的对比

维度	FaceMind	Anthropic
时间	2025 EMNLP 已研究低频词；2026 ACL 扩展到文本频率定律	2026 年 4 月 Opus 4.7 落地 tokenizer 改造
入口	prompt、词典选择、数据频率、训练顺序	tokenizer / 词表工程
成本	轻量，无需重训大模型；可在 prompt 和微调阶段使用	生产级底层改造，成本高，且可能带来 token 膨胀
覆盖范围	单词级低频问题 + 句子级表达频率	主要是 token 切分层面的鲁棒性优化
意义	提前提出理论和方法框架	在全球头部模型中验证类似方向的产业价值

如果说 Anthropic 是在生产系统里承认"token 粒度会影响模型能力"，那么 FaceMind 更早一步提出的是：频率本身就应该成为大模型优化的核心变量。

工程实践意义

对于 AI 开发者来说，这个方向有几个可以直接实践的点：

Prompt 层面：当你发现模型对某些专有名词、技术术语反应不稳定时，尝试用更常见的同义表达替换其中非核心的低频词，同时在 prompt 里更明确地强调关键低频词。

微调层面：CTFT 的思路值得借鉴——训练数据按频率从低到高排列，让模型先学最难的部分，再过渡到高频、熟悉的内容。这比随机打乱训练数据更有效。

应用层面：对于需要模型稳定处理专有名词的应用（如法律、医疗、金融），在系统设计阶段就把"低频词稳定性"纳入测试范围——不只是测试"答案对不对"，还要测试"专有名词能不能稳定输出"。

SLoW：2025 年 EMNLP 的低频词论文

Adam's Law：2026 年 ACL 的文本频率定律

Anthropic Opus 4.7：从另一端验证

两个方向的对比

工程实践意义

继续阅读