Exabase M-1：如何用更小更便宜的模型刷新 AI 记忆系统纪录

Fabric 团队在构建应用内记忆系统的过程中，意外地发现了一个新的 AI 记忆系统前沿：96.4% 的准确率，使用的是更小、更便宜的模型。

背景问题

AI 记忆有一个反直觉的特性：记住得越多，表现越差。

检索崩溃、上下文膨胀、模型开始对自己的记忆产生幻觉。你无法信任它——而如果你无法信任它，你就无法使用它。

最常见的解决方案是用更大的模型，但这是一个昂贵且不准确的 hack——它绝对不是记忆系统。

用 Gemini 3 Flash（更小更便宜的模型）运行 M-1，得分超过所有使用 Gemini 3 Pro 的系统。

M-1 的检索足够精确，即使是小模型也能 consistently 得到正确答案。没有 prompt hacking，没有 cherry-picked 的并行运行，没有针对特定问题的调优。一个 prompt，一个模型，一次运行。

硬数字：

模型上下文窗口会不断增长，模型会不断变得更智能——但往你的数据中心里塞一个天才，如果喂进去的都是噪音，那也毫无意义。有效的记忆和检索是真正的问题，不能被模型进步 alone 所蒸汽压（steamrolled）。

当分数超过 ~96% 时，开始触及基准的上限：模糊的问题、数据集中的错误、以及过于狭窄的期望答案设定了进步中的噪音底线。如果你得分更高，说明你在回答基准本身答错的问题。在一个有缺陷的考试中得到满分，意味着你错了，只是以一种更奇异的方式。

AI 记忆系统的核心挑战不是"存储更多"，而是"检索更准"。Exabase M-1 的关键洞察是把记忆质量和模型大小解耦——通过精确的检索机制，让小模型在记忆任务上超越大模型。这个方向比"扩大上下文窗口"更根本，因为上下文窗口的增长解决的是"装得下"的问题，而解决不了"找得对"的问题。