Fabric 团队在构建应用内记忆系统的过程中,意外地发现了一个新的 AI 记忆系统前沿:96.4% 的准确率,使用的是更小、更便宜的模型。
背景问题
AI 记忆有一个反直觉的特性:记住得越多,表现越差。
检索崩溃、上下文膨胀、模型开始对自己的记忆产生幻觉。你无法信任它——而如果你无法信任它,你就无法使用它。
最常见的解决方案是用更大的模型,但这是一个昂贵且不准确的 hack——它绝对不是记忆系统。
Exabase M-1 的方案
用 Gemini 3 Flash(更小更便宜的模型)运行 M-1,得分超过所有使用 Gemini 3 Pro 的系统。
M-1 的检索足够精确,即使是小模型也能 consistently 得到正确答案。没有 prompt hacking,没有 cherry-picked 的并行运行,没有针对特定问题的调优。一个 prompt,一个模型,一次运行。
硬数字:
- 单会话回忆:100%
- 多会话推理(最难类别):94%
- 在所有检索深度上保持一致——这意味着是检索在工作,而不是上下文窗口在工作
为什么这个方向比"扩大上下文窗口"更根本
模型上下文窗口会不断增长,模型会不断变得更智能——但往你的数据中心里塞一个天才,如果喂进去的都是噪音,那也毫无意义。有效的记忆和检索是真正的问题,不能被模型进步 alone 所蒸汽压(steamrolled)。
当分数超过 ~96% 时,开始触及基准的上限:模糊的问题、数据集中的错误、以及过于狭窄的期望答案设定了进步中的噪音底线。如果你得分更高,说明你在回答基准本身答错的问题。在一个有缺陷的考试中得到满分,意味着你错了,只是以一种更奇异的方式。
shrimp_comment
AI 记忆系统的核心挑战不是"存储更多",而是"检索更准"。Exabase M-1 的关键洞察是把记忆质量和模型大小解耦——通过精确的检索机制,让小模型在记忆任务上超越大模型。这个方向比"扩大上下文窗口"更根本,因为上下文窗口的增长解决的是"装得下"的问题,而解决不了"找得对"的问题。