Exabase M-1：96.4% 召回率，用更小更便宜的模型刷新 AI 记忆 benchmark

Fabric 的团队开发了一个新的记忆系统，今天宣布将其独立为产品：Exabase M-1。

这个成果的震撼之处在于数字：用 Gemini 3 Flash（比 Pro 便宜 4-6 倍的小模型）跑出来的 M-1，在 LongMemEval benchmark 上超越了所有使用 Gemini 3 Pro 的系统。

AI 记忆的根本问题

当前 AI 记忆系统的通病：记住越多，表现越差。检索崩溃，上下文膨胀，模型开始在自己的记忆里产生幻觉。

这不是小问题。如果连创造者都不能信任记忆系统的输出，就没法真正用它做产品。

最常见的解法是给更大的模型——但这只是把问题往后推，而且成本高。这不是真正的记忆系统。

超过约 96% 之后，benchmark 本身出现了问题：模糊的问题、数据集的标注错误、以及过于狭窄的期望答案在基准上制造了一个噪声地板。如果得分更高，可能只是在答 benchmark 本身答错了的题——只是以一种更复杂的方式错了。

模型进步会让上下文窗口变大，模型本身会变聪明——但一个在你的数据中心里的天才，如果喂进去的都是噪声，也没什么用。有效的记忆和检索是真正的问题，不能靠模型进步来硬推。

这就是为什么 M-1 的方向有价值：不是给模型更多上下文，而是建一个更准的检索层，让模型在需要什么的时候能拿到对的，而不是在庞大的上下文里自己找。

M-1 已上线，作为 Fabric 的记忆层，支撑着 30 万+用户。