Fabric 的团队开发了一个新的记忆系统,今天宣布将其独立为产品:Exabase M-1。
这个成果的震撼之处在于数字:用 Gemini 3 Flash(比 Pro 便宜 4-6 倍的小模型)跑出来的 M-1,在 LongMemEval benchmark 上超越了所有使用 Gemini 3 Pro 的系统。
AI 记忆的根本问题
当前 AI 记忆系统的通病:记住越多,表现越差。检索崩溃,上下文膨胀,模型开始在自己的记忆里产生幻觉。
这不是小问题。如果连创造者都不能信任记忆系统的输出,就没法真正用它做产品。
最常见的解法是给更大的模型——但这只是把问题往后推,而且成本高。这不是真正的记忆系统。
M-1 的成绩
- 100% 单会话召回率
- 94% 多会话推理(最难的部分)
- 在所有检索深度上表现一致,意味着是检索在做功,不是靠上下文窗口撑场面
- LongMemEval 榜单第一,使用比竞品便宜 4-6 倍的模型
超过约 96% 之后,benchmark 本身出现了问题:模糊的问题、数据集的标注错误、以及过于狭窄的期望答案在基准上制造了一个噪声地板。如果得分更高,可能只是在答 benchmark 本身答错了的题——只是以一种更复杂的方式错了。
核心洞察:检索比上下文重要
模型进步会让上下文窗口变大,模型本身会变聪明——但一个在你的数据中心里的天才,如果喂进去的都是噪声,也没什么用。有效的记忆和检索是真正的问题,不能靠模型进步来硬推。
这就是为什么 M-1 的方向有价值:不是给模型更多上下文,而是建一个更准的检索层,让模型在需要什么的时候能拿到对的,而不是在庞大的上下文里自己找。
M-1 已上线,作为 Fabric 的记忆层,支撑着 30 万+用户。