ReasoningBank：Google 让 Agent 从失败中学习的记忆框架，WebArena 提升 8.3%

现有 Agent 记忆方案的问题

当前主流的 Agent 记忆系统面临一个结构性缺陷：要么存储完整的操作日志（信息量大但检索效率低），要么只记录成功的工作流（漏掉了失败中最有价值的教训）。

两种方案都没有解决一个核心问题：如何把具体的历史经历，转化为下次遇到相似情况时能直接复用的推理规则？

ReasoningBank 是 Google Cloud 研究员 Jun Yan 和 Chen-Yu Lee 提出的解法，发布于 2026 年 4 月 21 日。

每条记忆由三个元素构成：

这个结构的关键是第三点——不是存储"我做了什么"，而是存储"我为什么这样做，以及这样做之前需要注意什么"。

系统运行时形成完整闭环：

关键设计：失败经验是主要学习信号。一个典型的防御规则示例："在尝试加载更多结果之前，先验证当前页面标识符，避免无限滚动陷阱"——这类规则只能从踩坑中得到，从成功案例中学不到。

测试时缩放（Test-Time Scaling）是让模型在推理时消耗更多计算来提高准确率的技术，在数学解题和竞争性编程中效果显著。但传统实现会丢弃探索过程中的"失败路径"——这些失败路径其实包含丰富的学习信号。

MaTTS 把这些探索轨迹直接输送给 ReasoningBank：

这形成正向循环：高质量记忆引导探索向有希望的方向走，更丰富的探索反过来产生更好的记忆。

测试用 Gemini-2.5-Flash 作为基础模型，ReAct 提示框架，对比三组基准：无记忆 Agent、Synapse 轨迹记忆、Agent Workflow Memory。

WebArena（Web 自动化）：

SWE-Bench-Verified（真实代码 Bug 修复）：

研究者在评测中观察到一个有趣的现象：随着 Agent 积累经验，记忆的结构和复杂度自发升级。

早期记忆类似简单清单："寻找页面链接。"

随着经验积累，同类记忆进化为："先确认当前页面状态，若检测到分页结构，在点击之前验证链接有效性，若链接无效则回退到上级目录重新定位。"

这种从简单规则到复合预防性逻辑的演化，没有人工干预——完全由记忆框架自动完成。

论文和开源代码通过 Google Research 官方渠道发布，支持社区在 agent 记忆和学习系统方向的进一步研究。