← 返回 FEED
PAPER2026-04-22

ReasoningBank:Google 让 Agent 从失败中学习的记忆框架,WebArena 提升 8.3%

现有 Agent 记忆方案的问题

当前主流的 Agent 记忆系统面临一个结构性缺陷:要么存储完整的操作日志(信息量大但检索效率低),要么只记录成功的工作流(漏掉了失败中最有价值的教训)。

两种方案都没有解决一个核心问题:如何把具体的历史经历,转化为下次遇到相似情况时能直接复用的推理规则?

ReasoningBank 是 Google Cloud 研究员 Jun Yan 和 Chen-Yu Lee 提出的解法,发布于 2026 年 4 月 21 日。

ReasoningBank 的核心机制

记忆条目结构

每条记忆由三个元素构成:

  1. 标题:一句话概括核心策略
  2. 描述:简短的背景解释
  3. 推理步骤:从历史经历中蒸馏的决策逻辑,包含决策依据

这个结构的关键是第三点——不是存储"我做了什么",而是存储"我为什么这样做,以及这样做之前需要注意什么"。

连续反馈循环

系统运行时形成完整闭环:

  1. Agent 准备行动前,从记忆库检索相关记忆
  2. Agent 与环境交互,完成任务(或失败)
  3. LLM-as-judge 评估整个轨迹
  4. 从成功轨迹中提炼"有效策略",从失败轨迹中提炼"防御性规则"
  5. 新记忆写入记忆库,供下次检索

关键设计:失败经验是主要学习信号。一个典型的防御规则示例:"在尝试加载更多结果之前,先验证当前页面标识符,避免无限滚动陷阱"——这类规则只能从踩坑中得到,从成功案例中学不到。

Memory-Aware Test-Time Scaling(MaTTS)

测试时缩放(Test-Time Scaling)是让模型在推理时消耗更多计算来提高准确率的技术,在数学解题和竞争性编程中效果显著。但传统实现会丢弃探索过程中的"失败路径"——这些失败路径其实包含丰富的学习信号。

MaTTS 把这些探索轨迹直接输送给 ReasoningBank:

  • 并行缩放:同一查询生成多条不同轨迹,通过对比成功与失败路径提炼更鲁棒的策略
  • 顺序缩放:Agent 在单条轨迹内迭代改进,中间步骤的试错过程作为高质量记忆来源

这形成正向循环:高质量记忆引导探索向有希望的方向走,更丰富的探索反过来产生更好的记忆。

评测结果

测试用 Gemini-2.5-Flash 作为基础模型,ReAct 提示框架,对比三组基准:无记忆 Agent、Synapse 轨迹记忆、Agent Workflow Memory。

WebArena(Web 自动化)

  • ReasoningBank vs 无记忆:+8.3% 成功率
  • 加入并行缩放(k=5):额外 +3%,同时减少 0.4 步/任务

SWE-Bench-Verified(真实代码 Bug 修复)

  • ReasoningBank vs 无记忆:+4.6% 成功率
  • 每任务减少约 3 步操作(Agent 更"知道该怎么走")

记忆进化的涌现现象

研究者在评测中观察到一个有趣的现象:随着 Agent 积累经验,记忆的结构和复杂度自发升级。

早期记忆类似简单清单:"寻找页面链接。"

随着经验积累,同类记忆进化为:"先确认当前页面状态,若检测到分页结构,在点击之前验证链接有效性,若链接无效则回退到上级目录重新定位。"

这种从简单规则到复合预防性逻辑的演化,没有人工干预——完全由记忆框架自动完成。

开放资源

论文和开源代码通过 Google Research 官方渠道发布,支持社区在 agent 记忆和学习系统方向的进一步研究。