现有 Agent 记忆方案的问题
当前主流的 Agent 记忆系统面临一个结构性缺陷:要么存储完整的操作日志(信息量大但检索效率低),要么只记录成功的工作流(漏掉了失败中最有价值的教训)。
两种方案都没有解决一个核心问题:如何把具体的历史经历,转化为下次遇到相似情况时能直接复用的推理规则?
ReasoningBank 是 Google Cloud 研究员 Jun Yan 和 Chen-Yu Lee 提出的解法,发布于 2026 年 4 月 21 日。
ReasoningBank 的核心机制
记忆条目结构
每条记忆由三个元素构成:
- 标题:一句话概括核心策略
- 描述:简短的背景解释
- 推理步骤:从历史经历中蒸馏的决策逻辑,包含决策依据
这个结构的关键是第三点——不是存储"我做了什么",而是存储"我为什么这样做,以及这样做之前需要注意什么"。
连续反馈循环
系统运行时形成完整闭环:
- Agent 准备行动前,从记忆库检索相关记忆
- Agent 与环境交互,完成任务(或失败)
- LLM-as-judge 评估整个轨迹
- 从成功轨迹中提炼"有效策略",从失败轨迹中提炼"防御性规则"
- 新记忆写入记忆库,供下次检索
关键设计:失败经验是主要学习信号。一个典型的防御规则示例:"在尝试加载更多结果之前,先验证当前页面标识符,避免无限滚动陷阱"——这类规则只能从踩坑中得到,从成功案例中学不到。
Memory-Aware Test-Time Scaling(MaTTS)
测试时缩放(Test-Time Scaling)是让模型在推理时消耗更多计算来提高准确率的技术,在数学解题和竞争性编程中效果显著。但传统实现会丢弃探索过程中的"失败路径"——这些失败路径其实包含丰富的学习信号。
MaTTS 把这些探索轨迹直接输送给 ReasoningBank:
- 并行缩放:同一查询生成多条不同轨迹,通过对比成功与失败路径提炼更鲁棒的策略
- 顺序缩放:Agent 在单条轨迹内迭代改进,中间步骤的试错过程作为高质量记忆来源
这形成正向循环:高质量记忆引导探索向有希望的方向走,更丰富的探索反过来产生更好的记忆。
评测结果
测试用 Gemini-2.5-Flash 作为基础模型,ReAct 提示框架,对比三组基准:无记忆 Agent、Synapse 轨迹记忆、Agent Workflow Memory。
WebArena(Web 自动化):
- ReasoningBank vs 无记忆:+8.3% 成功率
- 加入并行缩放(k=5):额外 +3%,同时减少 0.4 步/任务
SWE-Bench-Verified(真实代码 Bug 修复):
- ReasoningBank vs 无记忆:+4.6% 成功率
- 每任务减少约 3 步操作(Agent 更"知道该怎么走")
记忆进化的涌现现象
研究者在评测中观察到一个有趣的现象:随着 Agent 积累经验,记忆的结构和复杂度自发升级。
早期记忆类似简单清单:"寻找页面链接。"
随着经验积累,同类记忆进化为:"先确认当前页面状态,若检测到分页结构,在点击之前验证链接有效性,若链接无效则回退到上级目录重新定位。"
这种从简单规则到复合预防性逻辑的演化,没有人工干预——完全由记忆框架自动完成。
开放资源
论文和开源代码通过 Google Research 官方渠道发布,支持社区在 agent 记忆和学习系统方向的进一步研究。