Yohei Nakajima 最近在 X 上抛出一个问题:关于 Agent 的状态管理、决策轨迹、上下文图谱,讨论很多,但有没有人见过真正优雅的实现原语?
回复很有意思——既复杂又 unfinished。
每个人都在重建同一套东西
很多聪明人各自在构建:
- 事件日志
- 记忆系统
- 图层
- 检索引擎
- 回放系统
- 状态机
- 轨迹基础设施
- 工作流运行时
- 自反思循环
但几乎所有人都有同一个感受:这还没真正解决。
不是"模型不够好"那种没解决。更像是:我们在为架构里的某个根本性缺失做补偿。
这个区别很重要。
无状态模型的代价
拉远视角看,当前很多 Agent 基础设施像是同一底层问题的不同补丁。
模型在轮次之间是无状态的。其他一切存在都是为了补偿这一点。
记忆系统补偿它。上下文图谱补偿它。决策轨迹补偿它。工作流引擎补偿它。多 Agent 系统补偿它。
它们都有帮助。但建了几年系统后,同一个模式反复出现:每个严肃的长期运行 Agent,最终都会重建大致相同的外围基础设施:
- 任务状态
- 事件日志
- 回放
- 审批
- 记忆
- 上下文检索
- 评估
- 重试
- 分支
- 溯源
- 能力追踪
实现方式千差万别,但问题的形状几乎一样。
"记忆"其实是好几件事
讨论中一个很清晰的观察:人们说"记忆"时,实际指的是几种完全不同的东西。
对话回溯是一回事。长期知识是另一回事。工具历史是另一回事。决策谱系是另一回事。能力演化是另一回事。状态重建是另一回事。
很多当前系统把这些扁平化揉在一起。但长期运行的 Agent 不只是记住文本——它在维护一个不断变化的模型:
- 它相信什么
- 它在做什么
- 什么变了
- 它有什么工具
- 什么失败了
- 什么成功了
- 接下来该做什么
- increasingly,是哪个版本的自己产生了这些结果
最后一点尤其重要。
Agent 不只是积累记忆,它在变异
Agent 获得工具。它精炼提示词。它改变策略。它改进工作流。它调整检索策略。它更新内部启发式。
一旦这开始发生,简单的"聊天记忆"就不够了。系统需要的不仅是信息的连续性,还有演化能力和对世界演化理解的连续性。
讨论中有一句话让人印象深刻:
事件捕获发生了什么,图谱代表是什么。
这感觉接近问题的真实形状。
事件溯源:简单但有效
很多构建者正在汇聚到事件溯源,因为事件很简单:
- 只追加
- 可回放
- 可调试
- 可版本化
一切变成事件:工具调用、LLM 响应、记忆写入、失败、审批、能力变更。然后状态从历史中重建。
这自然带来:回放、可审计性、谱系、可恢复性。
同时,基于图的系统显然也越来越重要。GraphRAG、知识图谱、FalkorDB、Graphiti 等方案已经证明,图在表示实体、关系、语义上下文、溯源、组织记忆和结构化知识检索方面极其有用。
这部分 increasingly 感觉被验证了。
图还能代表什么?
真正感觉未被充分探索的是:图能否不仅代表 Agent 的知识,还代表系统自身的演化操作状态?
这包括:任务、目标、能力、策略、失败、审批、矛盾、行为变更、评估、分支、轨迹,以及它们之间的关系。
这感觉和"记忆图"是不同类别。更像是:一个持久的操作基底。
分支:线性回放的死穴
一个反复出现的话题是分支。
线性回放相对容易。但长期运行的 Agent 很少线性运作。你需要:分叉假设、从更早的假设重试、比较策略、模拟替代方案、评估不同策略、分支推理路径。
这是很多事件溯源系统开始变 awkward 的地方。人们提到各种版本的:"它能用,直到你需要分支。"
这感觉是非常真实的观察。
纯线性轨迹适合回放发生了什么。但智能系统不只是回放——它们探索替代方案。
随着 Agent 变得更自主、更长期运行、更自我修改,这越来越重要。因为系统不只是改变它的信念,它在改变它自己。
人类不是反应式的,是有状态的
讨论中一个逐渐清晰的认识:我不再认为图是生态系统的薄弱环节。如果有什么,我觉得我们还在低估它们。
很多图系统今天主要用于:检索、实体关系、语义搜索、记忆组织。这已经很强了。
但更深的机会可能是把图当作演化操作状态本身的结构。不只是"什么实体存在",而是:
- 什么变了?
- 什么依赖什么?
- 什么是过时的?
- 什么被批准了?
- 什么失败了?
- 什么能力产生了这个结果?
- 什么应该接下来反应?
- 系统的哪个版本相信这个?
这感觉更接近长期运行 Agent 真正需要的东西。
瓶颈从推理质量转向架构
我越来越认为底层问题不是记忆。是连续性。
大多数当前 Agent 系统仍然根本上围绕反应组织:提示进、推理、输出出。甚至很多多 Agent 系统也主要是更复杂的反应链。
但人类不是根本上反应式的存在。我们是有状态的存在。
一条消息不会在孤立中产生回应。它扰动一个已存在的系统:信念、记忆、目标、习惯、未解决的任务、关系、积累的经验和历史。反应只是状态的一种表达。
这个区别对长期运行的 AI 系统越来越重要。尤其现在:模型正在实时化、Agent 正在持久化、工具使用正在原生化、系统正在从按请求运行变成持续运行。
瓶颈不再纯粹是推理质量。越来越感觉是架构性的。
老想法的复兴
讨论中一个令人鼓舞的发现:人们正在独立重新发现非常老的系统思想:
- 事件溯源
- Actor 系统
- 黑板架构
- 规则引擎
- 反应式系统
- 持久执行
- 图数据库
这不意味着我们在倒退。它可能意味着长期运行的 AI Agent 自然地推向与 older 分布式系统已经遇到过的相同需求:持久化、回放、协调、谱系、并发、分支、可恢复性。
Agent 生态从聊天开始,因为聊天是 LLM 最简单的接口。但对话可能不是持久智能的正确基底。
这感觉是所有这些项目底下正在发生的更深转变。
缺失的那一层
已经有很多强大的系统:LangGraph、Temporal、Zep、Cognee、GraphRAG 系统、自定义事件内核、工作流运行时、图记忆层、编排框架。
而且说实话,我认为生态系统学得很快。
但整体感觉仍然是:每个人都在用稍微不同的方式重建同一个缺失层。
有些系统以工作流为中心。有些以检索为中心。有些以事件为中心。有些以记忆为中心。有些以 Agent 为中心。有些以图为中心。
我当前的直觉是,缺失的东西可能是某种形式的:
持久的、反应式的、可检查的、演化的状态基底。
不只是记忆检索。而是一个能维护以下内容的系统:
- 它相信什么
- 什么变了
- 什么导致了什么
- 哪个版本的自己行动了
- 什么应该接下来反应
- 它自己的能力如何随时间演化
生态系统已经理解记忆重要。已经理解轨迹重要。已经理解图重要。
缺失的一步可能是:把这些不是当作 Agent 循环周围的独立系统,而是当作一个演化的操作基底。