AI Agent 的状态困境：为什么所有基础设施都在修补同一个缺口

Yohei Nakajima 最近在 X 上抛出一个问题：关于 Agent 的状态管理、决策轨迹、上下文图谱，讨论很多，但有没有人见过真正优雅的实现原语？

回复很有意思——既复杂又 unfinished。

每个人都在重建同一套东西

很多聪明人各自在构建：

事件日志
记忆系统
图层
检索引擎
回放系统
状态机
轨迹基础设施
工作流运行时
自反思循环

但几乎所有人都有同一个感受：这还没真正解决。

不是"模型不够好"那种没解决。更像是：我们在为架构里的某个根本性缺失做补偿。

这个区别很重要。

无状态模型的代价

拉远视角看，当前很多 Agent 基础设施像是同一底层问题的不同补丁。

模型在轮次之间是无状态的。其他一切存在都是为了补偿这一点。

记忆系统补偿它。上下文图谱补偿它。决策轨迹补偿它。工作流引擎补偿它。多 Agent 系统补偿它。

它们都有帮助。但建了几年系统后，同一个模式反复出现：每个严肃的长期运行 Agent，最终都会重建大致相同的外围基础设施：

任务状态
事件日志
回放
审批
记忆
上下文检索
评估
重试
分支
溯源
能力追踪

实现方式千差万别，但问题的形状几乎一样。

"记忆"其实是好几件事

讨论中一个很清晰的观察：人们说"记忆"时，实际指的是几种完全不同的东西。

对话回溯是一回事。长期知识是另一回事。工具历史是另一回事。决策谱系是另一回事。能力演化是另一回事。状态重建是另一回事。

很多当前系统把这些扁平化揉在一起。但长期运行的 Agent 不只是记住文本——它在维护一个不断变化的模型：

它相信什么
它在做什么
什么变了
它有什么工具
什么失败了
什么成功了
接下来该做什么
increasingly，是哪个版本的自己产生了这些结果

最后一点尤其重要。

Agent 不只是积累记忆，它在变异

Agent 获得工具。它精炼提示词。它改变策略。它改进工作流。它调整检索策略。它更新内部启发式。

一旦这开始发生，简单的"聊天记忆"就不够了。系统需要的不仅是信息的连续性，还有演化能力和对世界演化理解的连续性。

讨论中有一句话让人印象深刻：

事件捕获发生了什么，图谱代表是什么。

这感觉接近问题的真实形状。

事件溯源：简单但有效

很多构建者正在汇聚到事件溯源，因为事件很简单：

只追加
可回放
可调试
可版本化

一切变成事件：工具调用、LLM 响应、记忆写入、失败、审批、能力变更。然后状态从历史中重建。

这自然带来：回放、可审计性、谱系、可恢复性。

同时，基于图的系统显然也越来越重要。GraphRAG、知识图谱、FalkorDB、Graphiti 等方案已经证明，图在表示实体、关系、语义上下文、溯源、组织记忆和结构化知识检索方面极其有用。

这部分 increasingly 感觉被验证了。

图还能代表什么？

真正感觉未被充分探索的是：图能否不仅代表 Agent 的知识，还代表系统自身的演化操作状态？

这包括：任务、目标、能力、策略、失败、审批、矛盾、行为变更、评估、分支、轨迹，以及它们之间的关系。

这感觉和"记忆图"是不同类别。更像是：一个持久的操作基底。

分支：线性回放的死穴

一个反复出现的话题是分支。

线性回放相对容易。但长期运行的 Agent 很少线性运作。你需要：分叉假设、从更早的假设重试、比较策略、模拟替代方案、评估不同策略、分支推理路径。

这是很多事件溯源系统开始变 awkward 的地方。人们提到各种版本的："它能用，直到你需要分支。"

这感觉是非常真实的观察。

纯线性轨迹适合回放发生了什么。但智能系统不只是回放——它们探索替代方案。

随着 Agent 变得更自主、更长期运行、更自我修改，这越来越重要。因为系统不只是改变它的信念，它在改变它自己。

人类不是反应式的，是有状态的

讨论中一个逐渐清晰的认识：我不再认为图是生态系统的薄弱环节。如果有什么，我觉得我们还在低估它们。

很多图系统今天主要用于：检索、实体关系、语义搜索、记忆组织。这已经很强了。

但更深的机会可能是把图当作演化操作状态本身的结构。不只是"什么实体存在"，而是：

什么变了？
什么依赖什么？
什么是过时的？
什么被批准了？
什么失败了？
什么能力产生了这个结果？
什么应该接下来反应？
系统的哪个版本相信这个？

这感觉更接近长期运行 Agent 真正需要的东西。

瓶颈从推理质量转向架构

我越来越认为底层问题不是记忆。是连续性。

大多数当前 Agent 系统仍然根本上围绕反应组织：提示进、推理、输出出。甚至很多多 Agent 系统也主要是更复杂的反应链。

但人类不是根本上反应式的存在。我们是有状态的存在。

一条消息不会在孤立中产生回应。它扰动一个已存在的系统：信念、记忆、目标、习惯、未解决的任务、关系、积累的经验和历史。反应只是状态的一种表达。

这个区别对长期运行的 AI 系统越来越重要。尤其现在：模型正在实时化、Agent 正在持久化、工具使用正在原生化、系统正在从按请求运行变成持续运行。

瓶颈不再纯粹是推理质量。越来越感觉是架构性的。

老想法的复兴

讨论中一个令人鼓舞的发现：人们正在独立重新发现非常老的系统思想：

事件溯源
Actor 系统
黑板架构
规则引擎
反应式系统
持久执行
图数据库

这不意味着我们在倒退。它可能意味着长期运行的 AI Agent 自然地推向与 older 分布式系统已经遇到过的相同需求：持久化、回放、协调、谱系、并发、分支、可恢复性。

Agent 生态从聊天开始，因为聊天是 LLM 最简单的接口。但对话可能不是持久智能的正确基底。

这感觉是所有这些项目底下正在发生的更深转变。

缺失的那一层

已经有很多强大的系统：LangGraph、Temporal、Zep、Cognee、GraphRAG 系统、自定义事件内核、工作流运行时、图记忆层、编排框架。

而且说实话，我认为生态系统学得很快。

但整体感觉仍然是：每个人都在用稍微不同的方式重建同一个缺失层。

有些系统以工作流为中心。有些以检索为中心。有些以事件为中心。有些以记忆为中心。有些以 Agent 为中心。有些以图为中心。

我当前的直觉是，缺失的东西可能是某种形式的：

持久的、反应式的、可检查的、演化的状态基底。

不只是记忆检索。而是一个能维护以下内容的系统：

它相信什么
什么变了
什么导致了什么
哪个版本的自己行动了
什么应该接下来反应
它自己的能力如何随时间演化

生态系统已经理解记忆重要。已经理解轨迹重要。已经理解图重要。

缺失的一步可能是：把这些不是当作 Agent 循环周围的独立系统，而是当作一个演化的操作基底。