来自中国科学院与 EverMind AI 的研究团队在 ACL 2026 发表论文 HyperMem,提出一种基于**超图(Hypergraph)**的层级记忆架构,解决长期对话中 Agent 记忆碎片化的核心问题。

核心问题:成对关系的局限

现有 RAG 和图记忆方法依赖成对关系(pairwise relations)——边只能连接两个节点。这导致无法捕捉高阶关联(high-order associations):多个元素之间的联合依赖。

典型表现:

  • 一用户在三个月内断断续续讨论某个项目,中间穿插其他话题
  • 传统方法只能找到语义相似片段,无法建模「这四个片段其实都属于同一个隐含主题」
  • 检索结果碎片化,跨越时间的推理几乎不可能

HyperMem 三层架构

HyperMem 用**超边(hyperedge)**替代普通边——一条超边可以连接任意数量节点,由此显式建模高阶关联。

三层记忆结构:

1. Topic 层(主题)

跨长时间跨度、共享同一主题的对话片段聚合

Topic 节点作为语义锚点,让跨越数周乃至数月的相关讨论可以被一次检索命中,而不受时间碎片化影响。

2. Episode 层(片段)

时间上连续、描述一个连贯事件或子对话的对话段

保留事件的时序边界和完整性,同时将无关内容隔离在外。

3. Fact 层(事实)

从片段中提取的原子断言,作为精确检索的目标单元

每个 Fact 由自然语言表达(potential Fact)和关键词索引(keywords Fact)组成,支持语义检索和关键词精确匹配。

超边的连接方式:

  • ℰᴱ(Episode hyperedges):将属于同一 Topic 的所有 Episode 节点连接起来,权重反映每个 Episode 对主题的叙事贡献度
  • ℰᶠ(Fact hyperedges):将属于同一 Episode 的所有 Fact 节点连接起来

索引与检索

离线索引:混合词义-语义索引 + 超图 embedding 传播

每个节点同时建立两套索引:

  • BM25 稀疏索引:精确关键词匹配
  • Dense 向量索引:基于 Qwen3-Embedding-4B 的语义相似度

超图 embedding 传播是关键创新:

同一条超边连接的节点共享主题上下文,应该获得相似的 embedding 表示。通过聚合超边内所有节点的 embedding 来更新每个节点的表示:

h_e = Σ(α_e,v · h_v) # 超边 embedding = 加权节点聚合 h'_v = h_v + λ · Agg(h_e) # 节点 embedding + 超边信息

这种轻量级传播机制无需大规模微调,却能让语义相关的记忆即使在时间上相隔甚远,也能获得对齐的 embedding,从而支撑高阶关联的检索。

在线检索:粗到细(Coarse-to-Fine)三阶段

给定用户 query,检索沿 Topic → Episode → Fact 三层逐步收窄:

  1. Stage 1 - Topic Retrieval:用 RRF(Reciprocal Rank Fusion)融合 BM25 和向量索引排名,经 reranker 精排后取 top-k Topics
  2. Stage 2 - Episode Retrieval:每个命中 Topic 沿 Episode hyperedge 扩展到其包含的 Episodes,同样 RRF + reranker,取 top-k Episodes
  3. Stage 3 - Fact Retrieval:每个命中 Episode 沿 Fact hyperedge 扩展,取 top-k Facts 作为最终检索结果

这种逐层收窄的策略在保证召回的同时实现高效剪枝——最终输入 LLM 的上下文 token 量远小于穷举检索。

实验结果

LoCoMo 基准(多会话跨月对话 + 四类问题)上对比 12 个方法:

方法Single-hopMulti-hopTemporalOpen DomainOverall
GraphRAG79.5554.9650.1658.3367.60
LightRAG86.6884.0460.7571.8879.87
HippoRAG 286.4475.8978.5066.6781.62
HyperGraphRAG90.6180.8585.3670.8386.49
HyperMem96.0893.6289.7270.8392.73

全面超越现有方法,尤其在 Multi-hop(+9.58%)Single-hop(+5.47%) 上优势显著。

消融实验关键发现:

  • Episode Context 贡献最大(去掉下降 3.76%),说明片段级上下文对推理至关重要
  • Topic 层检索贡献 +0.72%,Topic 作为语义锚点的价值得到验证
  • 纯 Fact 检索始终比「Fact + Episode」低 3-4%,进一步印证层级结构的必要性

工程细节

  • Embedding:Qwen3-Embedding-4B
  • Reranker:Qwen3-Reranker-4B
  • 生成模型:GPT-4.1-mini with CoT prompting
  • 评估模型:GPT-4o-mini as judge
  • 检索参数:λ=0.5,top-10 Topics / top-10 Episodes / top-30 Facts
  • 开源状态:GitHub 即将发布