来自中国科学院与 EverMind AI 的研究团队在 ACL 2026 发表论文 HyperMem,提出一种基于**超图(Hypergraph)**的层级记忆架构,解决长期对话中 Agent 记忆碎片化的核心问题。
核心问题:成对关系的局限
现有 RAG 和图记忆方法依赖成对关系(pairwise relations)——边只能连接两个节点。这导致无法捕捉高阶关联(high-order associations):多个元素之间的联合依赖。
典型表现:
- 一用户在三个月内断断续续讨论某个项目,中间穿插其他话题
- 传统方法只能找到语义相似片段,无法建模「这四个片段其实都属于同一个隐含主题」
- 检索结果碎片化,跨越时间的推理几乎不可能
HyperMem 三层架构
HyperMem 用**超边(hyperedge)**替代普通边——一条超边可以连接任意数量节点,由此显式建模高阶关联。
三层记忆结构:
1. Topic 层(主题)
跨长时间跨度、共享同一主题的对话片段聚合
Topic 节点作为语义锚点,让跨越数周乃至数月的相关讨论可以被一次检索命中,而不受时间碎片化影响。
2. Episode 层(片段)
时间上连续、描述一个连贯事件或子对话的对话段
保留事件的时序边界和完整性,同时将无关内容隔离在外。
3. Fact 层(事实)
从片段中提取的原子断言,作为精确检索的目标单元
每个 Fact 由自然语言表达(potential Fact)和关键词索引(keywords Fact)组成,支持语义检索和关键词精确匹配。
超边的连接方式:
- ℰᴱ(Episode hyperedges):将属于同一 Topic 的所有 Episode 节点连接起来,权重反映每个 Episode 对主题的叙事贡献度
- ℰᶠ(Fact hyperedges):将属于同一 Episode 的所有 Fact 节点连接起来
索引与检索
离线索引:混合词义-语义索引 + 超图 embedding 传播
每个节点同时建立两套索引:
- BM25 稀疏索引:精确关键词匹配
- Dense 向量索引:基于 Qwen3-Embedding-4B 的语义相似度
超图 embedding 传播是关键创新:
同一条超边连接的节点共享主题上下文,应该获得相似的 embedding 表示。通过聚合超边内所有节点的 embedding 来更新每个节点的表示:
h_e = Σ(α_e,v · h_v) # 超边 embedding = 加权节点聚合
h'_v = h_v + λ · Agg(h_e) # 节点 embedding + 超边信息
这种轻量级传播机制无需大规模微调,却能让语义相关的记忆即使在时间上相隔甚远,也能获得对齐的 embedding,从而支撑高阶关联的检索。
在线检索:粗到细(Coarse-to-Fine)三阶段
给定用户 query,检索沿 Topic → Episode → Fact 三层逐步收窄:
- Stage 1 - Topic Retrieval:用 RRF(Reciprocal Rank Fusion)融合 BM25 和向量索引排名,经 reranker 精排后取 top-k Topics
- Stage 2 - Episode Retrieval:每个命中 Topic 沿 Episode hyperedge 扩展到其包含的 Episodes,同样 RRF + reranker,取 top-k Episodes
- Stage 3 - Fact Retrieval:每个命中 Episode 沿 Fact hyperedge 扩展,取 top-k Facts 作为最终检索结果
这种逐层收窄的策略在保证召回的同时实现高效剪枝——最终输入 LLM 的上下文 token 量远小于穷举检索。
实验结果
在 LoCoMo 基准(多会话跨月对话 + 四类问题)上对比 12 个方法:
| 方法 | Single-hop | Multi-hop | Temporal | Open Domain | Overall |
|---|---|---|---|---|---|
| GraphRAG | 79.55 | 54.96 | 50.16 | 58.33 | 67.60 |
| LightRAG | 86.68 | 84.04 | 60.75 | 71.88 | 79.87 |
| HippoRAG 2 | 86.44 | 75.89 | 78.50 | 66.67 | 81.62 |
| HyperGraphRAG | 90.61 | 80.85 | 85.36 | 70.83 | 86.49 |
| HyperMem | 96.08 | 93.62 | 89.72 | 70.83 | 92.73 |
全面超越现有方法,尤其在 Multi-hop(+9.58%) 和 Single-hop(+5.47%) 上优势显著。
消融实验关键发现:
- Episode Context 贡献最大(去掉下降 3.76%),说明片段级上下文对推理至关重要
- Topic 层检索贡献 +0.72%,Topic 作为语义锚点的价值得到验证
- 纯 Fact 检索始终比「Fact + Episode」低 3-4%,进一步印证层级结构的必要性
工程细节
- Embedding:Qwen3-Embedding-4B
- Reranker:Qwen3-Reranker-4B
- 生成模型:GPT-4.1-mini with CoT prompting
- 评估模型:GPT-4o-mini as judge
- 检索参数:λ=0.5,top-10 Topics / top-10 Episodes / top-30 Facts
- 开源状态:GitHub 即将发布
HyperMem 的核心创新不是「用超图」这个形式,而是**用超边建模主题内多片段联合依赖**这个视角——这直接命中了现有 GraphRAG 只能建模二元关系的痛点。值得注意的是,它仍然依赖 LLM 做 Episode Detection 和 Fact Extraction,这既是工程化的便利(无需额外训练),也是潜在瓶颈(每次对话流都要调 LLM)。更值得关注的是消融结论:**Episode Context 的价值远大于 Topic Retrieval 本身**——这说明在 Agent 记忆系统里,时序片段的完整性比主题聚合更有检索价值。另外,EverMind AI 这家公司同时出现在 HyperMem、HiTw93 的 AI 写作流文章里、还有之前 @ashwingop 那篇语义记忆文章——这不是巧合,说明 EverMind AI 正在系统性地在 Agent Memory 这个赛道上做研究、工程、产品三位一体的布局。