Ramp Labs 近日发布 Latent Briefing——一种在模型表征层面直接压缩 KV Cache、实现多 Agent 间高效记忆共享的方法。该方案在 LongBench v2 基准测试中,将 Worker 模型 token 消耗降低了 65%,同时保持甚至提升了准确率。

该帖获得 116K 次浏览、1301 次收藏,是近期 Agent 工程领域最值得关注的技术分享之一。

问题:递归 Agent 的 Token 爆炸

研究团队基于 Recursive Language Model(RLM) 框架构建多 Agent 系统——Orchestrator 将任务分解后反复调用 Worker 模型。在 RLM 中,每次 Orchestrator 的推理轨迹都在累积:验证过的假设、识别出的段落、死胡同、跨引用发现。这些信息对 Worker 本应极有价值,但标准做法是只传递"定向查询 + 原始文档",导致 Token 爆炸:

  • Orchestrator 推理轨迹越来越长
  • 每轮调用都重复传递大量冗余 context
  • Worker 只看到问题的窄视图,Orchestrator 的全局理解完全浪费

现有解决方案都有明显缺陷:

方案延迟问题
LLM 摘要20–60s/步慢,有信息损失
RAG / 检索切块丢失跨块依赖
传递全部 context贵,慢,准确率下降

核心方法:Latent Briefing

Latent Briefing 的核心洞察是:直接操作模型 KV Cache,而非在文本层面处理

不是用另一个 LLM 做摘要,也不是用 RAG 做检索,而是分析目标 Worker 模型的注意力模式,识别哪些 KV 缓存条目对当前任务是重要的,在表征层面直接丢弃其余部分。

关键指标:

  • 中等长度文档(32k–100k token)最高节省 49% token
  • Worker 模型 token 消耗整体降低 65%
  • 压缩延迟 ~1.7s,随输入长度线性增长

对比现有方法的优势:

  • 比 LLM 摘要快 10–30 倍(~1.7s vs. 20–60s)
  • 比 RAG 精确:保留完整跨文档依赖关系,不损失语义
  • 任务自适应:不同查询对同一份 context 压缩结果不同

技术细节

Latent Briefing 建立在 AM Compaction Framework 之上。核心观察是:对于 RLM 这类多 Agent 系统,Orchestrator 在多次调用中积累的推理轨迹( hypotheses tested、passages identified、dead ends eliminated)本质上是 Worker 模型回答问题所需的关键上下文,但直接以文本形式传递会导致 token 爆炸。

用注意力模式做压缩的好处是:保留 token 之间的语义关联结构,不引入文本摘要的离散化损失。

对多 Agent 系统的意义

随着 Agent 架构深度和宽度增长,跨 Agent context 管理正在成为系统瓶颈。Token 消耗在 Agent 调用链中复合增长,效率成为系统设计中的一阶关注点。

Latent Briefing 的方向说明:多 Agent 系统的效率优化,不仅在于单个模型的 intelligence-per-token,更在于跨 Agent 的 token 使用效率——这是 Agent 工程下一步的关键战场。