← 返回 FEED
AGENT2026-04-21

RLM:新一代推理模型

什么是 RLM

RLM(Recursive Language Model)由 Alex Zhang 等人在 2025 年 10 月提出,核心思想一句话:语言模型把输入 Prompt 视为一个环境,而非固定字符串。

具体做法:根 LM 获得一个 REPL,其中 prompt 被绑定到一个变量,模型可以编程方式检查、切分、按区域划分。当它认定某个区域值得细看时,发起一个递归子调用——调用自己或其他 LM——处理那个切片,并把结果合并回来。递归最终在基础模型的普通前向传播处终止。

一个直接结果:输入大小不再受 context window 的硬性限制。论文报告 RLM 处理了比底层模型 context window 高两个数量级的输入,并在四个长上下文任务上优于普通前沿 LLM 和常见长上下文脚手架。

推理与工具调用:两条能力轴的融合史

推理关注模型如何将推理时计算分配给问题:分解、探索替代方案、验证中间步骤、回溯、选择更好答案。早期的推理进展来自 Chain-of-Thought、Self-Consistency、Tree-of-Thought 等方法——这些方法改善的是模型"如何思考",即使它从不接触外部世界。

工具调用关注模型是否能够决定调用外部函数、搜索引擎、计算器、浏览器、代码运行器或 UI 操作;传递正确参数;解释结果;继续。这部分是一个推理问题,但也是接口和可靠性问题:schema、参数格式化、重试、停止条件、状态跟踪、错误恢复。

历史上两条轴是分开的:

  • 2022:推理 without 工具。Chain-of-Thought 证明要求模型生成中间推理步骤可以显著改善多步推理
  • 2022 末:ReAct 成为推理和行动之间的桥梁,模型在推理 trace 和外部行动(检索、环境交互)之间交替
  • 2023:工具调用成为 API 规范,Toolformer 让模型可以在生成过程中学习何时调用工具、调用哪些工具、如何incorporate结果
  • 2024:OpenAI o1 发布,推理模型成为独立产品类别,但功能调用尚未包含——强有力地证明了推理和工具调用在产品层面仍然是可分离的
  • 2024-2025:Anthropic 的 Claude 3.5 Sonnet 强化了编程和 agentic 任务的工具使用;Google Gemini 2.0 明确围绕"agentic 时代"和原生工具使用设计,但仍把"思考"作为独立能力保留
  • RLM 是这两条轴最终合并的抽象层

RLM 的三个失败模式

RLM 的实证结果经历了三个连续的单一 forward pass 失败模式,每个都有各自的 benchmark:

1. Long Context(Oolong,2025 年 11 月)

比 needle-in-a-haystack 检索更难:模型需要分析多个局部 chunk,然后将它们聚合成全局答案。发布时,GPT-5、Claude-Sonnet-4、Gemini-2.5-Pro 在 128K 下两个 split 均低于 50%——这使得 Oolong 成为 RLM 试图解决的"上下文作为工作区推理"的早期 benchmark。

2. Memory(LongMemEval,2024-2025)

定义了长期交互记忆的 benchmark:跨越提取、多会话推理、时间推理、知识更新和弃权的 500 个问题。RLM 风格系统是否能用递归/工具介导的处理充当记忆系统,而非仅仅一个长上下文 hack?DSPy.RLM 在 LongMemEval 上取得了竞争性数字,低于 Mastra 的 94.87%,但已是有力证据。

3. Long Reasoning(LongCoT,2026 年 4 月)

2500 个专家设计的长时间 chain-of-thought 推理问题。发布时最佳模型仍低于 10% 准确率(GPT-5.2 为 9.8%,Gemini 3 Pro 为 6.1%)。但 RLM + DSPy.RLM 立即打破了这个局面:

  • Claude Sonnet 4.5 + DSPy.RLM:45.4% vs 无递归/tools 的 2.6%
  • Qwen3-8B + DSPy.RLM:6.5%(vs 0%)
  • Qwen3.5-9B + DSPy.RLM:15.69%,约 1.6× GPT-5.2
  • Qwen3.5-27B + DSPy.RLM:22.18%,超过 GPT-5.2 两倍以上

RLM 的限制

成本和时间:RLM 很贵,需要很长时间。更糟的是,在朴素实现中,时间不可预测且无界,因为模型自己在决定如何分解问题。解法:每个子调用用更小更快的模型,将 agent-native 的"自相似"分解与确定性图拓扑和时间线控制相结合。

更深层的挑战:让语言模型"递归地行动":递归的概念在预训练数据中,推理和平行工具调用是 post-training 激励的行为,子 Agent 可能是 RLM 的近亲行为类比。但任何使用过 RLM 的人都会告诉你,模型通常对递归行为表现很差——它们不会本能地把 prompt 分解成多个子查询来帮助解决各自的问题。

这可能是一个价值数十亿美元的问题:最优递归的奖励函数是什么?

最令人惊讶的结果

小型本地模型 + RLM 的潜力。Qwen3-8B 这类小到可以在消费设备上运行的模型,配合 RLM 可以在 LongCoT 上超越 GPT-5.2。如果这是正确的方向性判断, frontier 将不再只是最大实验室才能触及的地方——个人或财团在负担得起的/遗留的/本地计算基础设施上运行多个小模型实例,现在可以访问与前沿实验室最昂贵 LLM 相当或超过它们的模型能力。

如何开始

  • rlm(Alex Zhang 等人):参考实现,最干净的核心递归 loop 解读
  • DSPy.RLM:DSPy 集成,将 RLM 作为可组合模块用于更大的 DSPy 程序
  • AxAgent(TypeScript):具有一流 RLM 支持的 TypeScript DSPy 风格框架
  • raw-repl:作者的 CLI wrapper,围绕目录即上下文、JSON-first 输出、自文档化命令
  • recursive_coder:作者在本地构建的递归编码 agent,基于 jj workspaces 的隔离递归执行

这篇文章的核心洞察不是"RLM 比其他方法更好",而是推理性能越来越不像单一 forward pass 的属性,而更像模型如何管理可执行外部计算的属性