从 Search-R1 到 ToolRL 和 SkyRL,一个技术方向越来越清晰:模型不仅要学会思考,还要学会搜索、计算和调用 API,通过 RL 在长轨迹中自我改进。
大多数方法都隐含一个假设:推理能力和工具调用能力可以在同一个共享参数空间里联合优化,这种联合训练会产生协同效应。
这篇论文用系统性证据挑战了这个假设。
发现:推理和工具调用是冲突的
作者发现,在 Agentic RL 中,推理和工具调用常常根本不协同,反而会强烈干扰彼此。换句话说:当模型在相同参数里同时学习「如何推理」和「如何使用工具」时,提升一个往往以另一个为代价。
这个现象在不同数据集和不同模型规模上都一致出现。根本原因不是数据或奖励设计,而是优化动态。通过分析 token 级梯度,作者发现推理 token 和工具调用 token 的梯度方向接近正交,角度接近 90 度。
这意味着两种能力在参数空间里搜索的是非常不同的最优点。当被迫更新相同参数时,训练只能朝一个折中方向移动——对两边都不是最优的。这创造了一个结构性梯度冲突,限制了 Agentic RL 性能的上界。
为什么梯度接近正交?
从线性代数角度,在高维空间中,两个随机向量 g₁ 和 g₂ 很可能几乎正交。更精确地说:如果维度很大,两个随机采样的向量之间的角度集中在 90 度左右。这是高维几何的基本事实。
在 Agentic RL 中,推理 token 和工具调用 token 来自不同数据分布和不同目标,所以它们在参数空间里诱导的梯度相对于彼此接近「随机向量」。因此,接近正交并不令人惊讶——它是高维空间里的常态。
为什么预训练没有这么严重的冲突?
因为预训练和后训练生活在非常不同的几何状态下。预训练的目标是语言建模,所以翻译、QA、数学、代码等不同任务仍然共享一个共同的核心结构,它们的梯度经常围绕底层语言表示(词汇、句法、语义特征)的改进而对齐。
而在 Agentic RL 后训练中,推理目标是建立更好的内部思维链,工具调用目标是生成 API 调用和控制流决策。它们的最优表示结构非常不同:一个以内部推理轨迹为中心,一个以外部动作选择为中心。因此,来自语义不同控制目标的梯度,使正交和冲突更容易发生。
LEAS:量化能力协同与干扰的诊断框架
作者引入了 LEAS(Linear Effect Attribution System),一个诊断框架,用于量化能力之间的协同和干扰。核心思想是把模型能力分解为二元变量,引入交互项来捕捉联合训练的效果,然后构建多个模型变体来求解线性系统。这揭示了每个交互项的符号和幅度。负的系数意味着两种能力在联合优化下相互干扰。
结果显示:在 NQ 和 HotpotQA 等多工具 QA 任务上,推理和工具调用之间的交互项几乎对所有例子都是负的。这直接挑战了「共享参数自然产生协同」这个假设。
更有趣的是:最强的干扰恰好出现在最难的情况下,也就是真正需要多步推理和工具交互的场景。这意味着 Agentic RL 在它应该最重要的地方遭遇了最大瓶颈。
解法:DART
作者提出了一个直接解决方案:在参数层面把冲突的能力解耦。这个方法叫做 DART(Disentangled Action-Reasoning Tuning)。
基本思想很简单:冻结原始 backbone 参数,然后附加两个独立 LoRA 适配器——一个用于推理,一个用于工具调用。Token 级路由机制决定哪个子空间接收每个 token 的梯度。推理 token 只更新推理 LoRA,工具 token 只更新工具 LoRA。这在训练时创造了显式的梯度隔离。
这和传统多任务学习方法完全不同——后者试图通过损失加权或梯度投影来减少冲突。DART 不试图在共享空间里找折中。它接受不同能力需要不同参数子空间,让它们在自己的低秩空间里独立演化。
实验结果
3B 规模下,DART 比 Search-R1-GRPO 平均 EM 提升超过 6%,在多跳推理任务上相对提升接近 30%。更重要的是,当检索结果固定时,DART 仍然明显优于联合训练模型。这意味着改进不是来自更好的检索,而是来自推理本身不再被联合优化拖累。
DART 逼近 2-Agent 系统的性能
作者还将 DART 与 2-Agent 系统进行了比较:用一个独立模型处理推理,另一个处理工具决策。理论上这避免了梯度冲突,是性能上界。结果很惊人:DART 在单模型架构内重现了 2-Agent 设置的大部分性能优势,同时避免了多模型系统的沉重工程成本——包括内存使用、上下文切换和 KV-cache 重建。
这对真实部署非常重要:意味着能力解耦不需要以推理效率为代价。
为什么 DART 有效
DART 本质上把不同能力分配到不同参数子空间:
它有效地构建了两个近似正交的低秩子空间,使推理和工具调用的梯度不再在相同参数区域里互相干扰。每个能力可以在自己的空间里独立收敛。
这就是 DART 能在单模型架构内逼近 2-Agent 系统性能天花板的原因。
更广泛的意义
这项工作的意义超越了一个具体方法。它揭示了一个在 Agent 系统设计中被忽视的原则:不是所有能力都应该共享参数空间联合训练。当不同能力在梯度几何上表现出系统性冲突时,参数解耦比复杂的奖励塑造或梯度手术更直接有效。
DART 还给了 LoRA 一个新角色:它不再只是一个参数高效微调工具,而是变成了能力模块化和结构解耦的载体。
更广泛地说,这项工作为思考 Agentic RL 提供了一个新视角:性能瓶颈可能不是来自模型规模或奖励设计,而是来自能力之间的结构性冲突。通过在参数空间里显式解耦推理和动作,模型可以在单一架构内保持两种能力的独立最优性。这个想法不仅对工具增强 QA 有用,它可能指向未来多能力大模型的更广泛训练范式。
DART 的意义不在于又一个新的微调技巧,而在于提出了一个设计原则:不是所有能力都应该共享参数空间。当不同能力在梯度几何上存在系统性冲突时,参数解耦比复杂的奖励设计更直接有效。