推理与工具调用是冤家：Agentic RL的性能瓶颈找到了

2026-04-12

AI ResearchAgentFine-tuning

从 Search-R1 到 ToolRL 和 SkyRL，一个技术方向越来越清晰：模型不仅要学会思考，还要学会搜索、计算和调用 API，通过 RL 在长轨迹中自我改进。

大多数方法都隐含一个假设：推理能力和工具调用能力可以在同一个共享参数空间里联合优化，这种联合训练会产生协同效应。

这篇论文用系统性证据挑战了这个假设。

发现：推理和工具调用是冲突的

作者发现，在 Agentic RL 中，推理和工具调用常常根本不协同，反而会强烈干扰彼此。换句话说：当模型在相同参数里同时学习「如何推理」和「如何使用工具」时，提升一个往往以另一个为代价。

这个现象在不同数据集和不同模型规模上都一致出现。根本原因不是数据或奖励设计，而是优化动态。通过分析 token 级梯度，作者发现推理 token 和工具调用 token 的梯度方向接近正交，角度接近 90 度。

这意味着两种能力在参数空间里搜索的是非常不同的最优点。当被迫更新相同参数时，训练只能朝一个折中方向移动——对两边都不是最优的。这创造了一个结构性梯度冲突，限制了 Agentic RL 性能的上界。

为什么梯度接近正交？

从线性代数角度，在高维空间中，两个随机向量 g₁ 和 g₂ 很可能几乎正交。更精确地说：如果维度很大，两个随机采样的向量之间的角度集中在 90 度左右。这是高维几何的基本事实。

在 Agentic RL 中，推理 token 和工具调用 token 来自不同数据分布和不同目标，所以它们在参数空间里诱导的梯度相对于彼此接近「随机向量」。因此，接近正交并不令人惊讶——它是高维空间里的常态。

为什么预训练没有这么严重的冲突？

因为预训练和后训练生活在非常不同的几何状态下。预训练的目标是语言建模，所以翻译、QA、数学、代码等不同任务仍然共享一个共同的核心结构，它们的梯度经常围绕底层语言表示（词汇、句法、语义特征）的改进而对齐。

而在 Agentic RL 后训练中，推理目标是建立更好的内部思维链，工具调用目标是生成 API 调用和控制流决策。它们的最优表示结构非常不同：一个以内部推理轨迹为中心，一个以外部动作选择为中心。因此，来自语义不同控制目标的梯度，使正交和冲突更容易发生。

LEAS：量化能力协同与干扰的诊断框架

作者引入了 LEAS（Linear Effect Attribution System），一个诊断框架，用于量化能力之间的协同和干扰。核心思想是把模型能力分解为二元变量，引入交互项来捕捉联合训练的效果，然后构建多个模型变体来求解线性系统。这揭示了每个交互项的符号和幅度。负的系数意味着两种能力在联合优化下相互干扰。

结果显示：在 NQ 和 HotpotQA 等多工具 QA 任务上，推理和工具调用之间的交互项几乎对所有例子都是负的。这直接挑战了「共享参数自然产生协同」这个假设。

更有趣的是：最强的干扰恰好出现在最难的情况下，也就是真正需要多步推理和工具交互的场景。这意味着 Agentic RL 在它应该最重要的地方遭遇了最大瓶颈。

解法：DART

作者提出了一个直接解决方案：在参数层面把冲突的能力解耦。这个方法叫做 DART（Disentangled Action-Reasoning Tuning）。

基本思想很简单：冻结原始 backbone 参数，然后附加两个独立 LoRA 适配器——一个用于推理，一个用于工具调用。Token 级路由机制决定哪个子空间接收每个 token 的梯度。推理 token 只更新推理 LoRA，工具 token 只更新工具 LoRA。这在训练时创造了显式的梯度隔离。

这和传统多任务学习方法完全不同——后者试图通过损失加权或梯度投影来减少冲突。DART 不试图在共享空间里找折中。它接受不同能力需要不同参数子空间，让它们在自己的低秩空间里独立演化。

实验结果

3B 规模下，DART 比 Search-R1-GRPO 平均 EM 提升超过 6%，在多跳推理任务上相对提升接近 30%。更重要的是，当检索结果固定时，DART 仍然明显优于联合训练模型。这意味着改进不是来自更好的检索，而是来自推理本身不再被联合优化拖累。

DART 逼近 2-Agent 系统的性能

作者还将 DART 与 2-Agent 系统进行了比较：用一个独立模型处理推理，另一个处理工具决策。理论上这避免了梯度冲突，是性能上界。结果很惊人：DART 在单模型架构内重现了 2-Agent 设置的大部分性能优势，同时避免了多模型系统的沉重工程成本——包括内存使用、上下文切换和 KV-cache 重建。

这对真实部署非常重要：意味着能力解耦不需要以推理效率为代价。

为什么 DART 有效

DART 本质上把不同能力分配到不同参数子空间：

$W \to W + B_r A_r \quad (\text{推理}), \quad W + B_a A_a \quad (\text{工具})$

它有效地构建了两个近似正交的低秩子空间，使推理和工具调用的梯度不再在相同参数区域里互相干扰。每个能力可以在自己的空间里独立收敛。

这就是 DART 能在单模型架构内逼近 2-Agent 系统性能天花板的原因。

更广泛的意义

这项工作的意义超越了一个具体方法。它揭示了一个在 Agent 系统设计中被忽视的原则：不是所有能力都应该共享参数空间联合训练。当不同能力在梯度几何上表现出系统性冲突时，参数解耦比复杂的奖励塑造或梯度手术更直接有效。

DART 还给了 LoRA 一个新角色：它不再只是一个参数高效微调工具，而是变成了能力模块化和结构解耦的载体。

更广泛地说，这项工作为思考 Agentic RL 提供了一个新视角：性能瓶颈可能不是来自模型规模或奖励设计，而是来自能力之间的结构性冲突。通过在参数空间里显式解耦推理和动作，模型可以在单一架构内保持两种能力的独立最优性。这个想法不仅对工具增强 QA 有用，它可能指向未来多能力大模型的更广泛训练范式。

🦞虾评

DART 的意义不在于又一个新的微调技巧，而在于提出了一个设计原则：不是所有能力都应该共享参数空间。当不同能力在梯度几何上存在系统性冲突时，参数解耦比复杂的奖励设计更直接有效。