当前位置：首页 > news >正文

【RL】Deep Research Agent 训练经验探索

news 2026/7/10 20:25:24

note

文章目录

note
一、Deep Research Agent 训练

一、Deep Research Agent 训练

【Deep Research Agent 训练经验探索】Deep Research智能体通过多轮检索、证据聚合和决策生成解决知识密集型任务，RL 是优化其长 horizon 交互行为的关键方法，但现有训练方案碎片化，难以明确性能驱动因素，所以可以做个工作，以 “预测准确率、训练稳定性、推理成本” 为统一评估框架，拆解Deep Research究智能体 RL 训练的提示模板、奖励函数和策略优三大维度，明确各组件对性能、稳定性、成本的影响，从提示模板、奖励函数、策略优化三个解耦维度分析其对模型预测精度、训练稳定性和推理成本的影响，发现快速思考模板比慢思考模板稳定性和性能更优，纯 F1 奖励因答案回避引发训练崩溃，加入动作级惩罚后的 F1 + 奖励可超越 EM 奖励，经典的REINFORCE 算法在性能和效率上优于 PPO 且搜索动作更少，GRPO 稳定性最差。

工作在：How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1，https://arxiv.org/html/2602.19526v1，

看几个详细核心结论：

1）提示模板。“少思考”更优，Fast Thinking模板胜出，传统Slow Thinking模板要求模型在检索/回答前通过专用标签（）进行显式推理，但实验表明显式推理长度与任务性能呈负相关，过长推理会导致训练崩溃。所以，提出FastThinking模板：直接引导模型输出检索和回答决策，无需冗余推理步骤，训练稳定性显著提升，Qwen2.5-7B模型平均准确率从0.403提升至0.422，Qwen2.5-3B从0.289提升至0.297。崩溃原因在于SlowThinking模板下，模型会通过堆叠无意义的推理标签获取奖励，形成自我强化的冗余推理循环；

2）奖励函数。F1需结合动作惩罚，F1+超越EM。现有研究倾向用F1替代ExactMatch（EM）作为奖励，但论文发现：纯F1训练因“答案回避”导致训练崩溃—模型为避免错误答案，选择不输出答案（零奖励与错误答案一致），稳定性和性能均劣于EM。提出F1+奖励：在F1基础上增加动作级惩罚（未执行检索/未输出答案时扣分，α=0.1，β=0.1），既解决答案回避问题，又发挥F1对部分匹配的敏感性，最终性能超越EM（Qwen2.5-7B的F1+平均准确率0.429，高于EM的0.422）；

3）对比三大主流算法（REINFORCE、PPO、GRPO）：GRPO稳定性最差，易出现训练崩溃；PPO依赖价值模型估计优势，但稀疏奖励场景下存在偏置，导致检索动作冗余（单轮/多轮任务检索次数均接近2次）；REINFORCE无需外部基线，直接优化累积回报，不仅准确率最高（Qwen2.5-7B整体平均0.437），且推理成本最低（单轮检索约1.02次，多轮约1.68次）。

查看全文

http://www.jsqmd.com/news/509251/