当前位置: 首页 > news >正文

【RL】Deep Research Agent 训练经验探索

note

文章目录

  • note
  • 一、Deep Research Agent 训练

一、Deep Research Agent 训练

【Deep Research Agent 训练经验探索】Deep Research智能体通过多轮检索、证据聚合和决策生成解决知识密集型任务,RL 是优化其长 horizon 交互行为的关键方法,但现有训练方案碎片化,难以明确性能驱动因素,所以可以做个工作,以 “预测准确率、训练稳定性、推理成本” 为统一评估框架,拆解Deep Research究智能体 RL 训练的提示模板、奖励函数和策略优三大维度,明确各组件对性能、稳定性、成本的影响,从提示模板、奖励函数、策略优化三个解耦维度分析其对模型预测精度、训练稳定性和推理成本的影响,发现快速思考模板比慢思考模板稳定性和性能更优,纯 F1 奖励因答案回避引发训练崩溃,加入动作级惩罚后的 F1 + 奖励可超越 EM 奖励,经典的REINFORCE 算法在性能和效率上优于 PPO 且搜索动作更少,GRPO 稳定性最差。

工作在:How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1,https://arxiv.org/html/2602.19526v1,

看几个详细核心结论:

1)提示模板。“少思考”更优,Fast Thinking模板胜出,传统Slow Thinking模板要求模型在检索/回答前通过专用标签()进行显式推理,但实验表明显式推理长度与任务性能呈负相关,过长推理会导致训练崩溃。所以,提出FastThinking模板:直接引导模型输出检索和回答决策,无需冗余推理步骤,训练稳定性显著提升,Qwen2.5-7B模型平均准确率从0.403提升至0.422,Qwen2.5-3B从0.289提升至0.297。崩溃原因在于SlowThinking模板下,模型会通过堆叠无意义的推理标签获取奖励,形成自我强化的冗余推理循环;

2)奖励函数。F1需结合动作惩罚,F1+超越EM。现有研究倾向用F1替代ExactMatch(EM)作为奖励,但论文发现:纯F1训练因“答案回避”导致训练崩溃—模型为避免错误答案,选择不输出答案(零奖励与错误答案一致),稳定性和性能均劣于EM。提出F1+奖励:在F1基础上增加动作级惩罚(未执行检索/未输出答案时扣分,α=0.1,β=0.1),既解决答案回避问题,又发挥F1对部分匹配的敏感性,最终性能超越EM(Qwen2.5-7B的F1+平均准确率0.429,高于EM的0.422);

3)对比三大主流算法(REINFORCE、PPO、GRPO):GRPO稳定性最差,易出现训练崩溃;PPO依赖价值模型估计优势,但稀疏奖励场景下存在偏置,导致检索动作冗余(单轮/多轮任务检索次数均接近2次);REINFORCE无需外部基线,直接优化累积回报,不仅准确率最高(Qwen2.5-7B整体平均0.437),且推理成本最低(单轮检索约1.02次,多轮约1.68次)。

http://www.jsqmd.com/news/509251/

相关文章:

  • 空间变革新纪元:2026年济南调光玻璃供应商的深度选择与未来展望 - 2026年企业推荐榜
  • 【华为OD机试真题】任务编排系统 · 双任务时长组合问题(Python/JS)
  • MCP4261数字电位器驱动库:SPI通信、EEPROM存储与嵌入式应用
  • Kinova机械臂远程操控新玩法:用GRU-VAE模型实现手势到动作的秒级转换
  • Snipe-IT:开源IT资产管理系统的创新实践指南
  • 惊艳效果:UNIT-00自动生成Python数据分析完整脚本与报告
  • 2026高端装修新风向:深度测评五家引领“制造型半包”趋势的实力服务商 - 2026年企业推荐榜
  • SSVXYMatrix:嵌入式XY坐标LED矩阵驱动框架
  • Qwen-Image-2512-SDNQ WebUI用户体验优化:进度条动画+生成耗时预估提示
  • Shadow Sound Hunter与SolidWorks集成:智能设计辅助
  • Stable Diffusion XL 1.0镜像免配置优势:灵感画廊预装diffusers 0.27+优化版本
  • Mathtype公式编辑与AI结合:百川2-13B辅助识别与生成数学公式
  • 【华为OD机试真题】任务编排系统 · 双任务时长组合问题(C语言)
  • 2026年自动封口机选购指南:五大信誉厂家深度解析与推荐 - 2026年企业推荐榜
  • P8651 [蓝桥杯 2017 省 B] 日期问题【日期计算+排序】
  • Cosmos-Reason1-7B部署案例:消费级GPU(RTX 4090/3090)FP16高效推理
  • RT-Thread线程管理:动态/静态创建与生命周期控制
  • 2026长沙推拿足浴消费指南:五大品牌深度解析与选购建议 - 2026年企业推荐榜
  • 2026年温州休闲运动鞋制造深度解析:五家做工精湛的实力厂家横向评测 - 2026年企业推荐榜
  • 银河麒麟系统下Miniconda安装避坑指南:解决Permission denied错误
  • 轻量级嵌入式任务调度框架cola_os设计与实践
  • Seed-Coder-8B-Base微调实战:用公司代码库训练专属AI程序员
  • 2026年高端家装市场:五家报价透明、设计卓越的室内设计公司深度解析 - 2026年企业推荐榜
  • 三种经典恒流源电路原理、性能对比与工程选型指南
  • LumiPixel Canvas Quest光影大师:复杂光源环境下的人像生成效果测评
  • Qwen-Image定制镜像完整指南:RTX4090D环境下高效加载与推理Qwen-VL
  • GLM-4.6V-Flash-WEB效果实测:多语言界面、图标按钮都能准确识别,效果惊艳
  • 快速搭建图片识别应用:阿里开源模型环境配置与推理脚本使用
  • 超影3d印刷:海报印刷/门票印刷/3d光栅立体画/3d印刷/光栅卡/光栅印刷/周边印刷/文件印刷/明信片印刷/选择指南 - 优质品牌商家
  • Qwen3.5-35B-A3B-AWQ-4bit镜像部署一文详解:内置模型目录+压缩张量+双卡验证