当前位置：首页 > news >正文

深度研究模型DR Tulu-8B：动态评估与强化学习优化

news 2026/4/28 15:08:37

1. 深度研究模型的现状与挑战

在自然语言处理领域，深度研究(Deep Research, DR)模型旨在通过多步推理和知识整合，生成具有充分引证的长篇回答。这类模型通常配备搜索工具，能够主动获取外部知识并整合到回答中。然而，现有的开源DR模型大多基于"可验证奖励的强化学习"(RLVR)方法训练，这种方法在短篇问答任务中表现良好，但在处理现实中的长篇开放性问题时存在明显局限。

当前DR模型面临的核心挑战在于评估标准的动态性。传统方法使用静态评估准则(rubrics)，但这些准则往往无法全面捕捉长篇回答质量的各个维度。具体来说：

评估维度不完整：长篇问题通常具有开放性，好的回答可以从多个角度展开，静态准则难以穷尽所有可能性
知识依赖性强：可靠的评估需要参考广泛且动态变化的外部知识，而非仅依赖模型的参数化知识
策略适应性差：固定准则无法随着模型策略的演变而调整，导致评估与模型实际行为脱节

这些问题导致现有模型在生成长篇、知识密集型回答时，往往出现内容片面、引证不足或过度依赖模型固有知识等问题。

2. RLER方法的核心设计

2.1 动态评估准则的基本原理

强化学习与进化评估准则(Reinforcement Learning with Evolving Rubrics, RLER)的核心创新在于使评估准则与策略模型共同进化。这种方法包含三个关键组件：

初始搜索基准准则：在训练开始前，基于问题检索相关文档，生成初始评估标准
动态进化准则：在训练过程中，根据模型产生的实际回答，持续生成新的评估维度
准则缓冲区管理：通过智能筛选保留最具区分度的评估标准，控制计算成本

与传统方法相比，RLER的优势主要体现在：

评估标准能够反映最新探索的知识
准则针对当前策略模型的行为特点进行优化
系统可以自主发现并纠正不良行为模式

2.2 技术实现细节

RLER的训练流程可分为以下几个关键步骤：

轨迹生成：策略模型针对给定问题生成多个完整回答轨迹(包括思考过程、工具调用和最终回答)
准则生成：基于模型轨迹和现有准则，生成新的评估维度(包括正面准则和负面准则)
评分与更新：根据完整准则集对回答评分，并更新模型参数
准则管理：过滤低区分度准则，保留最具价值的评估标准

具体实现中，系统维护两类准则：

持久性准则(Rpersist)：基于初始搜索生成，贯穿整个训练过程
活跃性准则(Ractive)：在训练中动态生成和淘汰

准则生成模型(Grubric)被设计为能够：

识别回答中的新颖有价值内容
发现常见错误模式(如机械复制检索结果)
生成具体可操作的评估标准

3. DR Tulu-8B的训练架构

3.1 监督微调阶段

由于基础模型缺乏工具使用和引证能力，直接应用RLER会导致探索效率低下。因此，DR Tulu-8B首先经过监督微调(SFT)阶段：

数据收集：整合多个来源的真实用户查询，包括：
- SearchArena：24K真实用户与搜索增强模型的对话
- OpenScholar：55K科学研究导向的查询
- 精选短篇QA数据集(HotpotQA等)
轨迹生成：使用强大的教师模型(GPT-5)生成示范轨迹，包括：
- 思考过程
- 工具调用(网页搜索、论文搜索等)
- 引证标记
- 最终回答
质量过滤：应用两级过滤：
- 格式合规性检查
- 短篇问题的答案准确性验证

这一阶段产生了16K高质量训练样本，为后续RL训练奠定了良好基础。

3.2 强化学习优化阶段

在SFT基础上，DR Tulu-8B通过RLER进行进一步优化：

训练数据：专注于长篇问题，从多个来源收集约9K训练提示
算法选择：采用GRPO(Group Relative Policy Optimization)算法
关键优化：
- 样本打包：多个轨迹合并训练，减少填充
- 异步训练：生成与训练步骤重叠，提升效率
- 工具输出掩码：排除工具输出对损失的影响
奖励设计：组合多种奖励信号：
- 准则评分(主要)
- 格式奖励
- 搜索奖励
- 引证奖励(初期)

训练过程持续25天，使用约9700 GPU小时，模型表现持续提升而未饱和。

3.3 工具基础设施

为支持复杂的DR工作流，团队开发了dr-agent-lib工具库，具有以下特点：

统一工具接口：基于模型上下文协议(MCP)集成多种搜索和浏览工具
高性能后端：
- 高并发支持
- 全局查询缓存
- 异步处理锁(管理API速率限制)
灵活的前端：支持快速迭代提示和工具配置

核心工具包括：

google_search：返回网页摘要
web_browse：获取网页全文
paper_search：检索开放获取论文段落

4. 性能评估与结果分析

4.1 基准测试设置

DR Tulu-8B在四个长篇DR基准上接受评估：

HealthBench：医疗健康领域深度研究
ResearchQA：科学文献综合问答
ScholarQA-CS2(SQAv2)：学术研究问答
DeepResearchBench(DRB)：通用领域深度研究

评估重点包括：

回答整体质量
特定方面的表现(相关性、指令遵循等)
引证质量(精确度、召回率)

4.2 对比模型

评估涵盖三类对比系统：

开源DR模型：
- ASearcher-7B
- WebThinker 32B
- Search-R1-7B
- WebExplorer-8B
- Tongyi Deep Research-30B
固定流程系统：
- WebThinker(报告模式)
- Ai2 ScholarQA
专有DR系统：
- OpenAI Deep Research
- Perplexity系列
- Claude-Sonnet Search
- Gemini3 Pro + Search