当前位置: 首页 > news >正文

DecEx-RAG:过程监督+智能剪枝,让大模型检索推理快6倍

Agentic RAG 是当前 LLM 应用中一个非常火热的方向。与传统 RAG 不同它让模型在推理过程中自主决定要不要检索、什么时候检索。这样就相当于给模型一套工具让它自己判断该用哪个。

目前训练 Agentic RAG 的主流做法是结果监督强化学习:只在推理结束后给一个标量奖励:对就是对、错就是错,而过程中完全没有任何反馈。

这种方式有几个明显的问题:

模型必须跑完整个推理链才能拿到分数,中途即使跑偏了也没法纠正;奖励信号极其稀疏,模型根本不知道哪些步骤有用、哪些是在浪费时间;而且单一的全局分数太粗糙了,没法告诉模型到底是哪个环节出了问题,想做细粒度优化几乎不可能。

DecEx-RAG 的核心思路

DecEx-RAG 把 RAG 建模成一个马尔可夫决策过程(MDP),分成决策和执行两个阶段。

图1:DecEx-RAG 框架示意图,展示搜索树的扩展与剪枝过程

决策阶段解决两个问题:该停还是该继续?如果继续的话用内部知识还是去检索外部信息?每一步模型都要做出终止决策 σₜ 和检索决策 δₜ。

执行阶段关注的是生成质量。不管是子问题还是最终答案,都要求高质量输出。这个阶段用过程级奖励来优化。

而剪枝策略是 DecEx-RAG 的一大亮点:搜索树扩展太快会导致计算量爆炸所以需要动态剪枝,每一层做多次 rollout 模拟不同决策,把结果汇总成中间奖励;超过一半样本认为该停就停;如果内部知识生成的答案分数够高,直接跳过检索。

实测效果也是相当不错的,平均扩展时间从 743.2 秒压缩到 134.9 秒,快了将近 6 倍性能却几乎没有损失。

 

https://avoid.overfit.cn/post/7c93c6c1703f491e8d68f8156abecfef

http://www.jsqmd.com/news/200922/

相关文章:

  • 2.3 采购物料分类与决策案例:从数据到策略,完整业务闭环
  • 2.4 逻辑回归算法详解:从数学原理到Python实现,分类问题首选
  • 2026年有实力的知识竞赛评分系统,演讲比赛评分系统,校园歌手大赛评分系统厂家优质品牌推荐名录 - 品牌鉴赏师
  • 2.5 决策树与随机森林:可解释性与准确性的完美平衡
  • 一个开发者的自白:我效率低、爱熬夜、还总想“白嫖”?
  • 1.46 DeepSeek + Faiss实战:搭建本地知识库检索系统完整教程
  • avif 浏览器支持情况
  • 在transformer架构里面前向传播和反向传播-gradient checkpoint
  • AI训练和推理到底需要什么样的配置?我的一次昂贵教训
  • 2025年十大高风险漏洞及其在实际攻击中的应用
  • 【Week3_Day11】【软件测试学习记录与反思】【TPshop项目的linux部署、整理思维导图、归纳遇到的问题、记录反思改进】
  • LLM 量化技术概述及 AWQ 和 GPTQ 介绍
  • 生成1.8万年气候数据,英伟达等提出长距离蒸馏,仅需单步计算实现长期天气预报
  • 【拯救HMI】工业HMI新手学习路径:30天系统化入门与实操蓝图
  • Web 常用的图片格式选择
  • 百度百舸面向百度天池超节点的大模型推理引擎优化,持续降低昆仑芯 XPU 的 token 成本
  • 【拯救HMI】HMI信息架构设计:四层金字塔模型——构建符合认知负荷的高效界面
  • 九氚汇领衔:2026年五大主流CRM系统最新排名深度解析与选型指南
  • 一位教师的使用分享:我是如何借助AI工具高效完成年终总结PPT的
  • 1.44 NoteBookLM使用指南:Google的AI笔记工具,让文档变成智能助手
  • 2026爆火AI论文神器限时公开:9款一键生成覆盖毕业期刊职称
  • 1.45 Embedding模型选择指南:文本向量化,如何选择最适合的模型
  • 口碑好的煤矿水仓清淤供应商
  • 【GNSS信号处理】多系统GNSS实时PPP(精密单点定位)解算MATLAB代码,支持 GPS、GLONASS、Galileo、北斗系统,集成了 SSR 轨道钟差、电离层 对流层改正、卫星码偏差
  • 便秘救星!可溶性VS不溶性膳食纤维,你吃对了吗?
  • 煤矿水仓清淤哪个好
  • 【路径规划】基于目标偏置高斯分布RRT算法实现机器人路径规划附matlab代码
  • 使用VIRobotics VI Generator轻松在LabVIEW中生成数学曲线
  • HR搭建薪酬体系,该优先公平还是激励?
  • 0x3f第22天复习 (8:50-10:10)(16:30-17.06)