当前位置：首页 > news >正文

DecEx-RAG：过程监督+智能剪枝，让大模型检索推理快6倍

news 2026/3/26 17:27:27

Agentic RAG 是当前 LLM 应用中一个非常火热的方向。与传统 RAG 不同它让模型在推理过程中自主决定要不要检索、什么时候检索。这样就相当于给模型一套工具让它自己判断该用哪个。

目前训练 Agentic RAG 的主流做法是结果监督强化学习：只在推理结束后给一个标量奖励：对就是对、错就是错，而过程中完全没有任何反馈。

这种方式有几个明显的问题：

模型必须跑完整个推理链才能拿到分数，中途即使跑偏了也没法纠正；奖励信号极其稀疏，模型根本不知道哪些步骤有用、哪些是在浪费时间；而且单一的全局分数太粗糙了，没法告诉模型到底是哪个环节出了问题，想做细粒度优化几乎不可能。

DecEx-RAG 的核心思路

DecEx-RAG 把 RAG 建模成一个马尔可夫决策过程（MDP），分成决策和执行两个阶段。

图1：DecEx-RAG 框架示意图，展示搜索树的扩展与剪枝过程

决策阶段解决两个问题：该停还是该继续？如果继续的话用内部知识还是去检索外部信息？每一步模型都要做出终止决策 σₜ 和检索决策 δₜ。

执行阶段关注的是生成质量。不管是子问题还是最终答案，都要求高质量输出。这个阶段用过程级奖励来优化。

而剪枝策略是 DecEx-RAG 的一大亮点：搜索树扩展太快会导致计算量爆炸所以需要动态剪枝，每一层做多次 rollout 模拟不同决策，把结果汇总成中间奖励；超过一半样本认为该停就停；如果内部知识生成的答案分数够高，直接跳过检索。

实测效果也是相当不错的，平均扩展时间从 743.2 秒压缩到 134.9 秒，快了将近 6 倍性能却几乎没有损失。

https://avoid.overfit.cn/post/7c93c6c1703f491e8d68f8156abecfef

http://www.jsqmd.com/news/200922/

相关文章：

2.3 采购物料分类与决策案例：从数据到策略，完整业务闭环

2.4 逻辑回归算法详解：从数学原理到Python实现，分类问题首选

2026年有实力的知识竞赛评分系统,演讲比赛评分系统,校园歌手大赛评分系统厂家优质品牌推荐名录 - 品牌鉴赏师

2.5 决策树与随机森林：可解释性与准确性的完美平衡

一个开发者的自白：我效率低、爱熬夜、还总想“白嫖”？

1.46 DeepSeek + Faiss实战：搭建本地知识库检索系统完整教程

avif 浏览器支持情况

在transformer架构里面前向传播和反向传播-gradient checkpoint

AI训练和推理到底需要什么样的配置？我的一次昂贵教训

2025年十大高风险漏洞及其在实际攻击中的应用

【Week3_Day11】【软件测试学习记录与反思】【TPshop项目的linux部署、整理思维导图、归纳遇到的问题、记录反思改进】

LLM 量化技术概述及 AWQ 和 GPTQ 介绍

生成1.8万年气候数据，英伟达等提出长距离蒸馏，仅需单步计算实现长期天气预报

【拯救HMI】工业HMI新手学习路径：30天系统化入门与实操蓝图

Web 常用的图片格式选择

百度百舸面向百度天池超节点的大模型推理引擎优化，持续降低昆仑芯 XPU 的 token 成本

【拯救HMI】HMI信息架构设计：四层金字塔模型——构建符合认知负荷的高效界面

九氚汇领衔：2026年五大主流CRM系统最新排名深度解析与选型指南

一位教师的使用分享：我是如何借助AI工具高效完成年终总结PPT的

1.44 NoteBookLM使用指南：Google的AI笔记工具，让文档变成智能助手

2026爆火AI论文神器限时公开：9款一键生成覆盖毕业期刊职称

1.45 Embedding模型选择指南：文本向量化，如何选择最适合的模型

口碑好的煤矿水仓清淤供应商

【GNSS信号处理】多系统GNSS实时PPP（精密单点定位）解算MATLAB代码，支持 GPS、GLONASS、Galileo、北斗系统，集成了 SSR 轨道钟差、电离层对流层改正、卫星码偏差

便秘救星！可溶性VS不溶性膳食纤维，你吃对了吗？

煤矿水仓清淤哪个好

【路径规划】基于目标偏置高斯分布RRT算法实现机器人路径规划附matlab代码

使用VIRobotics VI Generator轻松在LabVIEW中生成数学曲线

HR搭建薪酬体系，该优先公平还是激励？

0x3f第22天复习（8:50-10:10)（16:30-17.06）