当前位置: 首页 > news >正文

这次走对了,微软AgenticRAG实测5.9倍提升

今天为大家分享微软 Copilot Studio 团队的一篇论文——AgenticRAG。

标准RAG的根本问题

传统 RAG 架构的逻辑很直观:用户提问 → 搜索系统检索相关文档 → 把文档塞进 prompt → LLM 生成答案。

这个架构有一个被广泛忽视的根本假设:检索决定在 LLM 开始推理之前就已经做完了。LLM 接收的是一个固定的文档候选集,没有机会说"这个文档看起来有用,让我进去翻一翻",也没有机会说"这几条结果都不对,让我换个角度再搜一次"。

对于简单的知识查询(“什么是机器学习”),这个架构没问题。但在企业场景里,知识工作者的查询往往是这样的:

  • “SAP 系统在多租户模式下怎么配置 OAuth 2.0?”
  • “我们上季度 SaaS 收入中,有多少来自年付合同?”
  • “这个 Jenkins pipeline 的超时问题怎么排查?”

这些查询有两个特点:高度情境化(需要结合多个上下文理解意图),且答案分散在多份长文档中。标准搜索栈擅长关键词匹配和短语义查询,但处理不了这种需要多步推理的信息需求。

把检索权交给LLM

AgenticRAG 的核心思想极其朴素:不要让搜索系统替 LLM 做决定,给 LLM 工具,让它自己决定搜什么、看什么、翻到哪里。

具体来说,论文在现有企业搜索栈之上,加了一层轻量级的 Agent 工具框架,包含四个工具:

四个工具

search— 企业级文档发现。委托给底层企业搜索栈(如 Azure AI Search),每次调用最多并行发出 5 条查询改写。返回 snippet、标题、文件名、文件类型等元数据。每条结果分配唯一引用 ID,供后续工具使用。

find— 文档内搜索。给定一个引用 ID 和一组关键词模式,在目标文档内做精准搜索。支持词汇匹配(大小写不敏感子串匹配)和可选的语义匹配模式。每个模式最多返回 2 个匹配段落,总 token 限制约 11K。

open— 滚动窗口文档阅读。每次返回 1800 行的固定窗口。响应头包含当前位置和总长度(如 “Viewing lines [0–1799] of 3000 lines”)。模型可以通过指定行号跳转到文档任意位置,实现对超长文档的逐段导航。

summarize— 上下文压缩。当 token 使用量接近 128K 预算时自动触发。模型记录当前推理结论,标注要保留的引用 ID,系统清除未引用的工具返回内容,释放 token 空间。

推理循环

整个系统运行在一个有界迭代循环中(默认最多 15 轮)。每一轮,LLM 看到当前对话历史和工具 schema,要么选择调用工具并追加结果到对话,要么直接输出最终答案。

终止条件只有两个:

  1. 模型主动输出文本回答
  2. 达到最大迭代次数,强制生成回答

这个设计有一个关键优势:完全不需要模型微调、自定义嵌入模型、图构建或语料预处理。只要企业搜索栈已经把文档索引好,直接套上这个工具框架就能用。

方法细节

搜索结果如何被利用

search 返回的是 snippet 预览,不包含完整文档内容。这意味着模型看到搜索结果后,需要做出判断:哪些文档值得深入查看?用什么方式查看?

这里有两个精度工具可以选:

  • find适合"知道要找什么"的场景——比如"在这份财报里找到净利润这一行"
  • open适合"知道要看哪里"的场景——比如"打开这个文档的第 500 行附近,看看那个表格"

论文通过系统提示(system prompt)引导模型正确使用工具,比如"先搜索再回答"、“片段不够就用 find 或 open 深入”、“不要重复搜索,复用之前的结果”。

多查询并行搜索

search 工具的一个设计亮点:模型可以在一次 tool call 中同时发出最多 5 条查询改写。结果去重后合并返回。

消融实验表明,这个功能对性能几乎没有影响(44.84% vs 49.59%),但显著提升了效率——平均工具调用次数从 6.79 降到 4.79,减少了 29%。多条查询并行执行比多轮串行更节省迭代次数。

上下文管理机制

四个工具中,每次调用可以加载约 11K token 的文档内容。如果推理链很长,128K 的上下文窗口很容易被用完。

AgenticRAG 的解决方案是两阶段触发:

  1. 对话达到 90% 预算时发出内部警告
  2. 达到 100% 预算时强制触发 summarize

summarize 的核心机制不是简单截断,而是选择性保留:模型标注哪些引用 ID 需要保留,系统扫描工具消息,删除未被引用的内容。这意味着 LLM 可以持续深入调查,不用担心上下文爆炸。

Claude 和 GPT-5-mini 的策略差异

论文在消融中发现了一个有趣的现象:两个模型展现了不同的"探索-利用"策略。

Claude Sonnet 4.5 偏利用

  • 更少的搜索调用(2.51 vs 3.39)
  • 更多的文档打开(1.54 vs 1.22)
  • 语义 find 使用量是 GPT-5-mini 的 3 倍(0.42 vs 0.14)
  • 总体策略:搜少量候选 → 选最相关的深入阅读

GPT-5-mini 偏探索

  • 更多的搜索调用
  • 更少的文档深入
  • 总体策略:广撒网 → 多条改写查询覆盖

在 BRIGHT 长文档场景中(每个查询平均只有约 1.9 个相关文档,分散在 5650 个长文档中),利用策略更有效——Claude 在 8 个领域中 7 个领先 GPT-5-mini,总体 recall@1 高出 6.1 个百分点。

效果:5.9 倍提升从哪里来

BRIGHT 长文档检索

方法平均 recall@1
BM2511.4%
Qwen 嵌入27.8%
Voyage 嵌入24.5%
ReDI(推理增强)26.0%
AgenticRAG + GPT-5-mini43.5%
AgenticRAG + Claude Sonnet 4.549.6%

Claude Sonnet 4.5 比最优嵌入基线高出21.8 个百分点。在经济学、地球科学、机器人学领域,提升超过 30 个百分点。

关键消融:单次搜索 vs Agent 工具

配置recall@1
单次搜索(底层企业搜索栈)8.41%
+ 完整 Agent 工具49.59%(Claude)/ 43.49%(GPT-5-mini)
提升倍数5.9× / 5.2×

这是论文最重要的发现:底层搜索栈的质量差异在 Agent 能力面前几乎消失了。不需要换更好的嵌入模型、不需要训练重排序器——给 LLM 工具让它自己推理就行。

WixQA 企业 QA

在需要多文档推理的企业支持场景中,GPT-5-mini + AgenticRAG 达到 0.96 的事实性分数,比最佳基线(E5 嵌入,0.85)相对提升 13%。在模拟查询集上,提升更大——达到 0.94 vs 0.77,相对提升 22%。。

FinanceBench 财报问答

84 份长篇财报(平均 143 页、117K token),GPT-5-mini + AgenticRAG 达到92% 正确率。作为对照,直接给模型真实证据(oracle)的正确率是 94%——AgenticRAG仅差 2 个百分点,几乎摸到了理论上限。

Token 成本

BRIGHT 上平均每次查询消耗 52.3K token,相比单次搜索的 20.4K 是2.6 倍开销。但换来的是5.9 倍的召回提升——这个"性价比"相当不错。平均每次查询只需 4.48-4.79 次工具调用,远低于 15 轮上限。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/894725/

相关文章:

  • PTPX功耗报告看不懂?别慌,手把手教你拆解Internal/Switch/Leakage Power
  • 以知识管理赋能 DevSecOps,Gitee Wiki 加速关键领域软件自主演进
  • 2026年热门的贵州室外耐晒磁漆/贵州地坪漆/贵州醇酸磁漆深度厂家推荐 - 行业平台推荐
  • Java八股(第一篇文章)
  • model_optimizer支持用cuteDSL实现自定义fmha算子了
  • 从SEO到AEO:掌握答案引擎优化的核心策略与实践指南
  • 03-替换DeepSeek模型和VSCode中的使用
  • 基于Claude Code与GitHub Actions构建AI驱动的自动化开发流水线
  • 从通用到专属:基于RAG与微调构建领域AI智能体的三层架构与实践
  • 2026年比较好的婚礼家具租赁/发布会家具租赁/宴会家具租赁定制加工厂家推荐 - 品牌宣传支持者
  • Worker模型与并发编程的本质区别及架构选型指南
  • Serverless AI外呼实战:无需运维,5步构建智能营销自动化
  • matlab代做合规科普:拒绝学术作弊,解锁专业技术辅助新方式
  • Linux服务器功耗异常排查?手把手教你用turbostat揪出CPU的‘电老虎’
  • 本地大模型实践:Mac Mini M4部署多模态事件提取系统
  • C51编译器内联函数机制与优化实践
  • 抛弃传统的 RNN!为什么时间卷积网络(TCN)才是时序数据预测的真正利器?
  • 别再傻傻分不清!嵌入式调试接口JTAG和SWD的保姆级接线指南(附J-Link连接图)
  • 基于大语言模型的自然语言转数据库Schema系统设计与实现
  • AI游戏开发制作平台深度评测:12款工具如何选,独立开发者必看避坑指南
  • 大一C语言程序设计期末复习指南
  • C51开发中LROL与LROR函数的非内联实现解析
  • HAMR模型:层次化聚合网络在多轮对话响应选择中的原理与实践
  • 氯酚类化合物电氧化过程PSO-BP-ANN预测模型【附算法】
  • AI结对编程实战:从零构建现代化个人作品集网站
  • Simulcast多流自适应技术详解
  • ARM编译器IPv6许可支持与配置指南
  • 2026年靠谱的无锡不锈钢低压水泵/水泵批量采购厂家推荐 - 行业平台推荐
  • 桌面API客户端集成AI面板:架构设计与开发实践
  • 2026年知名的贵州室外耐晒磁漆/贵州地坪漆品牌厂家推荐 - 行业平台推荐