当前位置：首页 > news >正文

这次走对了，微软AgenticRAG实测5.9倍提升

news 2026/5/27 5:28:58

今天为大家分享微软 Copilot Studio 团队的一篇论文——AgenticRAG。

标准RAG的根本问题

传统 RAG 架构的逻辑很直观：用户提问 → 搜索系统检索相关文档 → 把文档塞进 prompt → LLM 生成答案。

这个架构有一个被广泛忽视的根本假设：检索决定在 LLM 开始推理之前就已经做完了。LLM 接收的是一个固定的文档候选集，没有机会说"这个文档看起来有用，让我进去翻一翻"，也没有机会说"这几条结果都不对，让我换个角度再搜一次"。

对于简单的知识查询（“什么是机器学习”），这个架构没问题。但在企业场景里，知识工作者的查询往往是这样的：

“SAP 系统在多租户模式下怎么配置 OAuth 2.0？”
“我们上季度 SaaS 收入中，有多少来自年付合同？”
“这个 Jenkins pipeline 的超时问题怎么排查？”

这些查询有两个特点：高度情境化（需要结合多个上下文理解意图），且答案分散在多份长文档中。标准搜索栈擅长关键词匹配和短语义查询，但处理不了这种需要多步推理的信息需求。

把检索权交给LLM

AgenticRAG 的核心思想极其朴素：不要让搜索系统替 LLM 做决定，给 LLM 工具，让它自己决定搜什么、看什么、翻到哪里。

具体来说，论文在现有企业搜索栈之上，加了一层轻量级的 Agent 工具框架，包含四个工具：

四个工具

search— 企业级文档发现。委托给底层企业搜索栈（如 Azure AI Search），每次调用最多并行发出 5 条查询改写。返回 snippet、标题、文件名、文件类型等元数据。每条结果分配唯一引用 ID，供后续工具使用。

find— 文档内搜索。给定一个引用 ID 和一组关键词模式，在目标文档内做精准搜索。支持词汇匹配（大小写不敏感子串匹配）和可选的语义匹配模式。每个模式最多返回 2 个匹配段落，总 token 限制约 11K。

open— 滚动窗口文档阅读。每次返回 1800 行的固定窗口。响应头包含当前位置和总长度（如 “Viewing lines [0–1799] of 3000 lines”）。模型可以通过指定行号跳转到文档任意位置，实现对超长文档的逐段导航。

summarize— 上下文压缩。当 token 使用量接近 128K 预算时自动触发。模型记录当前推理结论，标注要保留的引用 ID，系统清除未引用的工具返回内容，释放 token 空间。

推理循环

整个系统运行在一个有界迭代循环中（默认最多 15 轮）。每一轮，LLM 看到当前对话历史和工具 schema，要么选择调用工具并追加结果到对话，要么直接输出最终答案。

终止条件只有两个：

模型主动输出文本回答
达到最大迭代次数，强制生成回答

这个设计有一个关键优势：完全不需要模型微调、自定义嵌入模型、图构建或语料预处理。只要企业搜索栈已经把文档索引好，直接套上这个工具框架就能用。

方法细节

搜索结果如何被利用

search 返回的是 snippet 预览，不包含完整文档内容。这意味着模型看到搜索结果后，需要做出判断：哪些文档值得深入查看？用什么方式查看？

这里有两个精度工具可以选：

find适合"知道要找什么"的场景——比如"在这份财报里找到净利润这一行"
open适合"知道要看哪里"的场景——比如"打开这个文档的第 500 行附近，看看那个表格"

论文通过系统提示（system prompt）引导模型正确使用工具，比如"先搜索再回答"、“片段不够就用 find 或 open 深入”、“不要重复搜索，复用之前的结果”。

多查询并行搜索

search 工具的一个设计亮点：模型可以在一次 tool call 中同时发出最多 5 条查询改写。结果去重后合并返回。

消融实验表明，这个功能对性能几乎没有影响（44.84% vs 49.59%），但显著提升了效率——平均工具调用次数从 6.79 降到 4.79，减少了 29%。多条查询并行执行比多轮串行更节省迭代次数。

上下文管理机制

四个工具中，每次调用可以加载约 11K token 的文档内容。如果推理链很长，128K 的上下文窗口很容易被用完。

AgenticRAG 的解决方案是两阶段触发：

对话达到 90% 预算时发出内部警告
达到 100% 预算时强制触发 summarize

summarize 的核心机制不是简单截断，而是选择性保留：模型标注哪些引用 ID 需要保留，系统扫描工具消息，删除未被引用的内容。这意味着 LLM 可以持续深入调查，不用担心上下文爆炸。

Claude 和 GPT-5-mini 的策略差异

论文在消融中发现了一个有趣的现象：两个模型展现了不同的"探索-利用"策略。

Claude Sonnet 4.5 偏利用：

更少的搜索调用（2.51 vs 3.39）
更多的文档打开（1.54 vs 1.22）
语义 find 使用量是 GPT-5-mini 的 3 倍（0.42 vs 0.14）
总体策略：搜少量候选 → 选最相关的深入阅读

GPT-5-mini 偏探索：

更多的搜索调用
更少的文档深入
总体策略：广撒网 → 多条改写查询覆盖

在 BRIGHT 长文档场景中（每个查询平均只有约 1.9 个相关文档，分散在 5650 个长文档中），利用策略更有效——Claude 在 8 个领域中 7 个领先 GPT-5-mini，总体 recall@1 高出 6.1 个百分点。

效果：5.9 倍提升从哪里来

BRIGHT 长文档检索

方法	平均 recall@1
BM25	11.4%
Qwen 嵌入	27.8%
Voyage 嵌入	24.5%
ReDI（推理增强）	26.0%
AgenticRAG + GPT-5-mini	43.5%
AgenticRAG + Claude Sonnet 4.5	49.6%

Claude Sonnet 4.5 比最优嵌入基线高出21.8 个百分点。在经济学、地球科学、机器人学领域，提升超过 30 个百分点。

关键消融：单次搜索 vs Agent 工具

配置	recall@1
单次搜索（底层企业搜索栈）	8.41%
+ 完整 Agent 工具	49.59%（Claude）/ 43.49%（GPT-5-mini）
提升倍数	5.9× / 5.2×

这是论文最重要的发现：底层搜索栈的质量差异在 Agent 能力面前几乎消失了。不需要换更好的嵌入模型、不需要训练重排序器——给 LLM 工具让它自己推理就行。

WixQA 企业 QA

在需要多文档推理的企业支持场景中，GPT-5-mini + AgenticRAG 达到 0.96 的事实性分数，比最佳基线（E5 嵌入，0.85）相对提升 13%。在模拟查询集上，提升更大——达到 0.94 vs 0.77，相对提升 22%。。

FinanceBench 财报问答

84 份长篇财报（平均 143 页、117K token），GPT-5-mini + AgenticRAG 达到92% 正确率。作为对照，直接给模型真实证据（oracle）的正确率是 94%——AgenticRAG仅差 2 个百分点，几乎摸到了理论上限。

Token 成本

BRIGHT 上平均每次查询消耗 52.3K token，相比单次搜索的 20.4K 是2.6 倍开销。但换来的是5.9 倍的召回提升——这个"性价比"相当不错。平均每次查询只需 4.48-4.79 次工具调用，远低于 15 轮上限。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～