当前位置：首页 > news >正文

RAG范式革新！SPD-RAG：每个文档一个专属Agent，多文档问答性能暴涨76%，成本直降62%

news 2026/6/15 23:21:50

做过企业级RAG的开发者都懂一个世纪难题：当用户的问题需要综合十几份、甚至上百份文档的信息才能回答时，传统RAG几乎必崩。

要么是top-K检索只捞到了部分相关片段，关键证据直接遗漏，答案错漏百出；要么是把所有文档全塞进长上下文窗口，不仅推理质量断崖式下跌，API成本更是高到离谱。即便是单智能体的Agentic RAG，面对分散在多文档里的碎片化证据，也只会在全局检索里反复横跳，根本做不到“一个文档都不落下”。

而最近来自土耳其TOBB经济与技术大学和OSTIM技术大学的团队，提出了一套颠覆性的多智能体RAG架构SPD-RAG（Sub-Agent Per Document RAG），直接把多文档问答的游戏规则给改了：不给全局检索配一个大模型，而是给每一份文档，都配一个专属的子Agent。

在EMNLP 2024发布的权威长上下文多文档问答基准Loong上，SPD-RAG实现了58.1的平均分，比传统普通RAG和Agentic RAG暴涨了25个绝对分值，相对提升76%；完美回答率直接翻倍，同时只用了全上下文基线37.9%的API成本，就达到了其85.4%的性能。

一、多文档问答的死局：传统RAG的两大致命缺陷

我们先看Loong基准的核心要求：Leave No Document Behind。这个基准里的每一个问题，都需要综合平均11份文档的信息才能正确回答，上下文长度从10K到250K tokens不等，覆盖财报、学术论文两大高难度场景，分为定位、对比、聚类、推理链四大任务类型。

而传统方案在这个场景里，几乎全踩中了致命陷阱：

传统RAG：证据覆盖天生不足
标准的top-K全局检索，本质是“从海量文档里捞最相关的几个片段”。但当答案需要从每一份文档里提取一个关键信息再综合时，top-K检索必然会漏掉大量关键证据，最终答案只能是管中窥豹。
长上下文全量投喂：成本与性能的双输
把所有文档全塞进大模型上下文，看似解决了覆盖问题，却触发了大模型“Lost in the middle”的通病——上下文越长，推理质量越差；同时，250K tokens的输入，让单轮API成本直接飙升，规模化落地完全不现实。
单智能体Agentic RAG：越检索越偏
即便是能多轮检索的ReAct智能体，面对全局文档库也会陷入“检索噪声陷阱”：跨文档的干扰片段会不断带偏检索方向，最终不仅没拿到完整证据，还消耗了3倍的token，性能却和普通RAG没区别。

而SPD-RAG的核心洞察，直击问题本质：多文档问答的瓶颈，从来都不是检索的top-K有多大，也不是上下文窗口有多长，而是有没有让每一份文档，都得到充分、独立、深度的信息挖掘。

二、SPD-RAG架构：按文档拆分的分层多智能体体系

SPD-RAG没有走“任务拆分”的传统多智能体路线，而是开创性地沿文档轴拆解问题，整个架构分为三大核心层，从任务拆解、并行信息提取到最终答案合成，形成了一套完整的闭环。

图1 SPD-RAG整体架构

1. 协调层：全局任务的总指挥

用户的查询进来后，首先由协调器智能体完成核心拆解：

• 生成共享提取任务清单：把用户的复杂问题，拆解成一组原子化、自包含的信息提取任务，告诉所有子Agent要从文档里找什么内容；
• 生成合成指令：用2-4句话，告诉下游合成层该如何优先级排序、如何结构化输出最终答案。

最关键的是，协调器不需要知道文档的任何信息，只需要拆解用户的查询，保证所有子Agent的提取目标完全对齐。

2. 并行检索层：每个文档的专属RAG专家

这是SPD-RAG最核心的创新：给语料库里的每一份文档，都分配一个独立的子Agent。

• 每个子Agent的检索范围，被严格限制在自己负责的单份文档内，把这份文档当成一个独立的检索宇宙，彻底避免了跨文档的噪声干扰；
• 子Agent遵循严格的迭代检索-推理循环，针对共享任务清单，发起最多5轮聚焦检索，先做向量检索再重排序，确保把文档里所有相关信息都挖出来；
• 最终输出文档专属的发现报告+置信度分数，所有子Agent的执行过程完全并行，文档越多，并行带来的效率优势越明显。

为了控制成本，团队给子Agent选用了低成本的Gemini 2.5 Flash模型，在保证信息提取能力的同时，把单文档处理成本压到了极致。

3. 合成层：支持超大规模语料的递归合并

当所有子Agent的报告汇总后，合成层会通过一套相似度排序的递归map-reduce流水线，完成最终的答案合成：

对所有子Agent的报告做向量嵌入，计算余弦相似度矩阵，通过层次聚类把语义相似的报告聚在一起；
按照token预算（75万tokens），把聚类后的报告分批合成，每一批的合成调用全并行执行；
循环执行合并，直到所有内容被整合成一份符合上下文窗口限制的最终答案。

在Loong基准的实验里，Gemini 2.5 Pro的1M-token窗口足以一次性处理所有子Agent的报告，但这套递归机制，为未来处理数百、数千份文档的超大规模语料，留下了完整的可扩展性。

三、炸裂实验结果：全场景碾压传统RAG，成本效率封神

团队在Loong基准的102个测试用例上，完成了全面的对照实验，所有系统均以Gemini 2.5 Pro为骨干模型，保证了对比的公平性。

1. 主结果：性能翻倍，成本腰斩

System	Avg Score	PR (%)	Avg Cost ($)	Avg Latency (s)
全上下文基线	68.0	31.4	0.273	45.6
普通RAG	33.0	13.7	0.080	42.6
Agentic RAG	32.8	8.8	0.098	40.6
SPD-RAG	58.1	18.6	0.103	54.8

表1 Loong基准主实验结果

从核心数据可以看到：

• SPD-RAG的平均分达到58.1，比普通RAG和Agentic RAG高出25个绝对分值，相对提升76%；
• 完美回答率（PR%）达到18.6%，是Agentic RAG的2倍还多，意味着它能更频繁地捕获所有关键事实，给出完全正确的答案；
• 最惊人的是成本效率：SPD-RAG只用了全上下文基线37.9%的成本，就实现了其85.4%的性能，成本性价比直接拉满。

2. 任务类型：复杂综合任务提升最显著

SPD-RAG的优势，在越需要跨文档综合的任务里，表现得越突出。

图2 不同任务类型的平均分对比

• 对比任务：SPD-RAG得分42.2，几乎追平全上下文基线的42.7，因为子Agent能精准提取每份文档的可比字段，合成层只需要做结构化汇总；
• 聚类任务：比普通RAG高出40.5个分值，相对提升超260%，彻底解决了传统RAG在跨文档分类聚合上的天然缺陷；
• 推理链任务：比Agentic RAG高出26.2个分值，证明了按文档深度提取的信息，能完美支撑多步逻辑推理。

3. 领域表现：学术论文场景传统RAG直接“摆烂”

最能体现SPD-RAG价值的，是学术论文领域的表现：

System	学术论文 (n=40)	财报 (n=62)
全上下文基线	78.8/30.0%	61.0/32.3%
普通RAG	15.2/0.0%	44.5/22.6%
Agentic RAG	16.8/0.0%	43.1/14.5%
SPD-RAG	60.0/7.5%	56.9/25.8%

表3 不同文档领域的平均分/完美率

学术论文的证据往往分散在摘要、方法、结果、附录等多个部分，传统RAG的全局检索完全抓不到完整信息，完美率直接为0，平均分不足17分；而SPD-RAG通过单文档专属Agent的深度挖掘，直接把平均分拉到60分，补上了传统RAG最大的短板。

4. 成本效率：性价比是全上下文基线的2.25倍

System	Avg Score	Avg Cost ($)	得分/每美元
全上下文基线	68.0	0.273	249.1
普通RAG	33.0	0.080	412.5
Agentic RAG	32.8	0.098	334.7
SPD-RAG	58.1	0.103	564.1

表4 成本-质量效率对比

图4 成本-质量帕累托前沿

SPD-RAG的“得分/每美元”达到564.1，是全上下文基线的2.25倍，比普通RAG高出36.7%。而Agentic RAG则完全被帕累托占优——花了更多的钱，却得到了更差的效果。

四、局限与未来展望

当然，SPD-RAG也并非完美无缺。论文中坦诚，它和全上下文基线还有9.9分的差距，主要来自三个方面：子Agent使用的低成本小模型推理能力有限、协调器的任务拆解对高度技术化的学术内容可能不够精准、Loong基准的250K tokens上下文还没到长上下文模型的极限，在更大规模的语料里，SPD-RAG的优势会更加明显。

同时，本次实验里，递归合成的能力没有被真正激活，未来团队会在数百、数千份文档的超大规模语料上，验证这套架构的可扩展性。

但不可否认的是，SPD-RAG彻底打破了传统RAG的设计范式。它告诉我们：想要做好大规模多文档问答，不是让一个大模型去看更多的内容，而是让无数个专业的小Agent，把每一份文档都读懂读透，再把所有信息汇总到一起。

在企业级RAG逐渐走向大规模、多文档、深度综合的今天，SPD-RAG的出现，为低成本、高准确率、可扩展的多文档问答，提供了一条全新的、可落地的路径。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～