Agentic Search能替代GraphRAG吗,结论清晰了
2024 年 GraphRAG 爆火以来,「要不要建图」成了 RAG 系统设计中最常被讨论的决策。建图能显著提升多跳推理性能,但代价高昂——实体抽取、图谱构建、索引维护,每一步都是真金白银。
与此同时,agentic search 系统快速崛起——Search-R1、Search-o1、GraphSearch……它们通过多轮迭代检索和推理,在推理过程中动态构建信息结构。这引出了一个本质性问题:
Agentic search 能否补偿 dense RAG 缺失的图结构,从而取代成本高昂的 GraphRAG?
这个问题被讨论了很多次,但始终缺乏严谨的实验回答。原因很简单:不同论文用的 LLM backbone 不同、检索预算不同、评测集不同,甚至评测标准也不同。你看到的「GraphRAG 比 RAG 好 20%」和「agentic RAG 追平 GraphRAG」可能根本不在同一个实验条件下。
NYU Shanghai 的团队决定终结这种混乱。他们建了一个叫RAGSearch的统一基准,把 dense RAG 和五种代表性 GraphRAG 作为可插拔的检索后端,在完全统一的条件下对比了 training-free 和 RL-based 两种 agentic search 范式。
实验设计:控制一切变量
RAGSearch 的核心设计原则是变量隔离:
统一的 LLM backbone:所有方法用同一个 Qwen2.5(3B/7B/32B)统一的检索预算:top-5 文档,最多 5 轮搜索统一的评测集:6 个 QA benchmark 的完整测试集(不是采样子集)统一的对齐协议:dense RAG 和 GraphRAG 暴露相同的检索接口
五种 GraphRAG 后端覆盖了不同的建图策略:
- Tree-based:GraphRAG(微软)、RAPTOR(递归摘要树)
- Entity Graph:HippoRAG2(实体中心图 + PageRank)
- HyperGraph:HyperGraphRAG(超边捕获高阶关系)
- Tri-Graph:LinearRAG(轻量线性三图)
四种 agentic 系统覆盖两种范式:
- Training-free:Search-o1(推理驱动按需搜索)、GraphSearch(多模块编排工作流)
- RL-based:Search-R1(GRPO 强化学习)、Graph-R1
核心发现一:单步推理下,GraphRAG 对通用 QA 几乎没用
| 任务类型 | Dense RAG | GraphRAG ♠ | 差距 |
|---|---|---|---|
| 通用 QA(NQ/PopQA/TriviaQA) | 46.62 / 32.14 / 58.60 | +1.69 / +0.68 /-0.95 | 平均 +0.47 |
| 多跳 QA(Hotpot/2Wiki/Musique) | 19.00 / 35.53 / 20.99 | +27.70 / +27.03 / +26.96 | 平均+27.23 |
这组数据非常清晰:GraphRAG 的价值几乎完全集中在多跳推理上。对于通用的事实型问答,Dense RAG 不仅不差,在 TriviaQA 上甚至反超 GraphRAG。
核心发现二:Agentic Search 能缩小差距,但追不平
在 training-free agentic search 下,dense RAG 在多跳 QA 上确实有显著提升。特别是 GraphSearch(带查询分解的多模块工作流),dense RAG 在多跳 QA 上的 GraphRAG 差距从 +27.23 缩小到+7.80,相对缩小了约 **32%**。
但关键在于:GraphRAG 仍然领先。
最有说服力的数据来自 GraphSearch 下的 HippoRAG2:
| 方法 | HotpotQA | 2Wiki | Musique |
|---|---|---|---|
| GraphSearch-Dense | 38.22 | 47.43 | 13.33 |
| GraphSearch-HippoRAG2 | 58.64 | 79.88 | 55.26 |
| 差距 | +20.42 | +32.45 | +41.93 |
即便有了 agentic search 的隐式结构,HippoRAG2 的实体图在 Musique 上仍然领先 Dense RAG 超过 40 个百分点。
核心发现三:RL 训练进一步缩小差距,但结论不变
RL-based agentic search(Search-R1 / Graph-R1)在所有检索后端上都比 training-free 更好。但在多跳 QA 上,GraphRAG 仍然显著领先:
- Graph-R1-HippoRAG2在 HotpotQA 上达到 51.75%,比 Search-R1-Dense 的 35.76% 高出16 个百分点
- 在 2Wiki 上差距更大:66.25 vs 33.56(**+32.69**)
核心发现四:GraphRAG 更稳定,这是个被低估的优势
论文做了一个非常重要的稳定性分析:
| 方法 | HotpotQA 检索召回 | HotpotQA EM 方差 |
|---|---|---|
| Search-o1-Dense | 79.38 | 33.65 ±1.03 |
| Search-o1-HippoRAG2 | 80.27 | 42.36 ±0.22 |
| Graph-R1 | 81.67 | 34.82 ±0.95 |
| Graph-R1-HippoRAG2 | 83.50 | 53.71 ±0.18 |
GraphRAG 不只是性能更高,方差显著更低。这意味着 GraphRAG 在 agentic search 中的表现更可预测、更稳定。对于一个生产系统来说,稳定性和平均性能同样重要——你不会想要一个时而 55 分时而 15 分的系统。
核心发现五:更大的 LLM 会缩小差距
从 3B 到 7B,GraphRAG-Dense 平均差距从 14.70 缩小到 9.75。从 7B 到 32B,差距继续小幅缩小(7.80 → 7.19)。
这说明更强的 LLM 能通过推理能力部分弥补结构缺失。但即便在 32B 模型下,GraphRAG 在多跳任务上仍然有实质性优势。
那成本呢?
GraphRAG 的离线构建成本差异巨大:
| 方法 | 每百万 token 构建时间 | 每百万 token 成本 | 平均检索延迟 |
|---|---|---|---|
| Dense RAG | ~0 | $0 | 基线 |
| LinearRAG | 0.68h | $0 | 1.18s |
| HippoRAG2 | 1.19h | $2.85 | 1.00s |
| HyperGraphRAG | 1.37h | $3.93 | 0.77s |
| RAPTOR | 1.70h | $6.38 | 8.4s |
| GraphRAG(微软) | 1.72h | $13.19 | 1.16s |
LinearRAG 是个有趣的特例——零额外成本(不需要关系抽取),构建时间最短,性能也不错。但即便如此,它在多跳 QA 上仍然比 HippoRAG2 有明显差距。
而微软 GraphRAG 的成本令人咋舌:每百万 token 13.19 美元。对于一个百万级 token 的语料库,光构建就要花上万美元。
我的看法
这篇论文的价值不在于给出一个非此即彼的结论,而在于提供了做决策所需的数据。
它的核心洞察可以用一句话概括:
Agentic search 不是在替代显式结构,而是在重新分配结构出现的位置——从离线图构建转移到在线交互。
这意味着你的决策不应该是「GraphRAG 还是 agentic RAG」,而是:
- 通用问答场景:Dense RAG + agentic search 就够了。GraphRAG 的边际收益不值得额外成本。
- 多跳推理是核心需求:GraphRAG 仍然不可或缺。特别是在需要稳定性和可预测性的生产环境中,HippoRAG2 这样的实体图方案在性能和稳定性上都显著优于 dense RAG。
- 预算有限但需要多跳能力:考虑 LinearRAG(零额外成本)+ agentic search,或者用更强的 LLM backbone 来部分补偿结构缺失。
- GraphRAG 选型:不要默认用微软 GraphRAG()。(2.85/token)的性能最好,成本只有五分之一。
RAGSearch 的代码和评测脚本已经开源。如果你正在设计一个生产级 RAG 系统,这个基准值得跑一遍——它会告诉你,在你的具体场景下,那些建图成本到底值不值。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
