当前位置: 首页 > news >正文

Agentic Search能替代GraphRAG吗,结论清晰了

2024 年 GraphRAG 爆火以来,「要不要建图」成了 RAG 系统设计中最常被讨论的决策。建图能显著提升多跳推理性能,但代价高昂——实体抽取、图谱构建、索引维护,每一步都是真金白银。

与此同时,agentic search 系统快速崛起——Search-R1、Search-o1、GraphSearch……它们通过多轮迭代检索和推理,在推理过程中动态构建信息结构。这引出了一个本质性问题:

Agentic search 能否补偿 dense RAG 缺失的图结构,从而取代成本高昂的 GraphRAG?

这个问题被讨论了很多次,但始终缺乏严谨的实验回答。原因很简单:不同论文用的 LLM backbone 不同、检索预算不同、评测集不同,甚至评测标准也不同。你看到的「GraphRAG 比 RAG 好 20%」和「agentic RAG 追平 GraphRAG」可能根本不在同一个实验条件下。

NYU Shanghai 的团队决定终结这种混乱。他们建了一个叫RAGSearch的统一基准,把 dense RAG 和五种代表性 GraphRAG 作为可插拔的检索后端,在完全统一的条件下对比了 training-free 和 RL-based 两种 agentic search 范式。

实验设计:控制一切变量

RAGSearch 的核心设计原则是变量隔离

统一的 LLM backbone:所有方法用同一个 Qwen2.5(3B/7B/32B)统一的检索预算:top-5 文档,最多 5 轮搜索统一的评测集:6 个 QA benchmark 的完整测试集(不是采样子集)统一的对齐协议:dense RAG 和 GraphRAG 暴露相同的检索接口

五种 GraphRAG 后端覆盖了不同的建图策略:

  • Tree-based:GraphRAG(微软)、RAPTOR(递归摘要树)
  • Entity Graph:HippoRAG2(实体中心图 + PageRank)
  • HyperGraph:HyperGraphRAG(超边捕获高阶关系)
  • Tri-Graph:LinearRAG(轻量线性三图)

四种 agentic 系统覆盖两种范式:

  • Training-free:Search-o1(推理驱动按需搜索)、GraphSearch(多模块编排工作流)
  • RL-based:Search-R1(GRPO 强化学习)、Graph-R1

核心发现一:单步推理下,GraphRAG 对通用 QA 几乎没用

任务类型Dense RAGGraphRAG ♠差距
通用 QA(NQ/PopQA/TriviaQA)46.62 / 32.14 / 58.60+1.69 / +0.68 /-0.95平均 +0.47
多跳 QA(Hotpot/2Wiki/Musique)19.00 / 35.53 / 20.99+27.70 / +27.03 / +26.96平均+27.23

这组数据非常清晰:GraphRAG 的价值几乎完全集中在多跳推理上。对于通用的事实型问答,Dense RAG 不仅不差,在 TriviaQA 上甚至反超 GraphRAG。

核心发现二:Agentic Search 能缩小差距,但追不平

在 training-free agentic search 下,dense RAG 在多跳 QA 上确实有显著提升。特别是 GraphSearch(带查询分解的多模块工作流),dense RAG 在多跳 QA 上的 GraphRAG 差距从 +27.23 缩小到+7.80,相对缩小了约 **32%**。

但关键在于:GraphRAG 仍然领先

最有说服力的数据来自 GraphSearch 下的 HippoRAG2:

方法HotpotQA2WikiMusique
GraphSearch-Dense38.2247.4313.33
GraphSearch-HippoRAG258.6479.8855.26
差距+20.42+32.45+41.93

即便有了 agentic search 的隐式结构,HippoRAG2 的实体图在 Musique 上仍然领先 Dense RAG 超过 40 个百分点。

核心发现三:RL 训练进一步缩小差距,但结论不变

RL-based agentic search(Search-R1 / Graph-R1)在所有检索后端上都比 training-free 更好。但在多跳 QA 上,GraphRAG 仍然显著领先:

  • Graph-R1-HippoRAG2在 HotpotQA 上达到 51.75%,比 Search-R1-Dense 的 35.76% 高出16 个百分点
  • 在 2Wiki 上差距更大:66.25 vs 33.56(**+32.69**)

核心发现四:GraphRAG 更稳定,这是个被低估的优势

论文做了一个非常重要的稳定性分析:

方法HotpotQA 检索召回HotpotQA EM 方差
Search-o1-Dense79.3833.65 ±1.03
Search-o1-HippoRAG280.2742.36 ±0.22
Graph-R181.6734.82 ±0.95
Graph-R1-HippoRAG283.5053.71 ±0.18

GraphRAG 不只是性能更高,方差显著更低。这意味着 GraphRAG 在 agentic search 中的表现更可预测、更稳定。对于一个生产系统来说,稳定性和平均性能同样重要——你不会想要一个时而 55 分时而 15 分的系统。

核心发现五:更大的 LLM 会缩小差距

从 3B 到 7B,GraphRAG-Dense 平均差距从 14.70 缩小到 9.75。从 7B 到 32B,差距继续小幅缩小(7.80 → 7.19)。

这说明更强的 LLM 能通过推理能力部分弥补结构缺失。但即便在 32B 模型下,GraphRAG 在多跳任务上仍然有实质性优势。

那成本呢?

GraphRAG 的离线构建成本差异巨大:

方法每百万 token 构建时间每百万 token 成本平均检索延迟
Dense RAG~0$0基线
LinearRAG0.68h$01.18s
HippoRAG21.19h$2.851.00s
HyperGraphRAG1.37h$3.930.77s
RAPTOR1.70h$6.388.4s
GraphRAG(微软)1.72h$13.191.16s

LinearRAG 是个有趣的特例——零额外成本(不需要关系抽取),构建时间最短,性能也不错。但即便如此,它在多跳 QA 上仍然比 HippoRAG2 有明显差距。

而微软 GraphRAG 的成本令人咋舌:每百万 token 13.19 美元。对于一个百万级 token 的语料库,光构建就要花上万美元。

我的看法

这篇论文的价值不在于给出一个非此即彼的结论,而在于提供了做决策所需的数据

它的核心洞察可以用一句话概括:

Agentic search 不是在替代显式结构,而是在重新分配结构出现的位置——从离线图构建转移到在线交互。

这意味着你的决策不应该是「GraphRAG 还是 agentic RAG」,而是:

  1. 通用问答场景:Dense RAG + agentic search 就够了。GraphRAG 的边际收益不值得额外成本。
  2. 多跳推理是核心需求:GraphRAG 仍然不可或缺。特别是在需要稳定性和可预测性的生产环境中,HippoRAG2 这样的实体图方案在性能和稳定性上都显著优于 dense RAG。
  3. 预算有限但需要多跳能力:考虑 LinearRAG(零额外成本)+ agentic search,或者用更强的 LLM backbone 来部分补偿结构缺失。
  4. GraphRAG 选型:不要默认用微软 GraphRAG()。(2.85/token)的性能最好,成本只有五分之一。

RAGSearch 的代码和评测脚本已经开源。如果你正在设计一个生产级 RAG 系统,这个基准值得跑一遍——它会告诉你,在你的具体场景下,那些建图成本到底值不值。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/861309/

相关文章:

  • 2026年5月更新:儿童山地自行车生产厂家综合推荐与深度解析 - 2026年企业推荐榜
  • 写给前端的 CANN-GraphCompiler:昇腾图编译器到底是啥?
  • ElevenLabs荷兰文语音生成速度对比实测:从4.2s→0.8s的WebSocket流式优化路径(附可复用代码片段)
  • 选C盘清理厂商不是看名气,是看这5步决策逻辑
  • 《CVPR2025-DEIM创新改进项目实战:从原理到部署的深度学习优化全攻略》017、YOLO-DEIM与DETR-DEIM的调试手记
  • [模型解析] Claude 4: 技术架构与能力评测
  • PHP - PHP 简易 Web 服务器、基础接口开发
  • 将数据从 OPPO 传输到 iPhone 的 4 个有效方案
  • CANN 算子调优:榨干昇腾硬件性能
  • 大模型终于看懂立体几何!中科院联合阿里提出统一形式语言,刷新解析SOTA
  • ElevenLabs河南话合成效果翻车?5大本地化陷阱与97.3%可听度提升实测方案
  • 如何10倍提升英语学习效率:词达人自动化助手终极教程
  • 谷歌收录怎么做比较快?提升网页打开速度至2秒内的优化方案
  • 2026年HR推荐的10个专业简历模板网站,从模板到写法
  • Github创建项目(创建仓库、新建项目、新建仓库)步骤
  • 删库跑路不用怕:带你秒懂数据库的“时光机”功能——PITR
  • ElevenLabs老挝文语音接入全链路详解:从API密钥配置、音色微调到低延迟TTS部署(含Laos Unicode编码避坑清单)
  • ElevenLabs陕西话支持深度测评(含3大隐藏限制与绕过方案):实测87%方言词准确率背后的工程真相
  • 我在大厂做开发的5年:那些996的日子
  • 从文件上传到 RAG 检索:真正看懂了一个 AI 项目的知识库链路
  • Midjourney色调分离失败的7大隐藏诱因,第4种连官方Support都曾误判为GPU故障
  • 1987年7月14日晚上19-21点出生性格、运势和命运
  • 从扁平到触手可及,Midjourney拟物化全流程拆解,含12组高复用材质参数模板与避坑清单
  • 3个核心功能揭秘:JiYuTrainer如何让极域电子教室不再束缚你的学习自由
  • 为HermesAgent配置自定义模型提供商Taotoken
  • Redis分布式锁进阶第一十一篇
  • 仅剩最后87份!《Midjourney蒸汽波风格暗网级资源包》含1980s合成器音源波形图转Prompt工具+失效预警插件
  • 谷歌收录怎么做比较快?Shopify过滤5个无效参数提升商品页收录
  • BOM(全)
  • 2026年当前石家庄不锈钢制品采购指南:深度解析石家庄昂盛装饰工程有限公司 - 2026年企业推荐榜