当前位置: 首页 > news >正文

EvoRAG:知识图谱也学会了进化~

如果你用过 RAG 系统,大概率遇到过这种情况:明明知识库里明明有正确答案,系统就是答不对。问题不在模型不够大,也不在数据不够多——而是知识图谱里堆满了"正确的废话"。

一篇来自东北大学的论文EvoRAG发现:在 KG-RAG 的所有错误回答中,不相关事实、推理路径过长和过时信息这三类问题加在一起,占了总错误的一半以上。换句话说,知识图谱不是"没有知识",而是"有用的知识被淹没了"。

知识图谱 RAG 的三大"致命伤"

先说清楚 KG-RAG 是什么。简单讲,就是把外部文本构建成结构化的知识图谱(实体-关系-实体的三元组网络),然后当用户提问时,从图谱里找出一条条推理路径喂给大模型,帮它答得更好。

听起来很美,但现实很骨感。作者分析了现有最优方法 KRAG 在两个数据集上的错误,归纳出三类主要问题:

  • 不相关事实(17.9%):你问"Bob 在哪里上班",它把"Bob 住在 Niva"也检索出来了。语义相关,但跟答案无关。
  • 推理路径太长(20.7%):正确答案需要 3 跳推理,但检索策略只配了 2 跳,关键路径直接丢失。
  • 过时信息(11.9%):知识图谱里还存着"Bob 在 Zelo 上班",但这公司 2020 年就倒闭了。

这三类问题加起来超过 50%,而且有一个共同特征:它们都是"知识图谱本身的问题",不是模型的问题。你换 GPT-4、换 Qwen、加更多数据,该错还是错。

EvoRAG 的核心思路:把"反传"搬进知识图谱

EvoRAG 做了一件很巧妙的事:借鉴了深度学习中"反向传播"的思想,把用户反馈一层层传回知识图谱里的每一个三元组。

整个过程分三步:

第一步:收集反馈。用户提问后,系统用 LLM 对生成的回答打分(1-5 分),或者用人工评分、与标准答案对比。这个分数就是"反馈信号"。

第二步:路径评分。反馈是给整个回答的,但回答可能用了很多条推理路径。EvoRAG 用 LLM 从三个维度评估每条路径的贡献:这条路径是支持了回答还是误导了回答(Supportiveness)、它对回答的贡献有多大(Fidelity)、它跟回答有没有矛盾(Conflict)。

第三步:梯度反传。这是最关键的一步。每条路径的"效用分"被反向传播到路径里的每一个三元组上,更新它的"贡献分数"。经常出现在好答案路径里的三元组,分数越传越高;经常出现在坏答案路径里的,分数越压越低。

这个过程跟神经网络的梯度下降非常像——只不过优化的不是模型参数,而是知识图谱里每个三元组的"可信度权重"。

知识图谱怎么"进化"

有了每个三元组的贡献分数,EvoRAG 做了两件事来改造知识图谱:

关系融合:如果一条多跳路径上的三元组贡献分都很高(超过均值+标准差),就在起点和终点之间直接加一条"捷径边",下次检索就不用绕远路了。这解决了推理路径过长的问题。

关系抑制:贡献分持续偏低的三元组,检索时会被降权。不是直接删除——如果其他查询需要它,它还有机会"翻身"。这解决了不相关事实和过时信息的干扰。

经过这样一轮一轮的迭代,知识图谱就变成了一个"越用越准"的活系统。

实验结果:稳定且全面的提升

作者在三个数据集(RGB、MultiHop、HotpotQA)上做了对比实验,基线包括微软 GraphRAG、LightRAG 和当前最优的 KRAG,以及各种知识图谱精炼方法。

准确率提升

EvoRAG 平均比现有 KG-RAG 框架准确率高 **7.34%**,比加了精炼方法的版本高 **13.80%**。准确率(ACC)、精确匹配(EM)和 F1 分数在三个数据集上全面领先。

而且好消息是:大约 6 轮迭代后性能就稳定了。在 RGB 数据集上,83% 的问题三元组被成功清理。

不仅更准,还更快

因为低质量三元组被过滤掉了,喂给大模型的 prompt 变短了。EvoRAG 的 prompt 长度平均只有其他方法的1/4.6,这意味着推理更快、成本更低。

一个真实案例

以 HotpotQA 数据集里的一个问题为例:在原始检索中,一条包含事实错误的路径因为语义相似度高,排名靠前,导致正确路径被压制。经过 8 轮反馈迭代后,EvoRAG 逐步压低了错误三元组的贡献分,同时抬高了正确路径的权重,最终系统给出了正确答案。

## 学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/716109/

相关文章:

  • 5分钟掌握Translumo:Windows平台最强实时屏幕翻译工具终极指南
  • 性价比高的西藏旅游团推荐:2026年价格透明度与纯玩保障优选指南 - 科技焦点
  • 《打造高准确率QClaw知识库:从清洗到拆分的完整实操流程》
  • 在R语言的生态系统中,字符串处理一直是一个重要且复杂的任务
  • 手把手教你搭建RTK差分定位基站:从LC29H模块到NTRIP Caster数据上传
  • 从零基础到实战精通:2026年大模型系统学习路线指南
  • 【2026年最新】亲测好用的3个英文降ai率攻略(内含免费降ai方法) - 殷念写论文
  • 5个理由告诉你:为什么iwrqk是二次元爱好者必备的Flutter客户端
  • 告别炸机!用PX4 SITL在Gazebo里安全调试你的无人机代码(保姆级环境搭建)
  • CH58x蓝牙芯片DataFlash读写避坑指南:从Sector擦除到字节写入的实战心得
  • WeChatExporter:免费开源的微信聊天记录备份与隐私保护终极方案
  • 04-10-02 论题和结论 - 学习笔记
  • CompressO:3大核心功能助你轻松压缩视频图像,节省90%存储空间
  • 降AI率工具横评:免费试用/不达标退款/服务时长哪款综合性价比高? - 我要发一区
  • Agent群体智能来了!魔搭开源Agent自进化群体智能框架:群体记忆自动蒸馏与进化,8万+群体技能即取即用,智能体画像一键复用
  • 从Livox Viewer2到ROS:HAP激光雷达点云数据处理的进阶玩法(bag转pcd实战)
  • 2026年玻璃双边磨边机厂家选型参考与对比解析
  • HTTP代理 VS SOCKS5代理:核心区别详解与选择场景
  • 知网/万方双重机检底座下,哪些降重软件可以同时降低查重率和AIGC疑似率?
  • 稀疏自编码器在音频模型解释中的原理与实践
  • 降AI工具综合性价比横评:速度+效果+售后承诺3维度毕业生必看! - 我要发一区
  • 英文的AI率怎么降?6款英文降ai率工具免费盘点(亲测有效,含避坑点) - 殷念写论文
  • Cursor设备指纹伪装工具:原理、配置与实战指南
  • Tinke:NDS游戏资源解包与修改的完整技术解决方案
  • 手把手教你用Python和开源数据,可视化分析全球地球同步卫星分布(附中国卫星数据)
  • 研发初期,如何筛选高配合度的机器人精密加工商?
  • 3个核心场景+5个实战技巧:用OpenModScan搞定工业设备调试的完整指南
  • Docker AI Toolkit 2026发布即淘汰旧版?3类企业已紧急迁移——你的AI MLOps栈是否仍在裸奔?
  • 分布式事务在电商项目中的实战指南:从Seata到RocketMQ
  • 终极Android UI模板解决方案:70+专业设计模板加速应用开发