当前位置：首页 > news >正文

SIGIR 2026 mKG-RAG：把“多模态知识图谱”装进 RAG，让视觉问答不再只靠模型记忆

news 2026/5/9 1:46:48

01｜为什么这篇论文值得关注？

近年来，多模态大语言模型已经能够同时理解图像和文本，并在许多视觉问答任务中表现出很强的能力。比如用户给模型一张图片，再问一句“这是什么建筑？”“图中的动物生活在哪里？”模型通常可以给出看似合理的回答。

但问题在于：看图并不等于知道事实。

在很多知识密集型视觉问答任务中，模型不仅要看懂图像，还必须知道图像背后的百科知识、长尾实体信息、历史信息、地点信息、建筑信息、人物信息等。
这类问题往往不是“图里有什么”，而是：

图中这个体育场最近一次翻新是什么时候？
图中这座清真寺属于什么建筑风格？
图中这个公园由谁维护？
图中这个湖的面积是多少？

这些问题的答案通常无法直接从像素中看出来，而需要外部知识支撑。

作者等人指出，现有多模态大模型在这类知识密集型 VQA 中容易出现两类典型问题：

其一，模型会编造一个看似合理但事实错误的答案。
其二，模型会因为缺少知识而拒绝回答。

这正是知识密集型视觉问答的核心困难：
模型看得见图像，却未必知道图像背后的事实。

02｜传统RAG为什么还不够？

为了解决模型知识不足的问题，RAG，也就是检索增强生成，已经成为一个非常常见的技术路线。它的基本思想是：

当模型不知道答案时，先去外部知识库里检索相关资料，再把检索到的内容交给大模型生成答案。

在文本问答中，这种方法已经非常有效。
在视觉问答中，RAG也被广泛使用：模型先根据图像和问题检索相关文档，再利用这些文档回答问题。

但是作者认为，传统RAG在知识密集型VQA中仍然存在明显缺陷。

传统RAG的第一个问题：检索内容太“散”

很多RAG系统直接检索非结构化文本，比如维基百科段落、网页片段、普通文档块。
这些内容虽然可能包含答案，但也经常夹杂大量噪声。

比如一个文档中可能同时包含地点介绍、历史背景、人物信息、赛事信息、地理位置等。模型拿到这段文本后，还需要自己判断哪些信息与问题真正相关。

这会带来两个后果：

检索内容越多，噪声越多；
模型需要在混乱文本中自己推理，回答更容易出错。

传统RAG的第二个问题：缺少“关系结构”

知识不是孤立的词语，而是由实体和关系构成的。

例如：

“Lago di Tésero Cross-Country Stadium”
与
“World Ski Championship”
之间可能存在“为某赛事进行翻新”的关系。

如果系统只把知识当成普通文本段落，就很难显式表达这种结构。
而知识图谱的优势恰恰在于，它可以把知识组织成：

实体 —— 关系 —— 实体

这种结构比普通文本更紧凑，也更利于推理。传统RAG的第三个问题：视觉和文本没有真正统一：

知识密集型VQA天然是多模态任务。
问题来自文本，线索来自图像，答案来自外部知识。
如果检索器只看文本，可能忽略图像中的关键实体；如果只看图像，又可能忽略问题中的具体意图。

作者认为，真正适合知识密集型VQA的RAG系统，应该同时具备三种能力：

第一，能够理解图像和问题构成的多模态查询。
第二，能够从外部文档中构造结构化知识。
第三，能够在结构化多模态知识中精准检索答案证据。

这正是mKG-RAG想要解决的问题。

03｜mKG-RAG的核心思想：不是检索文档，而是检索多模态知识图谱

作者提出的mKG-RAG，全称可以理解为：

Multimodal Knowledge Graph Retrieval-Augmented Generation

它的核心不是简单地把文档塞给大模型，而是先把外部多模态文档转化为多模态知识图谱，再从图谱中检索与问题最相关的实体、关系和子图。

换句话说，mKG-RAG做了一个重要转换：

从“检索一堆文档”
变成
“检索结构化、多模态、与问题相关的知识子图”。

这种设计的好处在于：

文档中的噪声被压缩；
知识之间的关系被显式表达；
图像信息不再只是附属材料，而是被纳入知识图谱；
检索结果更适合大模型进行最终回答。

04｜整体框架：mKG-RAG分成两大模块

mKG-RAG主要由两个部分组成：

模块一：多模态知识图谱构建

作者首先把外部知识库中的多模态文档转化为结构化知识图谱。
这些文档通常类似维基百科页面，既包含文本，也包含图片。

构建过程包括三个步骤：

1. 文本图谱抽取
作者利用多模态大模型从文本片段中抽取实体和关系。
实体可以是人物、地点、建筑、赛事、自然景观等；关系则描述实体之间的语义连接。

例如：

实体：Half Dome
描述：位于Yosemite Valley东端的花岗岩地貌
关系：Half Dome 位于 Yosemite Valley

这样，原本松散的文本被整理成了“节点—边”的结构。

2. 视觉图谱抽取
仅有文本图谱还不够，因为VQA中的关键线索经常来自图像。

作者使用场景图生成方法，从图片中检测视觉对象以及对象之间的关系。
视觉对象可能包括山、湖、树、人、建筑等；视觉关系可能包括“在……后面”“位于……之中”“属于……”等。

这里的关键是：
作者并不是简单地把整张图片挂到图谱上，而是进一步抽取图像中的区域级对象和关系。

这使得图像信息变得更加细粒度，也更适合与文本知识对齐。

3. 多模态图谱聚合
在文本图谱和视觉图谱分别构建后，mKG-RAG还需要解决一个关键问题：

图像中的对象，如何和文本中的实体对应起来？
图像中的视觉关系，如何和文本中的语义关系对应起来？

作者采用多模态大模型作为视觉—文本匹配器，让模型判断视觉对象和文本实体之间是否对应，视觉关系和文本关系之间是否对应。

例如，图片中的“mountain”区域可以和文本实体“Half Dome”对齐；图片中某两个对象之间的空间关系，也可以和文本中的实体关系进行匹配。

最终，文本图谱成为结构骨架，视觉对象和视觉关系则作为多模态属性附着到相应实体和关系上。
这样，一个真正的多模态知识图谱就被构建出来了。

05｜双阶段检索：先缩小范围，再精细找证据

构建好知识图谱之后，mKG-RAG还需要解决另一个现实问题：

如果知识库中有数百万篇文档，直接在所有图谱节点和边上检索，计算量会非常大。

因此作者设计了一个双阶段检索机制。

第一阶段：粗粒度文档检索

第一阶段的目标不是直接找答案，而是先从大规模知识库中找出最可能相关的候选文档。

给定一张图片和一个问题，mKG-RAG使用作者设计的QM-Retriever计算多模态查询和候选文档之间的相似度，然后取Top-K文档。

这一步相当于先缩小搜索空间：

从海量文档
缩小到少量候选文档。

这样后续图谱检索就不需要面对整个知识库，而只需要在候选文档对应的图谱中进行。

第二阶段：多粒度图检索

第二阶段才是真正的“找证据”。

mKG-RAG会把第一阶段召回的候选文档对应的图谱动态合并成一个面向当前问题的多模态图谱。
然后从这个图谱中检索最相关的：

实体；
关系；
局部子图。

这种设计比普通段落检索更精细，因为它不是只找一段文本，而是在图结构中寻找与问题相关的知识片段。

更重要的是，作者还加入了子图扩展机制。
如果初始检索到某个实体或关系，系统会继续沿着图结构向邻居节点扩展，从而补充可能被遗漏的关键信息。

这一步非常像人在查资料时的过程：

先找到一个核心概念，
再顺着相关人物、地点、事件继续追踪，
最后拼出完整答案。

06｜QM-Retriever：让检索器真正理解“问题想问什么”

mKG-RAG中的另一个关键组件是QM-Retriever，也就是Query-aware Multimodal Retriever。

普通多模态检索器通常更关注“语义相似”。
但在VQA中，仅仅相似是不够的。系统真正需要的是：

与当前问题有关、能够支持答案生成的证据。

例如，图片中出现一座建筑，普通检索器可能找到很多关于这座建筑外观的资料。
但如果问题问的是“谁设计了它”，系统就必须找到设计者相关证据，而不是建筑外观描述。

因此，作者设计的QM-Retriever强调“查询感知”。

它由三个部分组成：

1. Vision Encoder
负责提取图像特征。

2. Question Converter
负责把疑问句映射成更接近陈述式证据的表示。
因为外部文档通常是陈述句，而用户问题通常是疑问句，两者之间存在表达形式差异。

3. Q-Former
负责融合图像信息和问题信息，生成紧凑的多模态查询表示。

07｜训练QM-Retriever：两个目标同时优化

作者为QM-Retriever设计了两个训练目标。

目标一：问题重写式对齐

作者使用语言模型把原始问题转换成更接近证据文本的陈述句。
然后让QM-Retriever学习：原问题和改写后的陈述式表达，在表示空间中应该尽可能接近。

这样做可以缓解“问题”和“证据文本”之间的形式差异。

例如：

问题：这座体育场最近一次翻新是什么时候？
证据形式：这座体育场在2010年为某赛事进行了翻新。

二者语义相关，但语言形式不同。
Question Converter的作用就是帮助模型跨过这种表达差异。

目标二：问题—证据对齐

作者还使用对比学习，让正确的问题—证据对更接近，让错误证据远离。

也就是说，对于一个图像问题，真正支持答案的证据应该在向量空间中排在更前面。
这使得QM-Retriever不仅能找到“相似内容”，更能找到“能回答问题的内容”。

08｜实验设置：两个知识密集型VQA数据集

作者在两个常用知识密集型VQA数据集上进行了实验：

E-VQA

E-VQA包含约5.8K个测试样本，问题需要基于维基百科文档回答。
其中包括两类问题：

Single-Hop：单跳问题，可以从单个页面回答；
Two-Hop：两跳问题，需要跨多个文档进行连续检索。

InfoSeek

InfoSeek包含大量视觉信息查询问题。
作者采用验证集进行评估，其中包括：

Unseen-Q：未见过的问题；
Unseen-E：未见过的实体。

由于InfoSeek没有公开完整知识库，作者使用EchoSight筛选出的E-VQA文档子集作为知识库。

09｜主实验结果：mKG-RAG取得最强整体表现

从主实验结果看，mKG-RAG在E-VQA和InfoSeek上都取得了非常强的表现。

在不进行额外微调的情况下，mKG-RAG已经超过了多个强基线。
在进一步微调后的mKG-RAG*中，模型在E-VQA整体准确率达到36.3%，在InfoSeek整体准确率达到40.5%。

这说明多模态知识图谱不仅能改善检索结果，也能真正提升最终答案质量。

10｜检索实验：QM-Retriever确实更会找证据

除了最终问答准确率，作者还单独评估了检索性能。

对比对象包括：

文本到文本检索；
图像到图像检索；
文本到图像检索；
图像到文本检索；
QM-Retriever多模态检索。

实验结果显示，QM-Retriever在E-VQA和InfoSeek上都明显优于其他检索方式。

在E-VQA上，QM-Retriever的R@10达到46.2；
在InfoSeek上，QM-Retriever的R@10达到78.0。

这说明作者设计的查询感知多模态检索器，确实能够更准确地找到与问题相关的证据。

11｜两跳问题：图结构对复杂推理有帮助，但仍有提升空间

作者还分析了mKG-RAG在单跳问题和两跳问题上的表现。结果显示，mKG-RAG在两跳问题上明显优于零样本LLaVA-MORE。
不过，两跳问题上的提升幅度小于单跳问题。

这说明多模态知识图谱和子图检索确实有助于复杂推理，但如果问题需要多步分解、迭代检索或显式规划，当前方法还有进一步改进空间。

12｜效率分析：图谱构建离线完成，在线成本可控

一个容易被关心的问题是：
多模态知识图谱听起来很复杂，会不会非常慢？

作者的答案是：mKG-RAG的主要计算负担在图谱构建阶段，而这个阶段可以离线完成。
在线阶段主要包括文档检索、图检索和答案生成。

实验中，mKG-RAG相比Naive RAG取得了明显更高的准确率，同时计算成本只增加了一小部分。具体来说，mKG-RAG相较Naive RAG实现了1.37倍的相对准确率提升，而总计算开销只增加到1.14倍。这说明mKG-RAG并不是简单用巨大开销换效果，而是在性能和效率之间取得了较好的平衡。

13｜定性案例：mKG-RAG更少“看似合理地答错”

论文还给出了多个定性案例，对比Qwen2-VL、GPT-4o和mKG-RAG的回答。

这些案例非常直观。
在一些问题中，Qwen2-VL或GPT-4o会给出看似合理但错误的答案；有时GPT-4o甚至会因为缺少信息而拒绝回答。
而mKG-RAG借助外部多模态知识图谱，能够更准确地回答涉及人物、建筑风格、面积、维护机构、数字事实等问题。

例如：

问某个博物馆是谁设计的；
问某个湖的面积是多少；
问某个赛车场的赛道长度；
问某座清真寺的建筑风格；
问某个公园由谁维护。

这些问题都不是单纯看图就能回答的，而需要外部知识。
这也正好体现了mKG-RAG的价值：
它不是让模型凭记忆猜答案，而是让模型带着结构化证据回答问题。

总结：

mKG-RAG展示了一条非常清晰的技术路线：

知识密集型视觉问答，不应该只让模型凭记忆回答；
也不应该只是把长文档塞给模型；
更合理的方式，是把外部知识组织成多模态知识图谱，再从中检索结构化证据。

作者通过多模态图谱构建、双阶段检索、QM-Retriever和子图扩展，让RAG在视觉问答场景中变得更精准、更结构化，也更适合处理长尾知识和百科事实。

这篇论文的价值不只在于刷新了E-VQA和InfoSeek上的结果，更在于它指出了多模态RAG的一个重要方向：

未来的多模态智能系统，不仅要会看图、会读文档，还要会理解知识之间的关系。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～