当前位置：首页 > news >正文

大模型---多模态RAG与GraphRAG

news 2026/6/14 12:32:02

一.多模态RAG

1.Multimodal RAG系统架构

2.三种主流架构

（1）共享向量空间（common embedding space）

（2）多路并行检索（parallel retrieval pipelines）

（3）先“落到共同模态”（grounding in a common modality）

二.GraphRAG

1.GraphRAG的索引与查询

2.GraphRAG的优缺点

3.GraphRAG和传统的知识图谱问答系统(KBQA)的区别

如学到更深入的知识会继续补充~

一.多模态RAG

之前这篇博客讲了RAG，现在讲一下Multimodal RAG（MM-RAG）：

大模型---RAG

本质上是把传统 RAG 从“只检索文本”扩展为“检索并利用多种模态的信息”，这些模态可以包括文本、图片、表格、图表、版式、音频、视频等。具体来说，MM-RAG在检索和生成两个阶段都引入多模态外部知识，以弥补纯文本 RAG 的局限；当问题需要同时理解视觉和文本信息时，MM-RAG 往往优于传统文本 RAG。

例如，用户问“这份 PDF 里的审批流程图怎么走？”如果关键信息在一张嵌在 PDF 中的流程图里，普通文本 RAG 可能找不到；而多模态 RAG 可以把图中的视觉信息也纳入检索和回答。

下面是RAG的流程图，RAG到MM-RAG主框架并没有变，变的是“索引对象”，“检索对象”和“生成模型”，也就是index，retrieval，generation都可以扩展到图像场景，输入可以是文本或图像，知识库也可以由文本或图像组成，回答时用到的上下文也可以是文本或图像，最终输出同样可以是文本或图像。

1.Multimodal RAG系统架构

下图是Multimodal RAG系统架构：

图中有两条主线：① 紫色箭头：离线建库/索引流程(Indexing)；② 绿色箭头：在线问答/推理流程(Inference)。先说一下系统整体逻辑：企业数据先被处理并建立索引，用户提出问题，系统把问题向量化，接着去向量库里检索相关多模态内容，把“用户问题+相关内容”拼成prompt交给 LVLM (Large Vision-Language Model)推理，最后输出结果并做后处理。

下面分别说一下两条路径：

紫色路径这一部分是离线准备知识库，也就是系统在用户提问之前就要先完成的工作。最左上角是 Enterprise Data，代表企业内部原始数据源。包括图片和视频，企业原始图片和视频不能直接拿去检索，所以要先经过Ingest/Data Processing(摄取与数据处理)。

对图片：首先读取图片文件，提取配套文字，如果没有文字，就生成caption，也就是图片描述，形成image-text pair。
对视频：首先抽关键帧，做字幕对齐，没字幕时做ASR(语音转文字)，没语音可转时，给视频帧生成描述。

这一步就是把原始多模态数据转成适合后面embedding和检索的表示形式。

接下来进入Embedding Model(嵌入模型)，这里BridgeTower/bridgetower-large，会把多模态内容编码成向量表示，方便存入向量数据库，也就是把多模态内容“翻译”成机器可以相似度检索的向量空间表示。

Embedding 完成后，数据被写入 Index / Vector Database（索引/向量数据库）。图中使用LanceDB作为向量数据库来保存这些多模态向量表示，其会根据query embedding找到最相关的图片、视频片段或图文对。

总结来说，紫色部分就是数据处理-->多模态embedding-->写入向量库。这就是离线建库的过程。

绿色路径用来表示用户真正提问时，系统如何工作的。首先，用户先输入问题，也就是User Query，用户问题会进入同一个Embedding Model，也就是说，系统不仅把企业图片/视频向量化，也要把用户query向量化（query embedding）。只有把用户问题和知识库内容映射到同一个可比较空间里，才能做相似度检索。

接下来是Retrieval/Rank（检索与排序），首先是检索，从向量数据库中召回一批与 query 最相似的多模态内容，比如召回若干张相关图片，某几个视频片段，若干组图

查看全文

http://www.jsqmd.com/news/599961/