当前位置: 首页 > news >正文

大模型---多模态RAG与GraphRAG

目录

一.多模态RAG

1.Multimodal RAG系统架构

2.三种主流架构

(1)共享向量空间(common embedding space)

(2)多路并行检索(parallel retrieval pipelines)

(3)先“落到共同模态”(grounding in a common modality)

二.GraphRAG

1.GraphRAG的索引与查询

2.GraphRAG的优缺点

3.GraphRAG和传统的知识图谱问答系统(KBQA)的区别


如学到更深入的知识会继续补充~

一.多模态RAG

之前这篇博客讲了RAG,现在讲一下Multimodal RAG(MM-RAG):

大模型---RAG

本质上是把传统 RAG 从“只检索文本”扩展为“检索并利用多种模态的信息”,这些模态可以包括文本、图片、表格、图表、版式、音频、视频等。具体来说,MM-RAG在检索和生成两个阶段都引入多模态外部知识,以弥补纯文本 RAG 的局限;当问题需要同时理解视觉和文本信息时,MM-RAG 往往优于传统文本 RAG。

例如,用户问“这份 PDF 里的审批流程图怎么走?”如果关键信息在一张嵌在 PDF 中的流程图里,普通文本 RAG 可能找不到;而多模态 RAG 可以把图中的视觉信息也纳入检索和回答。

下面是RAG的流程图,RAG到MM-RAG主框架并没有变,变的是“索引对象”,“检索对象”和“生成模型”,也就是index,retrieval,generation都可以扩展到图像场景,输入可以是文本或图像,知识库也可以由文本或图像组成,回答时用到的上下文也可以是文本或图像,最终输出同样可以是文本或图像。

1.Multimodal RAG系统架构

下图是Multimodal RAG系统架构:

图中有两条主线:① 紫色箭头:离线建库/索引流程(Indexing);② 绿色箭头:在线问答/推理流程(Inference)。先说一下系统整体逻辑:企业数据先被处理并建立索引,用户提出问题,系统把问题向量化,接着去向量库里检索相关多模态内容,把“用户问题+相关内容”拼成prompt交给 LVLM (Large Vision-Language Model)推理,最后输出结果并做后处理。

下面分别说一下两条路径:

紫色路径这一部分是离线准备知识库,也就是系统在用户提问之前就要先完成的工作。最左上角是 Enterprise Data,代表企业内部原始数据源。包括图片和视频,企业原始图片和视频不能直接拿去检索,所以要先经过Ingest/Data Processing(摄取与数据处理)。

对图片:首先读取图片文件,提取配套文字,如果没有文字,就生成caption,也就是图片描述,形成image-text pair。

对视频:首先抽关键帧,做字幕对齐,没字幕时做ASR(语音转文字),没语音可转时,给视频帧生成描述。

这一步就是把原始多模态数据转成适合后面embedding和检索的表示形式。

接下来进入Embedding Model(嵌入模型),这里BridgeTower/bridgetower-large,会把多模态内容编码成向量表示,方便存入向量数据库,也就是把多模态内容“翻译”成机器可以相似度检索的向量空间表示。

Embedding 完成后,数据被写入 Index / Vector Database(索引/向量数据库)。图中使用LanceDB作为向量数据库来保存这些多模态向量表示,其会根据query embedding找到最相关的图片、视频片段或图文对。

总结来说,紫色部分就是数据处理-->多模态embedding-->写入向量库。这就是离线建库的过程。

绿色路径用来表示用户真正提问时,系统如何工作的。首先,用户先输入问题,也就是User Query,用户问题会进入同一个Embedding Model,也就是说,系统不仅把企业图片/视频向量化,也要把用户query向量化(query embedding)。只有把用户问题和知识库内容映射到同一个可比较空间里,才能做相似度检索。

接下来是Retrieval/Rank(检索与排序),首先是检索,从向量数据库中召回一批与 query 最相似的多模态内容,比如召回若干张相关图片,某几个视频片段,若干组图

http://www.jsqmd.com/news/599961/

相关文章:

  • 消费级GPU福音:百川2-13B-4bits+OpenClaw自动化测试报告
  • OpenClaw备份神器:Qwen3-32B智能判断文件重要性并同步到NAS
  • 常见的seo排名优化工具有什么功能_seo排名优化工具适用于不同行业和规模的网站吗
  • SEM工具和SEO工具的区别是什么_常见的 SEM 工具有哪些
  • 如何全面解决极米投影仪蓝牙控制问题:3种高效稳定方案深度分析
  • JTAG接口原理与硬件调试实战指南
  • Arduino MKR IoT Carrier 库底层控制与工程实践指南
  • RAG系统中的多查询检索
  • 如何利用秒排 seo 快速提升关键词排名
  • 基于Python的学生宿舍管理系统毕业设计源码
  • 二进制、八进制与十六进制在嵌入式开发中的核心应用
  • 【26年四级最新】英语四级高频核心词汇1500+真题PDF电子版
  • 人工 SEO 需要什么样的专业知识和技能_人工 SEO 和内容优化有什么联系
  • 金融数据接口实战应用指南:从认知到深化的AKShare全流程解析
  • OpenClaw+千问3.5-9B个人健康助手:分析运动手环数据生成周报
  • 2026成都墙体拆除品牌TOP推荐指南 - 优质品牌商家
  • 什么是 SEM (Search Engine Marketing)_如何利用分析工具优化 SEM 和 SEO 策略
  • 绝地求生终极压枪方案:罗技鼠标宏完全配置指南
  • 【手势姿态估计】技术演进与应用场景全景解析
  • 实战演练:基于快马平台与zeroclaw理念构建高性能个人博客系统
  • 告别重复劳动:用快马平台智能整合opencode,打造专属效率工具库
  • SEO_2024年最新SEO趋势与实战操作指南
  • 3步完成模型切换:OpenClaw快速对接不同Qwen3-32B镜像实例
  • OpenClaw自动化利器:SecGPT-14B每天自动巡检服务器安全
  • 2026年比较好的卷材抛光去毛刺机口碑好的厂家推荐 - 品牌宣传支持者
  • Go的unsafe.Slice和unsafe.SliceData:切片与底层数组的转换
  • 5个革新方案:BetterJoy实现Switch手柄全场景PC适配
  • 南京家庭个人同城桶装水配送服务商推荐 - 优质品牌商家
  • 高光谱数据去噪利器:移动窗口平均平滑算法详解
  • Omni-Vision Sanctuary C++高性能推理实战:工业级部署优化