当前位置：首页 > news >正文

M³KG-RAG必学：多模态知识图谱增强RAG，解决“听得懂看得见“的收藏级技术方案

news 2026/7/10 20:32:29

M³KG-RAG针对多模态RAG的两大痛点（知识图谱单薄、检索粗糙）提出创新解决方案：通过多智能体构建多跳多模态知识图谱，结合模态感知检索与GRASP精剪枝技术，实现了"看得细、听得准、答得对"的多模态问答能力。该技术在音频、视频、音视频混合任务上全面刷新SOTA，为多模态大模型应用提供新思路。

M³KG-RAG: Multi-hop Multimodal Knowledge Graph-enhanced Retrieval-Augmented Generation https://arxiv.org/abs/2512.20136
``

🌟 多模态 RAG 的“两大痛点”

传统 RAG 在文本领域已经卷出了花，”垃圾进，垃圾出“，高质量数据往往要用到OCR技术，[在OCR面前，大模型虽好，但恕我直言：开源小模型更香]

但一到音频-视频-文本混合场景就“翻车”：

知识图谱太“单薄”
现有 MMKG（Multimodal KG）大多是单跳、图文为主，音频/视频覆盖不足，时序、因果推理几乎为零。

图 1(a)：共享嵌入空间检索，音频-视觉查询与文本知识对不齐，直接答错。

检索太“粗糙”
纯靠 embedding 相似度，会把“离题千里”的三元组也搬回来，冗余噪音淹没真正有用的知识。

图 1(b)：单跳+冗余知识，模型依旧答非所问。

结论：多模态 RAG 要想“听得懂、看得见”，必须同时解决知识覆盖与精准检索两大难题。

🚀 方案：M³KG-RAG 三板斧

作者提出M³KG-RAG（Multi-hop Multimodal Knowledge Graph RAG），用“三板斧”直击痛点：

模块	作用	论文位置
① 多智能体构建M³KG	把原始音视频语料变成多跳、模态全覆盖的 KG	图 2
②Modality-wise Retrieval	同模态空间检索，先拉齐音视频再查知识	图 3(a)
③GRASP精剪枝	用视觉/音频 Grounding + LLM 过滤，只留“ query 相关 + 答案有用”的子图	图 3(b)

🔨 ① M³KG 构建流水线（图 2）

图 2：七位“智能体”协作——Rewriter → Extractor → Normalizer → Searcher → Selector → Refiner → Inspector（自反思）

核心三步：

Context-Enriched Triplet Extraction
把平淡的 caption 改写成“知识密集型”文本，再抽三元组。
Knowledge Grounding
实体链接 Wiki/Wiktionary，缺失描述由 LLM 回调补齐。
Context-Aware Description Refinement
根据上下文消歧、改写，确保实体描述与视频/音频对齐。
低质量描述由Inspector打回重写到 ≥7/10 分为止。

结果：每个三元组都至少绑定一段音频或视觉片段，满足“全图可检索”性质（Eq.2）。

🔍 ② Modality-wise Retrieval（图 3a）

图 3(a)：音频查询只在音频嵌入空间搜，视频查询只在视频空间搜，彻底绕开“模态差距”。

流程：

音频 → CLAP 编码，视频 → InternVL2 编码，建 FAISS 索引。
Top-k + 距离阈值 τ 过滤，离题邻居直接砍掉。
把命中的音/视频片段升维到多跳三元组，得到初始子图 𝒢_init。

✂️ ③ GRASP：Grounded Retrieval And Selective Pruning（图 3b）

图 3(b)：先“Grounding”再“Pruning”，只留真正出现在查询里且对答题有用的三元组。

两步走：

视觉/音频 Grounding

视觉：GroundingDINO 在 4 帧上检测实体，取最大置信度。
音频：TAG 模型把三元组转成自然句，计算句-音频匹配分。
低于阈值 η 的三元组直接丢弃。

LLM 二次过滤
轻量 LLM（Qwen3-8B）做 binary 保留决策，去掉“有趣但无用”的知识。

输出：𝒢_GRASP 仅含“query 出现 + 答案有用”的精简子图，再按 Eq.6 拼接成 prompt 喂给 MLLM。

📊 结论：实验结果一览

主表：Table 1 —— 全线碾压

绝对增益：在 VALOR 上最高提升9.2分，AudioCaps-QA 提升9.5分。
商业模型也奏效：GPT-4o 自带海量知识，M³KG-RAG 仍能再涨2~3分（见表 3）。

消融实验：Table 4 —— 缺谁都不行

只做多模态检索+4.3，只做 GRASP+0.3，双剑合璧再涨+8.0。
证明：检索对齐 + 精剪枝必须同时到位。

人力+自动双评测：Table 2 —— 胜率超 80%

Benchmark	M³KG-RAG 胜率（Overall）
AudioCaps-QA	84.8 %
VCGPT	53.0 %
VALOR	60.2 %

参考感知的 LLM Judge在“全面性/多样性/可用性”三维均大幅偏好 M³KG-RAG。
定性样例（图 4）显示：答案更具体、更忠实、更少幻觉。

✅ 一句话总结

M³KG-RAG 首次把“多跳知识图谱 + 模态感知检索 + 音视频 Grounding 精剪枝”做成端到端流水线，让多模态大模型真正“看得细、听得准、答得对”，在音频、视频、音视频混合三大类问答任务上全面刷新 SOTA，代码与数据即将开源，值得持续关注！