当前位置：首页 > news >正文

多模态 RAG 不是把 embedding 换成 Qwen3-VL-Embedding 就行：从文本检索仓改到图文混合检索，真正先要改的是这 3 层

news 2026/7/10 17:39:56

多模态 RAG 不是把 embedding 换成 Qwen3-VL-Embedding 就行：从文本检索仓改到图文混合检索，真正先要改的是这 3 层

很多团队做 RAG 升级时，第一反应还是“把文本 embedding 模型换成更新的多模态 embedding，就能把截图、表格、页面图片也一起搜起来”。这一步如果走快了，后面通常会撞上一个更硬的问题：你原来的知识库入口、切片方式和召回评估，全都默认“文档先变成纯文本”，所以模型还没上场，视觉信息就已经在入口处被丢掉了。换句话说，多模态 RAG 最先失效的，往往不是 embedding 榜单，而是整条文本检索仓的输入假设。

这篇文章不打算做“Qwen3-VL-Embedding 和某某模型谁分数更高”的榜单复读。我想讲一个更值钱的问题：如果你现在手里已经有一套能跑文本 RAG 的仓库，想把它改成图文混合检索，真正要先改的不是模型名，而是入口层、切片层和召回评估层。这比盯着 leaderborad 更能决定你这次改造会不会变成一轮昂贵的伪升级。

如果你最近正在做企业知识库、PDF 问答、截图型知识库、运维 SOP 检索、视觉文档 RAG 或多模态 agent 的资料检索，这条改造顺序会比“哪个模型更强”更重要。