当前位置：首页 > news >正文

多模态RAG进阶实战（非常详细），Qwen3-VL架构训练全解析，收藏这一篇就够了！

news 2026/3/26 19:44:19

过去我们做多模态 RAG，要么拿 VLM 给图片写个 Caption，然后当纯文本搜；要么就是用 CLIP 或者 SigLIP 这种模型去做端到端，虽然 SigLIP 作为 CLIP 的改进版，在 Zero-shot 场景下确实能打，处理非统一分辨率图片时也更灵活。但是，在某些情况下，这两种方法都不太够用——比如当你的知识库里混合了长文本、复杂的统计图表、视频流时，单纯依靠 CLIP 这种粗粒度的双塔结构，往往需要大量的预处理和微调工作，而且很难捕捉到细粒度的图文交互信息。

今年 6 月份，Qwen3-Embedding（纯文本版）刚出时我就测过，它在跨语言检索和自定义维度（MRL）上的表现确实不错。而就在最近，Qwen 团队把这个能力延伸到了多模态领域，发布了 Qwen3-VL-Embedding 和 Reranker。

它不仅在 MMEB-v2 榜单上以 77.8 分拿下了 SOTA，它还两个工程上的痛点：一是统一了视觉文档（Visual Document）和视频的检索空间，不再需要拼凑多个模型；二是继承了套娃表示（MRL）和量化训练（QAT）。这意味着我们在部署时，可以像处理纯文本一样灵活地用 Int8 甚至更低精度来换取显存和速度，这对生产环境很友好。

今天这篇文章，我们就来解读一下Qwen3-VL-Embedding&Reranker的原论文吧，本文目录如下：

架构解析
训练方法：三阶段训练流水线
工程落地实战：MRL、QAT 与架构权衡

架构解析

模型架构概览：左图 (Embedding)：展示了 Vision Encoder 和 LM Dense Decoder 的结合。注意末尾提取 embedding 的位置是在 PAD token 处，这与 BERT 时代的[CLS]类似，但适配了 LLM 的 Decoder-only 架构。右图 (Reranking)：Query 和 Document 被拼接输入，通过 LM Head 直接输出“yes/no”的概率，实现了 token 级别的细粒度交互。

Embedding 模型

Embedding 模型采用双塔架构（Bi-encoder），负责将多模态输入转化为稠密向量。

核心机制：输入不仅支持 Text，还支持 Image 和 Video Token。模型巧妙地使用了最后一个 PAD token (<|endoftext|>) 的隐藏状态（Last Hidden State）作为整个输入的向量表示。
输入模板：

<|im_start|>system {Instruction} <|im_end|><|im_start|>user {Instance} <|im_end|><|endoftext|>

这里Instance可以是纯文本、图片或视频。

Reranker 模型 (Cross-encoder)

Reranker 模型采用交叉编码器架构（Cross-encoder），虽然计算成本高，但能捕捉深层的图文交互。

判定逻辑：它不再输出向量，而是作为一个二分类器。通过计算模型预测下一个 Token 是“yes”还是“no”的概率差值，来得出相关性分数。
公式：

训练方法：三阶段训练流水线

本文中采用了精心设计的三阶段训练范式。这套流程将海量弱监督数据转化为高质量的检索能力，也很值得我们借鉴。

训练数据

构建种子池：对原始图像/视频进行分辨率、长宽比、完整性过滤。再进行跨模态对齐，排除置信度低的标注和视觉-文本对应性差的样本。最后基于 Qwen3-VL-32B生成类别标签，对类别进行平衡（包括3类图像和4类视频任务）。
正负样本优化：两阶段实现：
Recall阶段：基于余弦相似度，筛选查询最相关的候选文档。
相关性过滤：保留高相关性正样本，以及与正样本相似度接近的硬负样本，提升模型判别能力。

三阶段训练策略

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 的多阶段训练流程

Stage 1: 对比预训练 (Contrastive Pre-training)

在海量弱监督、噪声数据上进行对比学习，建立相关性理解的基本能力，产出 s0 版本模型。

**检索任务：**第一阶段采用InfoNCE损失：

其中表示余弦相似度，聚合了正样本、难负样本、其他批次、其他批次中文档与对比、其他批次中文档与对比：

表示相似度得分

第二阶段移除了query-query/doc-doc对比项。

**分类数据：**也视为对比学习，待分类样本视为查询，其类别的标签视为文档,负样本视为错误标签。
语义文本相似度：数据是对称的（没有query和document区别），采用Cosent损失

表示这对数据的ground-truth分数。

Stage 2: 多任务对比学习 (Multi-Task Contrastive Learning)

基于s0模型数据挖掘出高质量数据，在各类任务上进行对比学习微调，每类任务采用定制化的对比目标，产出 s1 版本 Embedding 模型。损失函数与上一致。并同时训练出 Reranker 模型，训练目标为二分类交叉熵损失：其中标签为“yes”或“no”

最终相关性分数通过 logit 差值计算：

Stage 3: 蒸馏与模型合并 (Distillation & Merging)

利用 Reranker 的精细判别能力对 Embedding 模型进行知识蒸馏（产出 s2 版本 Embedding 模型）。最后通过模型合并技术平衡各项任务表现，得到最终的 s3 版本Embedding 模型。蒸馏损失为交叉熵，1个正样本，k个负样本：

工程落地实战：MRL、QAT 与架构权衡

MRL：自定义维度的魔法

引入了 Matryoshka Representation Learning (套娃表示学习)。

原理：训练时强迫模型把核心语义“往前排”。
效果：你可以把 4096 维的向量直接砍成 512 维用。论文数据显示，从 1024 维降到 512 维，检索性能几乎无损，但存储成本砍半，检索速度翻倍。这对于拥有十亿级向量库的业务来说，是巨大的成本节省。

QAT：量化感知训练

支持Int8 甚至 Binary（二进制）量化。

技术细节：采用了LSQ (Learned Step Size Quantization)，让模型在训练时就适应量化带来的噪声。这意味着我们可以直接部署 Int8 版本的向量，显存占用减少 75%，而不用担心精度崩塌。

架构选择

最后，我们需要理性看待一个数据：在 MTEB 纯文本检索榜单上，Qwen3-VL-Embedding (69.4分) 确实略低于纯文本版的 Qwen3-Embedding (74.3分)。这是多模态对齐带来的必然代价（Alignment Tax）。因此：

如果你的业务主要是文字，偶尔有图：建议依然采用双流架构。文字部分继续用 BGE 或 Qwen-Text 这种特种兵，保证高精度；只把 Qwen3-VL 当作处理图片的外援。最后用Qwen3-VL-Reranker做统一收口，因为它在重排序阶段能同时看懂图文，哪怕召回源头不同也能排得准。
如果你的业务是视觉密集型（如 PDF 解析、视频库）：直接上全套 Qwen3-VL。在这种场景下，统一表征空间带来的维护便利性和对视觉信息的理解能力，远大于那 5% 的纯文本指标损失。特别是对于 Visual Document（图表混排文档），Qwen3-VL 的效果是碾压级的。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～