当前位置: 首页 > news >正文

Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space

Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space

Authors:Zihang Wang, Siyue Zhang, Yilun Zhao, Jingyi Yang, Tingyu Song, Anh Tuan Luu, Chen Zhao

Deep-Dive Summary:

多模态嵌入空间中的扩散与自回归视觉语言模型分析报告

这是一篇关于评估扩散视觉语言模型(Diffusion VLMs)作为多模态嵌入模型效果的研究。以下是该论文主要内容的中文摘要。

摘要

嵌入模型是现代 AI 系统(如语义搜索和检索增强生成)的基础。虽然大语言模型(LLMs)和视觉语言模型(VLMs)在嵌入领域取得了进展,但新兴的扩散大语言模型(dLLMs)是否能作为有效的多模态嵌入模型尚不明确。本研究系统地评估了前沿的扩散 VLMs(如 LaViDa, MMaDA)与自回归 VLMs(如 LLaVA-1.6, Qwen2.5-VL)在分类、视觉问答(VQA)和信息检索三大类任务中的表现。结果显示,扩散 VLMs 的表现普遍逊于自回归模型。其中 LaViDa 表现较为接近,而在 MMaDA 上存在显著差距(超过 20 个百分点)。进一步分析表明,扩散模型中图像与文本的对齐不足是导致其嵌入性能受限的主要原因。

1. 引言

嵌入模型将文本、视觉等输入映射为定维向量,用于高效的语义比较和检索。近期,基于 LLM 和 VLM 的嵌入模型(如 E5, BGE, GME)发展迅速。与此同时,基于离散扩散过程的 dLLMs(如 LLaDA, Dream)凭借双向注意力和并行生成的优势,成为了自回归模型的有力竞争者。

本研究首次对扩散和自回归 VLM 嵌入模型进行了系统性评估。通过对比微调,在 32 个数据集上进行测试,探讨扩散模型是否能利用其固有的双向注意力机制在嵌入任务中获得优势。

图 1:三个多模态嵌入元任务的平均性能。总体而言,尽管使用了双向注意力,扩散 VLM 嵌入的表现仍逊于自回归 VLM。不过不同扩散模型之间存在显著差异,LaViDa 保持了竞争力,而 MMaDA 差距较大。

2. 背景

  • 多模态嵌入任务:旨在学习一个统一的表示空间,使得不同模态(如文本和图像)的语义相关内容可以被直接比较。
  • 多模态大扩散语言模型:与自回归 LLM 不同,dLLMs 通过迭代去噪过程重建受损的标记序列。最近的研究(如 LaViDa, MMaDA)将这一范式扩展到多模态,结合了视觉编码器和多模态微调。

3. 扩散 VLM 嵌入

扩散 VLM 嵌入模型通过视觉编码器整合图像输入,并利用 VLM 主干网络共同处理图文。自回归模型通常使用最后一个标记(last-token)的表示,而扩散模型则通过均值池化(mean pooling)聚合上下文表示。

在对比微调过程中,查询q qq(包含图像、指令和文本)和目标t tt被编码为稠密向量h hh。优化目标是标准的 InfoNCE 损失L \mathcal{L}L

min ⁡ L = − log ⁡ ϕ ( h q , h t + ) ϕ ( h q , h t + ) + ∑ t − ϕ ( h q , h t − ) \min \mathcal{L} = -\log \frac{\phi(\mathbf{h}_q,\mathbf{h}_t + )}{\phi(\mathbf{h}_q,\mathbf{h}_t + ) + \sum_{t^{-}}\phi(\mathbf{h}_q,\mathbf{h}_t - )}minL=logϕ(hq,ht+)+tϕ(hq,ht)ϕ(hq,ht+)

其中ϕ \phiϕ是温度缩放后的余弦相似度。

图 2 展示了自回归与扩散架构在注意力机制上的区别:自回归模型使用因果注意力(Causal Attention),而扩散模型支持双向注意力(Bidirectional Attention)。

4. 实验设置

4.1 任务

评估涵盖了三大元任务,均被建模为排名问题:

  • 分类:评估模型捕获判别性语义特征的能力(如对象类别、主题标签)。
  • 视觉问答 (VQA):将 VQA 视为在候选答案空间中的检索任务。
  • 信息检索:评估跨模态对齐和指令遵循能力(如根据图文指令检索目标图像)。

4.2 模型

  • 自回归模型:LLaVA-1.6 (7B), Qwen2.5-VL (7B)。
  • 扩散模型:MMaDA (8B), LaViDa (7B)。

5. 实验结果

表 2:10 个 VQA 任务的性能对比。

数据集LLaVA-1.6Qwen2.5-VLMMaDALaViDa
OK-VQA73.158.142.061.1
DocVQA78.790.117.282.9
GQA60.747.451.167.0
所有 VQA 平均57.859.025.957.5
  • 总体表现:自回归模型一致优于扩散模型。LaViDa 的差距较小(约 2.5-4.4 点),而 MMaDA 在所有任务中均出现大幅下滑。
  • 域外泛化:尽管 LaViDa 在域内任务表现稍逊,但在某些域外(out-of-domain)任务中表现出更强的鲁棒性,甚至超过了 LLaVA-1.6。
  • 跨模态对齐缺陷:扩散模型在图像到文本检索任务中表现较差,反映了其图文对齐程度较低。

6. 分析

  • RQ1:微调数据量影响。所有模型的性能在少量数据下即迅速饱和。LLaVA-1.6 的数据效率最高。
  • RQ2:对齐可视化。通过 t-SNE 可视化发现,LaViDa 在微调早期图像和文本向量分布完全分离,即便在后期,其配对距离仍大于 LLaVA-1.6。

图 3:随着微调数据量的增加,不同模型的性能变化趋势。

图 4:MSCOCO_i2t 数据集上的查询-目标嵌入对 t-SNE 可视化。虚线连接对应的图文对,LaViDa 的对齐距离明显长于 LLaVA-1.6。

  • RQ3:视觉编码器微调。解冻 MMaDA 的视觉编码器并不能显著提升嵌入性能,表明主要限制在于大语言模型主干的表示能力。

7. 结论与局限性

本研究首次系统对比了扩散与自回归 VLMs 的多模态嵌入能力。虽然扩散模型拥有双向注意力优势,但目前在跨模态对齐和整体理解能力上仍落后于自回归模型。研究局限性包括由于资源限制未进行更大规模(百万级)的数据微调,以及未涵盖最新发布的 DiffusionVL 等新型模型。

Original Abstract:Embedding models are a fundamental component of modern AI systems such as semantic search and retrieval-augmented generation. Recent advances in large foundation models have substantially accelerated the development of embedding models, including those based on Large Language Models (LLMs), Vision Language Models (VLMs), and Multimodal LLMs. More recently, Large Diffusion Language Models (dLLMs) and Multimodal dLLMs have emerged as competitive alternatives to autoregressive models, offering advantages such as bidirectional attention and parallel generation. This progress naturally raises a critical yet unexplored question: can Multimodal dLLMs serve as effective multimodal embedding models? To answer this, we present the first systematic study of converting Multimodal dLLMs into embedding models. We evaluate state-of-the-art Multimodal dLLMs and Autoregressive VLMs across three categories of embedding tasks: classification, visual question answering, and information retrieval. Our results show that Multimodal dLLM embeddings generally underperform their autoregressive VLM counterparts. The stronger diffusion-based model, LaViDa, lags by only 3.5 points on classification, 2.5 points on VQA, and 4.4 points on retrieval tasks, whereas the other diffusion-based model, MMaDA, exhibits substantially larger performance gaps, exceeding 20 points across all tasks. Further analysis reveals insufficient image-text alignment in diffusion-based models, accounting for the observed limitations in their embedding performance.

PDF Link:2602.06056v1

部分平台可能图片显示异常,请以我的博客内容为准

http://www.jsqmd.com/news/361677/

相关文章:

  • 2026年无锡口碑好的工作服老牌厂家推荐,专业工装工作服制作企业全解析 - 工业推荐榜
  • 剖析深圳有名的婚纱摄影专业公司,了解优势再做决定 - 工业推荐榜
  • 超大模型部署无压力!一键运行 Llama 3.1 405B 和 Mistral Large 2
  • 探寻全国做抖音培训的人物,铭泽国际实战经验丰富 - myqiye
  • ico多个尺寸用PNG,BMP哪个更小
  • 分析南通团体服源头厂家选择,哪家口碑比较靠谱 - 工业设备
  • 真心不骗你 10个AI论文平台深度测评,专科生毕业论文写作必备工具推荐!
  • 2026年常州工作服制造厂选哪家好,十大靠谱厂家排行榜揭晓 - 工业品牌热点
  • SPARC Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs
  • 单采PBMC白细胞专业供应商+单采中外籍PBMC白细胞优质供应商,中外籍供体合规优选 - 品牌推荐大师1
  • RAG可以不用向量库?来围观一下这是怎么回事呢
  • 智能电子孵化箱温控计设计
  • 编写空调省电助手,根据室内温度,室外温度,人数,推荐空调最佳温度和模式,(制冷/制热,除湿),实时监控空调耗电量,生成省电报告,节省电费。
  • Relevance-aware Multi-context Contrastive Decoding for Retrieval-augmented Visual Question Answering
  • 2026年2月混凝土抗裂添加剂工厂推荐,工程抗裂配方与应用指南 - 品牌鉴赏师
  • 2026 昆明英语雅思培训教育机构推荐、雅思培训课程中心权威口碑榜单 - 老周说教育
  • 培训直播平台哪个好?2026实测不踩坑
  • 2026年比较好的柑橘水溶肥/中量元素水溶肥厂家用户好评推荐 - 行业平台推荐
  • 2.9—寒假第一阶段小结
  • 2026南美(巴西、哥伦比亚)出海新选择:专业EOR服务商如何助力企业合规雇佣 - 品牌2025
  • DNS解析
  • 高性能封装材料需求增,铝碳化硅(AlSiC)预计六年CAGR为6.5%
  • 微信小程序 路演中 演出报名投票系统的设计与实现
  • 【AI学术写作工具】哪个好?2026年实测4款科研神器指南,拒绝文献造假与逻辑硬伤! - 沁言学术
  • 分析AGV灭火设备制造商哪家性价比高,价格费用如何 - 工业设备
  • 合规驱动增长:2026年北美(美国、加拿大、墨西哥)海外人力资源服务优选指南 - 品牌2025
  • 微信小程序大众点评美食版
  • 考公“公考宝典”小程序的设计与实现 公务员考试 模拟系统
  • 安全认证新趋势,FIDO设备2032年市值预期近47亿元
  • 基于互信息和LSTM深度学习的负荷预测附Matlab代码