当前位置: 首页 > news >正文

[PaperReading] GME: Improving Universal Multimodal Retrieval by Multimodal LLMs

目录
  • GME: Improving Universal Multimodal Retrieval by Multimodal LLMs
  • TL;DR
  • Method
    • Model
    • 多模态数据
    • 数据合成
  • Experiment
  • 效果可视化
  • 总结与思考

GME: Improving Universal Multimodal Retrieval by Multimodal LLMs

link
时间:25.04
单位:香港理工大学、Tongyi
相关领域:使用MLLM做多模态检索
作者相关工作:GME: Improving Universal Multimodal Retrieval by Multimodal LLMs
被引次数:38
项目主页:https://huggingface.co/Alibaba-NLP/gme-Qwen2-VL-2B-Instruct

TL;DR

多模态训练数据存在模态不平衡的问题,本工作改进:1.研发一种训练数据合成方法,构建了大规模、高质量多模态训练数据集;2.研发一种稠密的MLLM检索器名为GME(General Multimodal Embedding)。3.提出一个新的Benchmark名为UMRB(Universal Multimodal Retrieval Benchmark)。

多模态检索与之前单模态检索或者跨模态检索的差异
image

Method

Model

Loss: InfoNCE
image
负样本
Stage1:初始训练​​

  • 使用随机选择的负候选进行训练
  • 得到初始模型M1

Stage2:

  • 使用M1为每个查询检索前K个候选
  • 从非相关候选中选择硬负样本
  • 使用这些硬负样本进一步训练M1,得到最终模型
    image

多模态数据

发现一:任务特异性优势
在单一数据类型上训练的模型在相应检索任务中表现最佳
例如:T→T数据训练的模型在文本检索任务中性能最优
发现二:混合数据优势
不同数据类型的平衡混合能增强各种设置下的性能
增加训练模态的多样性有效提升模型的整体检索能力
备注:IT(Image Text)、VD(Visual Document,指 包含丰富文本内容的图像,例如 图表等)
image

数据合成

workflow调用大模型生成condidate对应的多模态Query

Doc2Query生成:根据condidate过LLM生成Query
实体提取与查询重写:提取Query中的实体以及查询重写 (仍然使用LLM)
图像检索与生成:根据实体查询Google找到匹配图片,或者使用FLUX生成图片

image

Experiment

image

不同图片合成方法的影响
image

image

效果可视化

https://zhuanlan.zhihu.com/p/19360760482
https://zhuanlan.zhihu.com/p/1930993401488216568

总结与思考

http://www.jsqmd.com/news/30011/

相关文章:

  • 2025年10月深圳律师推荐榜:五家刑事辩护团队对比与中立评测
  • 2025年11月法律咨询律所推荐排名:用户需求匹配度全解析
  • 吴恩达深度学习课程二: 改善深层神经网络 第一周:深度学习的实践(五)归一化
  • 2025年11月市场地位认证机构排行解析:专业认证服务深度评测
  • 2025年10月深圳刑事律师推荐排行:五家真实团队的可验证指标全解析
  • 2025年项目管理软件排行榜前五!从需求到交付你怎么选? - RAIN
  • 2025年11月市场地位认证机构排名榜:服务维度与行业口碑全面解析
  • 2025年11月办公家具公司排名榜单:从资质到服务的全面解析
  • 学习一下压测和监控
  • 2025年11月办公家具公司推荐榜单:权威评测与综合对比分析
  • Spring IOC 容器和依赖注入(DI)
  • CSP-S 2025 赛时总结
  • MATLAB2025b安装教程
  • 2025年11月领先品牌认证机构排行榜:权威评测与选择指南
  • leaflow部署openlist
  • 2025年11月上海婚姻律师服务评测:行业标准与用户反馈全解析
  • Comparable接口
  • 软件授权安全:如何筑牢防护壁垒
  • WinMTR Json版:支持 JSON 配置的内网路径追踪工具
  • 2025年11月遗嘱继承律所评价:多维数据与行业标准解析
  • 2025年11月遗嘱继承律所评测排行:专业能力客观评估
  • Java 时间日期类笔记
  • Day11伪类选择器
  • 写在十年之后
  • 检测php get变量是否存在以及是否有值
  • Python 文件操作
  • tp8-商城项目 命令合集
  • 谭剑波day10
  • 2025年11月工装设计公司推荐排行:全国服务网络与项目经验深度解析
  • 2025年11月上海遗产继承律师评测榜:基于真实数据的深度剖析