当前位置: 首页 > news >正文

[Paper Reading] UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

目录
  • UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning
  • TL;DR
  • Method
    • MLLM-as-a-Judge for Hard Negatives Mining
      • MLLM Judgment Based Training Framework
    • Q&A (从上面可以找到答案)
  • Experiment
  • 参考链接

UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

link
时间:
单位:MiroMind AI、The University of Sydney、M.R.L. Team
相关领域:
作者相关工作:与UniME的一作二作相同:Tiancheng Gu、Kaicheng Yang
被引次数:1
项目主页:https://garygutc.github.io/UniME-v2/

TL;DR

提出UniME-V2多模态embedding学习算法,解决负样本多样性问题。
方法:
1.通过全局检索构建一个潜在的难负样本集合;
2.提出MLLM-as-a-Judge机制,利用多模态大模型获取query-candidate的语义相似性分数,这些分数可以用来过滤错误负样本、难负样本挖掘 以及 提升负样本多样性与质量。并且这样分数还可用来作为soft label,以防止正负样本对非正即负的Hard约束;
3.UniME-V2-Reranker,可以使用joint-wise与list-wise的方式挖掘难负样本;

上述改进的示意图
image

Method

image

MLLM-as-a-Judge for Hard Negatives Mining

Step1: 构建潜在难负样本集合

使用VLM2Vec模型针对每个query获取candidates中top50的负样本;该过程是一次性离线执行。

Step2: 相似度打分
image
用Qwen2.5VL-7B的MLLM模型采用下面prompt给每个pair进行相似度打分,该过程MLLM不会被微调,直接拿来用。
image

Step3: 错误/难负样本采样

  • 错误负样本​​:通过MLLM生成的语义匹配分数(S)来识别。若候选样本的分数超过阈值(\(α = σ_{q,ct - β}\),其中β=0.01),则被判定为错误负样本并排除。
  • 难负样本​​:在排除错误负样本后,剩余的候选样本中,通过循环采样策略(cyclical sampling)选择多样性高的难负样本。若筛选后的样本少于10个,则通过复制或随机选择补充。

MLLM Judgment Based Training Framework

Loss
使用上一阶段MLLM得到的语义相似度矩阵作为GroundTruth,建立相似度矩阵之间分布的Loss。
image
UniME-V2-Reranker

  • pair-wise loss: query与target样本\(c_t\)间CE Label为1,query与最难的负样本\(c_{h}\)间的CE Label为0。
    image
    注意pair-wise loss与triplet loss形式比较接近,但两者还是有一些本质区别,例举如下:
    image
  • list-wise loss: 根据MLLM的相似度分数,提取出top-k的候选,将target随机插入到位置I,让Reranker模型预测对应的位置I。
    image
  • 总结:
    联合 pair-wise(学习基本匹配判别)和 list-wise(学习全局排序)的两种优化方式,提升模型排序能力。最终推理时使用下面prompt提取top1 condidate。
    image

Q&A (从上面可以找到答案)

Q: 如何全局检索构建负样本集合?什么样的频率?
Q: MLLM as a judge是什么了什么MLLM模型?错误负样本与难负样本分别如何处理?
Q: UniME-V2-Reranker是一个模型吗?joint-wise与list-wise分别指得是什么?
Q: 整个pipeline有哪些模型需要训练?
a.使用相似度矩阵训练的UniME-V2模型;b.UniME-V2-Reranker模型;

Experiment

主实验
image
image
是否用Reranker,用不同Reranker的对比实验
image
ablation study
image
不同task
image

参考链接

https://zhuanlan.zhihu.com/p/1962104007448302360

http://www.jsqmd.com/news/26317/

相关文章:

  • 2025年耐用的轻集料混凝土最新TOP厂家排名
  • 2025 年西安买房住宅最新推荐榜,聚焦企业开发实力与居住价值深度解析陕西买房/沣东买房/刚需买房推荐
  • MaopaiJD VS code 编辑器设为 中文
  • 2025-10-30 vue中v-show和v-if同时使用,哪个生效==》v-if优先级大于v-show
  • langchain中的上下文压缩方案
  • 2025 年楼盘住宅最新推荐榜,聚焦企业开发实力与宜居价值深度评测
  • 山海鲸可视化分组面板常见的问题解答
  • 2025年风速仪订制厂家权威推荐榜单:风向风速仪/手持式风速仪/负氧离子监测站源头厂家精选
  • 【学习笔记】带权并查集
  • 2025年钢带木箱生产商权威推荐榜单:物流运输包装木箱/可拆卸木箱/物流运输钢边箱源头厂家精选
  • 大促全链路隔离
  • Notepad++ 下载安装与配置全攻略(2025最新版)—— 高效编辑技巧全指南
  • 利用React Hooks简化状态管理
  • 2025年靠谱的304冲压式潜水搅拌机最新TOP厂家推荐
  • 我们如何解决求子集团个数
  • 从零开始制作 MyOS(四)
  • 2025年10月压力监测厂家对比榜:五强评测与选型参考
  • 2025年质量好的洗菜盆厨房水槽优质厂家推荐榜单
  • 基于VC++和ObjectARX开发的AutoCAD曲线交点打断功能实现代码
  • 12个单词
  • 不是,斜二倍增是啥啊
  • 2025年评价高的滚珠丝杆升降机用户好评厂家排行
  • 2025 年消防培训学校最新推荐榜,技术实力与市场口碑深度解析
  • 2025年知名的GXN-CMS型碳分子筛实力源头
  • 2025年10月中国离婚财产分割律师榜单:官方资质与用户口碑综合排名
  • 2025 年上海留学服务机构最新推荐榜,聚焦机构综合服务实力与留学申请口碑深度解析
  • 用Fiddler修改网页title的步骤
  • K3s x RustFS,边缘场景下的云原生存储解决之道
  • 2025年10月进度管理工具推荐:信创适配进度系统排名榜
  • 2025-10-29 ZR-J 模拟赛 赛后总结【ZR】