当前位置: 首页 > news >正文

[PaperReading] Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

目录
  • Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs
  • TL;DR
  • Method
    • 阶段一:Textual Discriminative Knowledge Distillation
    • 阶段二:Hard Negative Enhanced Instruction Tuning
      • 过滤错误负样本
      • 困难负例采样策略
  • Experiment
  • 总结与思考

Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

link
时间:25.04
单位:The University of Sydney、DeepGlint、Tongyi Lab
相关领域:MLLM
作者相关工作:Tiancheng Gu
被引次数:16
项目主页:https://garygutc.github.io/UniME/

TL;DR

CLIP这类多模态表征方法虽然被广泛应用,但存在三个问题:(1) 文本标记截断, (2) 孤立的图像-文本编码, (3) 因词袋行为导致的组合性缺陷。本文提出UniME (Universal Multimodal Embedding),训练方法是一个两阶段训练,第一阶段用强大LLM-Teacher模型蒸馏提升MLLM的language组件的embedding表征能力,第二阶段通过难负样本指令微调进一步提升表征能力。实验结果在长短caption检索以及组合检索等多个检索任务取得好的效果。

Q:如何理解CLIP存在的上述三个问题?
(1) 文本标记截断
CLIP模型的文本编码器有最大输入长度限制(例如77个标记)。当遇到长文本(如细节丰富的图像描述)时,超出的部分会被直接截断丢弃。
(2) 孤立的图像-文本编
分别对图像和文本进行编码,然后在嵌入空间计算它们的整体相似度。这种机制是“粗粒度”的,它关注的是全局语义匹配,而​​无法精细地验证文本中的每一个具体陈述是否在图像中有对应​​。
(3) 因词袋行为导致的组合性缺陷
说CLIP的训练目标导致其文本编码器表现出“词袋”特性,是因为其​​基于对比学习的全局匹配范式​​,鼓励模型优先学习能够区分不同文本类别的​​关键词信号​​,而相对地​​弱化了对词序、语法结构和精细修饰关系的建模​​。

image

Method

阶段一:Textual Discriminative Knowledge Distillation

使用了一个SOTA LLM-Based嵌入模型NV-Embed V2作为Teacher模型。蒸馏方法:将text encoder从Student MLLM中解耦出来抽取text embedding,Teacher LLM模型也相应抽取embedding,通过KL散度将知识蒸馏给Student。
image
image

阶段二:Hard Negative Enhanced Instruction Tuning

过滤错误负样本

核心思想:某些样本可能与查询在语义上高度相关(即“正例”),但由于数据标注噪声或语义多样性,被错误地标记为负例,这些样本被称为“假负例”。
\(\alpha = cos(𝑒_{𝑞}, 𝑒_{𝑐}+) + \beta\)
过滤过程​​:在训练时,所有与查询的相似度超过阈值\(\alpha\)的负例样本都会被排除。这种方法可以有效清除假负例,同时保留那些具有挑战性的“真”困难负例。

困难负例采样策略

核心思想:与容易区分的“简单负例”相比,那些与正例标签不同但embedding表征非常相似的“困难负例”能为模型提供更丰富的梯度信息,从而更有效地提升其判别能力。
采样方法​​:模型自主地为每个查询识别出困难负例。具体采样公式如下:
image
其中,\(𝑒_{𝑐}*\)是经过假负例过滤后的候选样本,\(𝑒_{𝑐}+\)是正例候选,\(𝑒_𝑞\)是查询嵌入。函数\(Rank_𝑘\)会选择与查询最相似的前 k个候选作为困难负例。
​​实现细节​​:为保证批次一致性,当采样到的困难负例少于 k个时,会通过复制现有的困难负例来保持固定的数量 k。论文中默认设置 k = 8。
image

Experiment

image
Hard Negatives对应的Loss与梯度都有更大的贡献
image
从Ablation来看,Stage1与Stage2对于MMEB指标的提升都挺明显的
image
对于\(\beta\)与top-k的k两个超参数的ablation study
image

总结与思考

负样本对于表征学习比较关键,Stage2提供了两种方法,实际应用时超参数需要根据数据集相应调整。

http://www.jsqmd.com/news/24516/

相关文章:

  • 【CI130x 离在线】语音芯片如何判断TTS音频播放完毕?
  • 完整教程:Qt信号与槽在多线程编程中的应用与注意事项
  • 从 “短期达标” 到 “长期优化”:MyEMS 如何帮企业建立可持续的能源管理体系?
  • 四场比赛(三)
  • 使用DAST发现Android应用API中的AWS凭证泄露漏洞
  • 百航鹿大联训 Pwn篇
  • 开发stm32-配置vscode环境
  • iNeuOS工业互联网操作系统,增加工厂模型配置,继续深入业务
  • C++语法—类的声明和定义
  • 施工用电隐患 “无形侦探”!思通数科 AI 卫士自动排查用电违规
  • 基于C#的停车场管理系统实现
  • 为什么大型网站能“秒回”你的用户名?揭秘毫秒级响应背后的“守门人”艺术
  • 文件同步备份:为什么说“同步盘”是比“普通网盘”更高效、更安全的选择?
  • 连中五标,中电金信国际化服务助力企业出海
  • 1195. 交替打印字符串
  • gdb调试常用命令
  • 企业微信ipad协议实现聚合聊天系统、RPA机器人智能回复
  • 2025年市面上别墅石材品牌与行业内别墅石材源头厂家推荐榜单及口碑好的别墅石材产品分析
  • 最近公共祖先 (LCA)
  • ChatGPT API集成测试自动化框架的实践与成效汇报
  • [题解]【MX-S8】梦熊 CSP-S 2025 模拟赛
  • 2025四川碳晶板品牌
  • 详细介绍:求余运算和数学模运算的知识了解
  • 基于蚁群算法解决车辆路径问题(VRP)的MATLAB实现
  • 2025 年工业除湿机,恒温恒湿机,精密空调,除湿加湿一体机厂家最新推荐,产能、专利、环保三维数据透视
  • 从手动到全自动:我们如何用Dify重构了API回归测试流程
  • 2025 年管道除湿机,中央除湿机,新风除湿机,变频除湿机厂家最新推荐,产能、专利、环保三维数据透视
  • 2025年10月中国管理咨询公司推荐榜:五强数据对比
  • 条码识别插件 quaggaJS - microsoft
  • 2025年10月中国管理咨询公司推荐榜:金蓝盟领衔六强对比评测