当前位置: 首页 > news >正文

RETLLM Training and Data-Free MLLMs for Multimodal Information Retrieval

RETLLM: Training and Data-Free MLLMs for Multimodal Information Retrieval

Authors:Dawei Su, Dongsheng Wang

Deep-Dive Summary:

RetLLM: 无需训练与数据的多模态信息检索(MLLMs)

摘要

多模态信息检索(MMIR)因其处理文本、图像或混合查询与候选样本的灵活性而备受关注。虽然最近的多模态大语言模型(MLLMs)通过对比微调框架提升了 MMIR 性能,但它们往往受限于预训练不一致性且需要大规模数据集。本文提出了RetLLM,这是一个全新的框架,旨在以无需训练且无需数据的方式调用 MLLM 进行 MMIR。具体而言,我们将 MMIR 重新表述为相似度分数生成任务,并提示 MLLM 在“由粗到精”的流水线中直接预测检索分数。在粗选阶段,通过 Top-k kk过滤策略为每个查询构建一个小而高质量的候选池;在精选阶段,将查询和候选样本同时输入 MLLM 预测分数。此外,我们提出了一种推理时的视觉增强模块,帮助 MLLM 重新获取遗忘的视觉特征,并引入了基于熵的决策策略。实验表明,RetLLM 在多个基准测试上优于经过微调的模型。

2. 方法论

2.1 从粗到细的框架

  1. 基于语义相似度的粗选
    直接对所有N NN个候选样本调用 MLLM 耗时太长。我们首先计算查询q \mathbf{q}q与候选样本c i \mathbf{c}_ici的余弦相似度:
    s i = q ⊤ c i ∣ ∣ q ∣ ∣ ∣ ∣ c ∣ ∣ , i = 1 , 2 , … , N s_{i} = \frac{\mathbf{q}^{\top}\mathbf{c}_{i}}{||\mathbf{q}||||\mathbf{c}||}, \quad i = 1,2,\ldots ,Nsi=∣∣q∣∣∣∣c∣∣qci,i=1,2,,N
    选取分数最高的k kk个样本组成候选池C = T o p K ( s ) \mathcal{C} = \mathrm{TopK}(s)C=TopK(s)

  2. 基于 MLLM 的精细化选择
    将检索任务视为分数预测问题。设计指令模板,让 MLLM 直接生成查询与候选样本之间的相似度分数:
    f i = M L L M ( q , c i ) , c i ∈ C f_{i} = \mathrm{MLLM}(q,c_{i}), \quad c_{i} \in \mathcal{C}fi=MLLM(q,ci),ciC
    这种方式结合了嵌入模型的推理速度和 MLLM 的深度语义理解能力。

2.2 视觉增强与基于熵的决策

  • 视觉增强(Visual Enhancement)
    为了解决 MLLM 的“幻觉”问题(即丢失视觉细节),我们在 Transformer 块的预测过程中重新注入视觉特征。将 FFN 层视为键值检索过程:
    F F N ( x ) = ∑ i = 1 D ϕ ( ⟨ x , k i ⟩ ) ⋅ v i \mathrm{FFN}(\mathbf{x}) = \sum_{i = 1}^{D}\phi (\langle \mathbf{x},\mathbf{k}_i\rangle)\cdot \mathbf{v}_iFFN(x)=i=1Dϕ(⟨x,ki⟩)vi
    引入视觉标记集Z v Z_{v}Zv作为补偿知识,计算修正项:
    Δ ( x ∝ Z v ) = ∑ j = 1 N v ϕ ( ⟨ x , z v , j ⟩ ) ⋅ z v , j \Delta (\mathbf{x}\propto \mathbf{Z}_{\mathbf{v}}) = \sum_{j = 1}^{N_{v}}\phi (\langle \mathbf{x},\mathbf{z}_{\mathbf{v},\mathbf{j}}\rangle)\cdot \mathbf{z}_{\mathbf{v},\mathbf{j}}Δ(xZv)=j=1Nvϕ(⟨x,zv,j⟩)zv,j
    最终输出融合为:
    F F N ( l ) ( x ∝ Z v ) = α Δ ( x ∝ Z v ) + ( 1 − α ) F F N ( x ) \mathrm{FFN}^{(l)}(\mathbf{x}\propto \mathbf{Z}_{\mathbf{v}}) = \alpha \Delta (\mathbf{x}\propto \mathbf{Z}_{\mathbf{v}}) + (1 - \alpha)\mathrm{FFN}(\mathbf{x})FFN(l)(xZv)=αΔ(xZv)+(1α)FFN(x)

  • 基于熵的决策
    当多个候选样本获得相同的最高分时,利用模型输出的对数几率(logits)计算熵H t H_tHt来衡量不确定性:
    H t = − ∑ v = 1 V p v log ⁡ p v H_{t} = -\sum_{v = 1}^{V}p_{v}\log p_{v}Ht=v=1Vpvlogpv
    选择熵最小(即置信度最高)的候选样本:
    C ∗ = arg ⁡ min ⁡ C i ∈ P H i C^{*} = \arg \min_{C_{i}\in \mathcal{P}}H_{i}C=argCiPminHi

| :—: | :—: | :—: |
| CLIP(ViT-L) | 37.1 | 38.7 | 39.2 |
| E5-V | 34.2 | 33.4 | 37.5 |
| UniME | 37.6 | 38.6 | 41.6 |
|RetLLM|52.0|50.2|54.2|

3.2 消融实验与可扩展性

  • 组件有效性:如表 3 所示,移除视觉增强或基于熵的选择都会导致性能下降,证明了各组件的协同作用。
  • Top-k kk敏感性:如图 2 所示,k = 5 k=5k=5在精度和推理效率之间达到了最佳平衡。


图 2:Top-k kk取值对检索性能和推理效率影响的消融研究。

  • 模型可扩展性:实验证明,RetLLM 的性能随着底座模型(如 CLIP 版本或 MLLM 规模)的增强而提升,具有良好的前向兼容性。

4. 结论

RetLLM 是一个无需训练的多模态检索框架,通过“由粗到精”的搜索、视觉增强和基于熵的选择,实现了卓越的零样本性能。由于其“即插即用”的特性,RetLLM 能够自然地从更强大的基础模型中获益,为未来的检索系统提供了一个可持续的解决方案。

Original Abstract:Multimodal information retrieval (MMIR) has gained attention for its flexibility in handling text, images, or mixed queries and candidates. Recent breakthroughs in multimodal large language models (MLLMs) boost MMIR performance by incorporating MLLM knowledge under the contrastive finetuning framework. However, they suffer from pre-training inconsistency and require large datasets. In this work, we introduce a novel framework, RetLLM, designed to query MLLMs for MMIR in a training- and>博客内容为准

http://www.jsqmd.com/news/418080/

相关文章:

  • 中医执医考试哪个机构课程好 - 医考机构品牌测评专家
  • 宝妈如何高效备考主管护师?全方位备考攻略 - 医考机构品牌测评专家
  • Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge
  • 设计师素材网站推荐2026版:十大美工素材网站及运营设计素材网站盘点 - 品牌2026
  • 家庭聚餐选什么酒排行榜,真实口碑款家用聚餐酒完整整理 - 资讯焦点
  • 主治医师考试备考攻略:如何挑选真正靠谱的网课? - 医考机构品牌测评专家
  • Tita小技巧:企业统一管控任务更新填写,让信息填写不缺位!
  • 全场景节日送礼酒水推荐:选酒指南 + 2026 高适配好礼榜单 - 资讯焦点
  • 导处结果的“Knit”按钮
  • 2026年AI训练素材供应商选哪家?优质图片、视频、数据集全覆盖 - 品牌2026
  • 口粮酒怎么选?2026口粮酒推荐排行榜,毛铺绿荞稳居榜首 - 资讯焦点
  • 2026年2月防水背衬板品牌工厂推荐,建筑防水板材标杆企业 - 品牌鉴赏师
  • 2026年十大专业图片素材网站推荐:互联网高清、网络通信、物流、交通运输资源合集 - 品牌2026
  • 2026年2月EPS线条直营厂家推荐,省去中间商性价比更高 - 品牌鉴赏师
  • 2026年2月发泡陶瓷窗套线生产厂家,免费设计上门测量服务 - 品牌鉴赏师
  • 安装忘记或者没有设置root
  • 2026商用高清正版素材网站推荐,十大正版素材网站解锁合规创作 - 品牌2026
  • 备考路上,我为什么选了“技能小黑屋”+“黑白卷” - 医考机构品牌测评专家
  • 2026 十大高清壁纸图片素材网站,正版商用全场景推荐 - 品牌2026
  • 百元内口粮酒首选!口感柔和的白酒TOP榜,高性价比款全推荐 - 资讯焦点
  • die America
  • E语言自定义数据类型实战指南
  • haha -
  • E语言菜单设计全攻略
  • 2026年 麦拉片厂家推荐排行榜,PC麦拉片,PET麦拉片,PP麦拉片,绝缘麦拉片,防火麦拉片,精选高性价比绝缘防护材料源头企业 - 品牌企业推荐师(官方)
  • 【信息科学与工程学】【解决方案体系】第十五篇 家庭经营解决方案
  • 半导体设备用流量测量,超声波流量传感器公司推荐 - 品牌2025
  • 2026执业药师备考不踩坑!口碑名师课程TOP推荐,选对通关率飙升 - 品牌测评鉴赏家
  • 口好的学生 DHA 排行榜:万千家长信赖之选,用真实反馈说话 - 资讯焦点
  • 2026年 第三方物流/医药物流/仓储物流/国际物流/制造业物流合作推荐榜:专业定制与一站式托管方案实力解析 - 品牌企业推荐师(官方)