当前位置：首页 > news >正文

RETLLM Training and Data-Free MLLMs for Multimodal Information Retrieval

news 2026/7/10 14:29:28

RETLLM: Training and Data-Free MLLMs for Multimodal Information Retrieval

Authors:Dawei Su, Dongsheng Wang

Deep-Dive Summary:

RetLLM: 无需训练与数据的多模态信息检索（MLLMs）

摘要

多模态信息检索（MMIR）因其处理文本、图像或混合查询与候选样本的灵活性而备受关注。虽然最近的多模态大语言模型（MLLMs）通过对比微调框架提升了 MMIR 性能，但它们往往受限于预训练不一致性且需要大规模数据集。本文提出了RetLLM，这是一个全新的框架，旨在以无需训练且无需数据的方式调用 MLLM 进行 MMIR。具体而言，我们将 MMIR 重新表述为相似度分数生成任务，并提示 MLLM 在“由粗到精”的流水线中直接预测检索分数。在粗选阶段，通过 Top-k kk过滤策略为每个查询构建一个小而高质量的候选池；在精选阶段，将查询和候选样本同时输入 MLLM 预测分数。此外，我们提出了一种推理时的视觉增强模块，帮助 MLLM 重新获取遗忘的视觉特征，并引入了基于熵的决策策略。实验表明，RetLLM 在多个基准测试上优于经过微调的模型。

2. 方法论

2.1 从粗到细的框架

基于语义相似度的粗选：
直接对所有N NN个候选样本调用 MLLM 耗时太长。我们首先计算查询q \mathbf{q}q与候选样本c i \mathbf{c}_ici的余弦相似度：
s i = q ⊤ c i ∣ ∣ q ∣ ∣ ∣ ∣ c ∣ ∣ , i = 1 , 2 , … , N s_{i} = \frac{\mathbf{q}^{\top}\mathbf{c}_{i}}{||\mathbf{q}||||\mathbf{c}||}, \quad i = 1,2,\ldots ,Nsi=∣∣q∣∣∣∣c∣∣q⊤ci,i=1,2,…,N
选取分数最高的k kk个样本组成候选池C = T o p K ( s ) \mathcal{C} = \mathrm{TopK}(s)C=TopK(s)。
基于 MLLM 的精细化选择：
将检索任务视为分数预测问题。设计指令模板，让 MLLM 直接生成查询与候选样本之间的相似度分数：
f i = M L L M ( q , c i ) , c i ∈ C f_{i} = \mathrm{MLLM}(q,c_{i}), \quad c_{i} \in \mathcal{C}fi=MLLM(q,ci),ci∈C
这种方式结合了嵌入模型的推理速度和 MLLM 的深度语义理解能力。

2.2 视觉增强与基于熵的决策

视觉增强（Visual Enhancement）：
为了解决 MLLM 的“幻觉”问题（即丢失视觉细节），我们在 Transformer 块的预测过程中重新注入视觉特征。将 FFN 层视为键值检索过程：
F F N ( x ) = ∑ i = 1 D ϕ ( ⟨ x , k i ⟩ ) ⋅ v i \mathrm{FFN}(\mathbf{x}) = \sum_{i = 1}^{D}\phi (\langle \mathbf{x},\mathbf{k}_i\rangle)\cdot \mathbf{v}_iFFN(x)=i=1∑Dϕ(⟨x,ki⟩)⋅vi
引入视觉标记集Z v Z_{v}Zv作为补偿知识，计算修正项：
Δ ( x ∝ Z v ) = ∑ j = 1 N v ϕ ( ⟨ x , z v , j ⟩ ) ⋅ z v , j \Delta (\mathbf{x}\propto \mathbf{Z}_{\mathbf{v}}) = \sum_{j = 1}^{N_{v}}\phi (\langle \mathbf{x},\mathbf{z}_{\mathbf{v},\mathbf{j}}\rangle)\cdot \mathbf{z}_{\mathbf{v},\mathbf{j}}Δ(x∝Zv)=j=1∑Nvϕ(⟨x,zv,j⟩)⋅zv,j
最终输出融合为：
F F N ( l ) ( x ∝ Z v ) = α Δ ( x ∝ Z v ) + ( 1 − α ) F F N ( x ) \mathrm{FFN}^{(l)}(\mathbf{x}\propto \mathbf{Z}_{\mathbf{v}}) = \alpha \Delta (\mathbf{x}\propto \mathbf{Z}_{\mathbf{v}}) + (1 - \alpha)\mathrm{FFN}(\mathbf{x})FFN(l)(x∝Zv)=αΔ(x∝Zv)+(1−α)FFN(x)
基于熵的决策：
当多个候选样本获得相同的最高分时，利用模型输出的对数几率（logits）计算熵H t H_tHt来衡量不确定性：
H t = − ∑ v = 1 V p v log ⁡ p v H_{t} = -\sum_{v = 1}^{V}p_{v}\log p_{v}Ht=−v=1∑Vpvlogpv
选择熵最小（即置信度最高）的候选样本：
C ∗ = arg ⁡ min ⁡ C i ∈ P H i C^{*} = \arg \min_{C_{i}\in \mathcal{P}}H_{i}C∗=argCi∈PminHi

| :—: | :—: | :—: |
| CLIP(ViT-L) | 37.1 | 38.7 | 39.2 |
| E5-V | 34.2 | 33.4 | 37.5 |
| UniME | 37.6 | 38.6 | 41.6 |
|RetLLM|52.0|50.2|54.2|

3.2 消融实验与可扩展性

组件有效性：如表 3 所示，移除视觉增强或基于熵的选择都会导致性能下降，证明了各组件的协同作用。
Top-k kk敏感性：如图 2 所示，k = 5 k=5k=5在精度和推理效率之间达到了最佳平衡。

图 2：Top-k kk取值对检索性能和推理效率影响的消融研究。

模型可扩展性：实验证明，RetLLM 的性能随着底座模型（如 CLIP 版本或 MLLM 规模）的增强而提升，具有良好的前向兼容性。

4. 结论

RetLLM 是一个无需训练的多模态检索框架，通过“由粗到精”的搜索、视觉增强和基于熵的选择，实现了卓越的零样本性能。由于其“即插即用”的特性，RetLLM 能够自然地从更强大的基础模型中获益，为未来的检索系统提供了一个可持续的解决方案。

Original Abstract:Multimodal information retrieval (MMIR) has gained attention for its flexibility in handling text, images, or mixed queries and candidates. Recent breakthroughs in multimodal large language models (MLLMs) boost MMIR performance by incorporating MLLM knowledge under the contrastive finetuning framework. However, they suffer from pre-training inconsistency and require large datasets. In this work, we introduce a novel framework, RetLLM, designed to query MLLMs for MMIR in a training- and>博客内容为准

查看全文

http://www.jsqmd.com/news/418080/