当前位置：首页 > news >正文

阿里：多模态检索课程进化框架

news 2026/7/17 12:22:59

📖标题：Evo-Retriever: LLM-Guided Curriculum Evolution with Viewpoint-Pathway Collaboration for Multimodal Document Retrieval
🌐来源：arXiv, 2603.16455v1; CVPR, 2026

🌟摘要

视觉语言模型（VLM）擅长数据映射，但现实世界中文档的异构性和非结构性破坏了跨模态嵌入的一致性。最近的后期交互方法通过多向量表示来增强图像-文本对齐，但传统的有限样本和静态策略训练无法适应模型的动态演化，导致跨模态检索混乱。为了克服这一点，我们引入Evo-Retriever，一个检索框架，其特点是基于新颖的ViewpointPathway协作的LLMguided课程演变。首先，我们采用多视图图像对齐，通过多尺度和多方向视角增强细粒度匹配。然后，双向对比学习策略生成“硬查询”，并建立视觉和文本消歧的互补学习路径，以重新平衡监督。最后，来自上述合作的模型状态摘要被馈送到LLM元控制器中，LLM元控制器使用专家知识自适应地调整训练课程以促进模型的进化。在ViDoRe V2和MMEB（VisDoc）上，Evo-Retriever实现了最先进的性能，nDCG@5得分为65.2%和77.1%。

🛎️文章简介

🔸研究问题：如何解决复杂视觉文档检索中因空间感知不足、文本混淆及静态训练课程导致的模型性能停滞问题？
🔸主要贡献：论文提出了 Evo-Retriever 框架，通过视图 - 路径协作增强表征，并利用大语言模型元控制器实现训练课程的动态自适应进化。

📝重点思路

🔸提出多视图图像对齐策略，通过旋转、缩放和拼接构建多尺度与多方向视角，强制模型在几何变换下保持表征一致性以增强空间感知。
🔸设计双向对比学习机制，引入逆向文档到查询路径，利用自动化流程合成“文本相似但视觉不匹配”的困难负样本以消除文本混淆。
🔸构建基于大语言模型的进化课程控制器，通过分析损失动态等训练状态摘要，自适应调整困难负样本的挖掘难度区间。
🔸实施三阶段决策协议（探索、过渡、锁定），模拟人类课程设计逻辑，使课程难度随模型能力演变而动态共进化。

🔎分析总结

🔸实验表明多视图对齐显著提升了模型对分散信息的整合能力，仅该组件即可在 ViDoRe V2 基准上提升约 1.08% 的性能。
🔸双向对比学习有效增强了模型区分语义相似但视觉不同内容的能力，与多视图策略结合后进一步巩固了表征鲁棒性。
🔸动态课程策略优于所有静态阈值方法，LLM 引导的课程能根据训练不稳定情况主动回退难度，确保持续获得有效梯度信号。
🔸Evo-Retriever 在 ViDoRe V2 和 MMEB 基准上均取得最先进成绩，nDCG@5 分别达到 65.2% 和 77.1%，验证了模型与课程共进化的有效性。