当前位置: 首页 > news >正文

首个Agentic多模态检索大模型全解(非常详细),清华最新成果从入门到精通,收藏这一篇就够了!

近年来,随着多模态大语言模型(MLLM)的快速发展,研究者们开始尝试将其应用于通用多模态检索任务。与此同时,思维链(Chain-of-Thought,CoT)推理被引入检索领域,通过增强模型的推理能力来改善候选结果的排序。

然而,一个重要问题始终未能得到解决:现有的推理过程本质上仍然是语言驱动的,模型无法在推理过程中主动获取和验证视觉细节,因此在面对相似的候选图片时容易“瞎猜”。

近日,清华大学联合、复旦大学、香港大学等机构,推出了首个基于“Interleaved Reasoning”的通用多模态检索框架 V-Retrver。该框架将传统检索重塑为智能体推理过程,让多模态大模型学会在检索时主动调用视觉工具来验证细节,而非仅凭静态的图像表征进行判断。目前,研究团队已将代码和模型权重开源。

“从 2025 年初开始,推理模型开始火起来,很多工作把推理模型用在下游任务,多模态检索就是其中之一。”团队成员向 DeepTech 表示,“但现在这些推理模型的 CoT 过程是从文本推理的。问题在于,多模态检索的输入是多张图像,你要从十张候选图片中找到最相关的那张,仅靠文本推理会产生幻觉。”

这种局限在视觉模糊的检索场景中尤为明显。尤其当候选图片在语义上高度相似,仅在细节上存在差异时。比如同样是白色沙发,只是抱枕纹理不同,模型往往无法准确区分。传统方法将视觉输入压缩成固定的特征向量或文本描述,迫使推理过程完全依赖语言来推断视觉差异,结果就是模型只能瞎猜。

(来源:论文)

更关键的是,现有模型看图是“一次性”的。用了一个形象的比喻:“传统模型看完图就凭印象做题,面对复杂的图文交错检索,它们无法在推理遇到瓶颈时主动去验证视觉细节。”这种走马观花式的视觉处理方式,导致模型在需要精细判断时表现不佳。

让模型学会“放大找细节”

V-Retrver 的核心理念是将多模态检索重新定义为一个“多模态思维链的推理过程”。与传统的单次推理不同,模型在推理过程中可以主动调用外部视觉工具来获取更多信息,就像人在看不清某个细节时会把图片放大仔细看一样。

团队表示,这是首个将交错推理(Interleaved Reasoning)应用于多模态图像检索的工作。此前的相关研究主要集中在简单的图像理解和视频理解任务上,例如单图问答场景。

论文作者之一以一个具体场景说明了这一过程:“假设输入是一段文字描述,需要从 10 张候选图片中找到最相关的一张。模型在分析过程中,如果发现某张图片的关键细节看不清楚,就会调用工具对该区域进行局部放大后再做判断。比如查询文本提到‘桌上放着某个物品’,而这个物品在图像中位置较小、较模糊,模型就需要放大查看才能做出准确判断。”

这种“边看边想”的过程与人类的认知方式很像,当我们在网购时遇到相似的商品,也会点开大图看买家秀细节来做出对比和判断。

这种“产生疑问→调取工具核实→得出结论”的逻辑闭环,正是 V-Retrver 区别于传统方法的关键所在。

三阶段训练:从“学会用工具”到“聪明地用工具”

让模型学会何时以及如何使用这些视觉工具,并非易事。V-Retrver 采用了三阶段的课程学习策略。

第一阶段是监督微调(SFT),目标是教会模型基本的工具调用能力。“我们使用 LLM 来合成训练数据,这批数据包含了检索过程中调用工具的示例,让模型学会何时以及如何调用工具。”作者表示,这个阶段的数据质量至关重要,也是整个训练过程中最具挑战性的环节之一。

SFT 阶段的训练量需要精心控制。作者指出,这里存在两个极端:训练过度会导致模型在强化学习阶段过度依赖工具,对每个样本都尝试调用;训练不足则会使模型无法掌握工具调用能力。

第二阶段是拒绝采样微调(RSFT),通过筛选高质量的推理轨迹来提升模型的推理可靠性和格式合规性,为后续的强化学习提供稳定的初始化。

第三阶段是证据对齐策略优化(EAPO),这是基于 GRPO 算法的强化学习过程。“我们设计了一个工具调用奖励机制,”作者解释道,“当模型在推理过程中合理调用工具时会获得正向奖励。我们希望模型能够适度使用工具进行验证,而非完全不用或过度依赖。”

(来源:论文)

经过强化学习训练后,模型能够实现自适应的工具调用。有些问题需要调用工具来验证细节,有些则不需要,模型会自主判断。

性能提升显著,泛化能力突出

在通用多模态检索基准 M-BEIR 上,V-Retrver-7B 取得了 69.7% 的平均召回率,相比此前最强的 U-MARVEL-7B 提升了近 5 个百分点,相对基础的 Qwen2.5-VL-7B 模型则提升了 23%。

(来源:论文)

值得注意的是,V-Retrver 在需要精细视觉判断的任务上表现尤为突出。在 FashionIQ 数据集上达到 51.2%,在 CIRR 数据集上达到 73.5%,分别比 U-MARVEL-7B 高出 13 个和 10 个百分点。这验证了多模态交错推理在处理细粒度视觉差异时的有效性。

在零样本泛化测试中,V-Retrver 同样表现优异。在从未见过的 CIRCO 数据集上取得了 48.2 的 MAP@5 成绩,显著超过 MM-Embed-7B 等专业检索模型。

消融实验进一步证实了视觉工具的价值:如果剥夺 V-Retrver 的视觉工具,只让它做纯文本的 CoT 推理,平均性能会从 67.2% 跌至 61.8%。

(来源:论文)

团队在论文中也坦诚地表明了当前工作的局限性。最明显的是推理成本问题:相比传统的 embedding 方法,V-Retrver 需要更多的计算资源和时间。“我们在这个工作中没有专门做权衡,这确实是一个问题,也是后续可以继续研究的方向。”

另一个局限是视觉工具的种类相对有限,目前只有 ZOOM-IN 和 SELECT-IMAGE 两种。研究团队计划在后续工作中引入更多类型的工具,其中包括网络搜索工具。

作者以一个例子说明了引入 web search 工具的潜在价值:假设检索目标是“穿着黄色衣服的拿破仑”,但候选图片中存在其他穿着相似服装且外貌接近的人物,仅凭服装颜色难以区分。此时模型可以通过网络搜索获取拿破仑的其他标志性特征,并将这些信息作为辅助依据,提升检索的准确性。

V-Retrver 的出现,标志着多模态检索研究从“静态编码 + 语言推理”向“动态感知 + 交错推理”的范式转变。它证明了一个朴素而重要的道理:在处理视觉任务时,模型不仅需要“想”,更需要“看”。而且要学会在需要的时候主动去“仔细看”。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/534966/

相关文章:

  • 为什么FFT能去周期背景?
  • M2LOrder模型Java企业级应用开发:从环境搭建到微服务架构
  • 突破性3D视觉开发挑战:Intel RealSense SDK在Ubuntu 22.04上的高效部署与Python实战
  • SEO_让流量持续增长的长期SEO策略规划
  • 告别剧本创作烦恼:Trelby开源效率工具让创作回归本质
  • RLVR+GRPO实战:如何用强化学习提升多模态情感识别的可解释性?
  • PyTorch 2.8镜像效果分享:RTX 4090D实测PixArt-Alpha文生图色彩还原度
  • 终极指南:MiroFish群体智能引擎深度解析与实战应用
  • 突破远程桌面限制:RDP Wrapper多用户并发全攻略
  • UE4开发者必看:Rider调试PC DebugGame的5个高效技巧(含避坑指南)
  • Python+MATLAB双教程:用nilearn和dpabi玩转MRI图像重采样(避坑指南)
  • Deep-Live-Cam模型加载故障排除解决方案:从问题诊断到性能优化
  • SDMatte与3D建模工作流结合:从真实照片快速提取贴图素材
  • TwiBot-22全流程实战指南:Twitter机器人检测与图结构识别
  • # 20251901 2025-2026-2 《网络攻防实践》实验一
  • Spring Boot项目中Swagger3.0的进阶配置:多路径扫描与URL过滤的避坑指南
  • 96. 不同的二叉搜索树
  • 自动点胶机数据采集物联网解决方案
  • 20260325_144530_AAAI_2026_让_LLM_“看图不迷路”:多智能体_S
  • 2026年3月西宁拆除公司最新推荐:砸墙拆除、酒店拆除、桥梁拆除公司选择指南 - 海棠依旧大
  • 保姆级教程:用FEKO仿真数据+MATLAB实现2D-ISAR-FFT成像(附完整代码)
  • 终极指南:如何用asitop深度监控Apple Silicon性能瓶颈
  • Linux驱动开发中的UART协议原理与实践
  • 星空(1)
  • .NET Core 终极指南:为什么这个跨平台框架能改变你的开发方式?
  • 华为路由器秒变FTP服务器:5分钟搞定文件共享(附安全配置技巧)
  • 手把手教你用SkillsForAll注册CISCO Packet Tracer(附NetAcad账号迁移教程)
  • “精讲:Prescan与Simulink下的LKA、AEB控制技术,包括LKA PID控制方向...
  • 低光增强新突破:拆解DLEN中可学习小波模块的5个设计精妙之处
  • 链码技术全解析:归一化与差分链码在图像识别中的实际应用