当前位置: 首页 > news >正文

【CVPR 2025】ROD-MLLM:迈向更可靠的多模态大型语言模型中的目标检测

论文题目:ROD-MLLM: Towards More Reliable Object Detection in Multimodal Large Language Models

论文作者:Heng Yin,Yuqiang Ren,Ke Yan,Shouhong Ding,Yongtao Hao

发表单位:Tongji University,YouTu Lab, Tencent

发布会议:CVPR2025

摘要

现有 MLLM 仅能定位图像中已存在的单个目标,无法处理多目标与不存在目标场景,易产生错误匹配。我们提出ROD-MLLM模型,用于自由语言下的可靠目标检测:

1.提出基于查询的定位机制提取低层目标特征,将全局与区域视觉信息对齐到文本空间,由大型语言模型完成高层理解与最终定位决策;

2.设计自动化数据标注流程,构建ROD 数据集,解决训练数据稀缺问题;

3.实验表明,模型在指代、定位、语言目标检测等任务上达 SOTA,在 D³ 基准上较现有 MLLMs 提升13.7 AP,超越多数专用检测模型。

论文创新点

  • 提出了ROD-MLLM,这是一种能够执行基于语言的目标检测的多模态大型语言模型。它能基于自由形式的语言描述实现统一的目标定位,并能拒绝不存在的目标。
  • 设计了一个用于基于语言的检测的自动化标注流水线,并构建了包含超过50万个对象描述-图像对的ROD数据集。该数据集能够有效提升对自由对象描述的检测能力,缓解了通用多语言大模型只能执行REC任务的不足。
  • 我们在与目标定位和生成相关的各种基准上进行了实验,包括基于语言的目标检测、REC和区域描述生成。我们的结果表明,与其他多模态大语言模型(MLLMs)相比,我们在这些任务上的性能更优。

方法

1.低级定位

基于查询的定位

B = L(I, O_query , O_common)

从用户查询中提取物体表达式,用N-gram(把句子按连续 N 个词切片,用来自动提取关键词的简单方法)提取所提及的物体,形成查询目标集O_query;补充 COCO 中的通用常见物体集O_common,增强通用场景感知;输入低级定位器(OVD),输出候选框集合B。

优点:只框出与查询相关的物体,大幅减少无效候选框;避开检测器不擅长复杂句子理解的缺点;不新增训练开销,兼容任意 OVD 检测器。

多粒度视觉输入

全局图像特征:用 CLIP 视觉编码器得到多层图像特征;取倒数第二层特征,通过两层 MLP 投影器映射到文本空间;得到全局图像嵌入,用于让 LLM 理解整张图的整体内容。

区域视觉特征:从多层视觉特征中,选取第 12、18、L-1 层构建三层特征金字塔,并取平均;用ROI Align(8×8)根据候选框坐标,从特征图中抠出每个区域的视觉特征;把每个区域特征分成 2×2 个小块,每个块通过一层 MLP(全连接神经网络) 变成一个文本令牌;用多个令牌表示一个区域,让 LLM 获得更细粒度的局部信息。

2.高级理解

以 Vicuna-7B 作为主干 LLM,完成复杂语义理解、目标筛选与不存在目标拒绝。

3.数据标注流程:全自动标注流水线

基于检测数据集(带框与类别)构建:生成对象的详细描述,将描述分解为几个必须满足的条件, 给每个描述配正样本(原图)+ 负样本(随机同类别图),让 MLLM 逐条件判断目标是否满足每条规则,最终得到描述匹配 / 不匹配的目标框集合。

基于定位数据集(带实体框的图像标题)构建:用 LLM 把标题中的实体扩展为丰富描述短语,生成语义相近但实际不存在的目标描述,让模型学会拒绝不存在 / 不匹配的查询。

合并成为ROD数据集。

实验

自由文本目标检测OmniLabel:AP-d 25.3,超同规模 MLLM +9.7 AP,长文本 / 否定描述优势明显;D³:Full AP 29.7,超现有 MLLM +13.7 AP,同时超越多数专用检测模型;对存在目标与不存在目标描述均表现最优

基础指代表达理解(REC)RefCOCOg 上 CIDEr 113.8,超 SOTA +6.5Acc@0.5 达90.2~93.0,超过 Shikra、Ferret、Groma 等主流 MLLM,保持顶尖水平

广义指代表达理解(GREC)Pr 与 N-acc(无目标拒绝准确率)大幅领先专用模型,test-A/B 集分别提升 10.8% / 20.7%

消融实验

ROD 数据集:显著涨点,混合数据最优

低层定位器:OWLv2 / Grounding DINO 通用,不依赖特定模型

候选框提取:基于查询的物体框性能更好

定性结果

能正确处理:否定语义、复杂描述、无目标场景
不强行输出框,比 OWLv2、Griffon、Groma 更可靠

结论

我们介绍了ROD-MLLM,这是一种多模态大型语言模型,旨在通过自由形式的语言实现更可靠的目标检测。它利用基于查询的低级定位方法,精确提取相关目标以进行高级理解。为解决数据集的局限性,我们设计了一个自动化标注流程,并构建了ROD数据集,该数据集包含丰富的目标描述以及数量各异的相应边界框。ROD-MLLM在基于语言的目标检测方面的出色表现,凸显了其在更广泛、更多样化的定位应用中的潜力。

http://www.jsqmd.com/news/473763/

相关文章:

  • MySQL【表的约束上】
  • Intel RealSense D455 在ARM64 (Jetson) 平台上 ubuntu22.04下使用笔记
  • 2026杭电多校春季训练赛日志
  • 【effective c++】条款四十五:运用成员函数模板接受所有兼容类型
  • 安卓wakelock 学习
  • 从空白文档到完整初稿:Paperzz 如何让毕业论文写作「零门槛」通关?
  • 创新GL微电网二次控制:基于事件触发的下垂控制及其最小事件触发间隔的扰动补偿研究“(具有参考文...
  • if-else条件语句详解
  • 【深度学习代码流程】李宏毅机器学习HW-1:预测美国COVID-19阳性病率
  • MATLAB/Simulink永磁直驱风力发电系统:SVPWM空间电压矢量调制与双闭环解耦控制应用
  • 从选题到成稿零焦虑:Paperzz 毕业论文初稿写作,让学术创作告别 “卡壳式内耗”
  • 开关磁阻电机电流斩波控制仿真 simulink仿真 双闭环控制等 含有文档报告,详细的参数说明
  • Vue3 + Vite 局域网 HTTPS 访问实战:手机秒连本地开发环境
  • 2026 学术写作破局:Paperzz 如何用「四步闭环法」解决毕业论文初稿难产,让你 3 天写完合格初稿
  • 【软件测试】系统学习清单(含知识点+掌握程度拆解)
  • # Vue 实现 PDF 预览与批量打印组件
  • 论文党「反内耗」神器:Paperzz 把毕业论文初稿写成「开卷答题」,4 步搞定从 0 到成稿
  • OpenClaw Skill 操作钉钉(原理+20个实例)
  • 数据预处理骚操作
  • 自动化仓储系统的核心设备堆垛机最怕啥?急起急停带来的机械冲击。老司机都知道S型曲线速度控制才是王道,今天咱就扒一扒西门子S7-1500里的实战代码
  • 高通跃龙QCS9100平台上工业缺陷检测实战(1): 从摄像头到端侧推理的最小闭环
  • 实测负荷数据(示例)
  • 北京上门回收老安宫牛黄丸、片仔癀!本草拾光商行高价收,变现快时效拉满 - 品牌排行榜单
  • 西门子PLC精确计算设备运行时间程序(1200PLC与1500PLC通用)——改良版实时时间比较法
  • C++学习日志——面向过程篇3.11
  • 架构2
  • ADRC双环自抗扰控制永磁同步电机矢量控制伺服系统Matlab仿真探索
  • IT系统全生命周期管理和运营方案(Word)
  • PYTHON学习笔记3
  • 代码随想录算法训练营第十天 | 用栈实现队列、 用队列实现栈、有效的括号、删除字符串中的所有相邻重复项