当前位置：首页 > news >正文

【CVPR 2025】ROD-MLLM：迈向更可靠的多模态大型语言模型中的目标检测

news 2026/7/10 18:58:53

论文题目：ROD-MLLM: Towards More Reliable Object Detection in Multimodal Large Language Models

论文作者：Heng Yin，Yuqiang Ren，Ke Yan，Shouhong Ding，Yongtao Hao

发表单位：Tongji University，YouTu Lab, Tencent

发布会议：CVPR2025

摘要

现有 MLLM 仅能定位图像中已存在的单个目标，无法处理多目标与不存在目标场景，易产生错误匹配。我们提出ROD-MLLM模型，用于自由语言下的可靠目标检测：

1.提出基于查询的定位机制提取低层目标特征，将全局与区域视觉信息对齐到文本空间，由大型语言模型完成高层理解与最终定位决策；

2.设计自动化数据标注流程，构建ROD 数据集，解决训练数据稀缺问题；

3.实验表明，模型在指代、定位、语言目标检测等任务上达 SOTA，在 D³ 基准上较现有 MLLMs 提升13.7 AP，超越多数专用检测模型。

论文创新点

提出了ROD-MLLM，这是一种能够执行基于语言的目标检测的多模态大型语言模型。它能基于自由形式的语言描述实现统一的目标定位，并能拒绝不存在的目标。
设计了一个用于基于语言的检测的自动化标注流水线，并构建了包含超过50万个对象描述-图像对的ROD数据集。该数据集能够有效提升对自由对象描述的检测能力，缓解了通用多语言大模型只能执行REC任务的不足。
我们在与目标定位和生成相关的各种基准上进行了实验，包括基于语言的目标检测、REC和区域描述生成。我们的结果表明，与其他多模态大语言模型（MLLMs）相比，我们在这些任务上的性能更优。

方法

1.低级定位

基于查询的定位

B = L(I, O_query , O_common)

从用户查询中提取物体表达式，用N-gram（把句子按连续 N 个词切片，用来自动提取关键词的简单方法）提取所提及的物体，形成查询目标集O_query；补充 COCO 中的通用常见物体集O_common，增强通用场景感知；输入低级定位器（OVD），输出候选框集合B。

优点：只框出与查询相关的物体，大幅减少无效候选框；避开检测器不擅长复杂句子理解的缺点；不新增训练开销，兼容任意 OVD 检测器。

多粒度视觉输入

全局图像特征：用 CLIP 视觉编码器得到多层图像特征；取倒数第二层特征，通过两层 MLP 投影器映射到文本空间；得到全局图像嵌入，用于让 LLM 理解整张图的整体内容。

区域视觉特征：从多层视觉特征中，选取第 12、18、L-1 层构建三层特征金字塔，并取平均；用ROI Align（8×8）根据候选框坐标，从特征图中抠出每个区域的视觉特征；把每个区域特征分成 2×2 个小块，每个块通过一层 MLP（全连接神经网络）变成一个文本令牌；用多个令牌表示一个区域，让 LLM 获得更细粒度的局部信息。

2.高级理解

以 Vicuna-7B 作为主干 LLM，完成复杂语义理解、目标筛选与不存在目标拒绝。

3.数据标注流程：全自动标注流水线

基于检测数据集（带框与类别）构建：生成对象的详细描述，将描述分解为几个必须满足的条件，给每个描述配正样本（原图）+ 负样本（随机同类别图），让 MLLM 逐条件判断目标是否满足每条规则，最终得到描述匹配 / 不匹配的目标框集合。

基于定位数据集（带实体框的图像标题）构建：用 LLM 把标题中的实体扩展为丰富描述短语，生成语义相近但实际不存在的目标描述，让模型学会拒绝不存在 / 不匹配的查询。

合并成为ROD数据集。

实验

自由文本目标检测OmniLabel：AP-d 25.3，超同规模 MLLM +9.7 AP，长文本 / 否定描述优势明显；D³：Full AP 29.7，超现有 MLLM +13.7 AP，同时超越多数专用检测模型；对存在目标与不存在目标描述均表现最优

基础指代表达理解（REC）RefCOCOg 上 CIDEr 113.8，超 SOTA +6.5Acc@0.5 达90.2~93.0，超过 Shikra、Ferret、Groma 等主流 MLLM，保持顶尖水平

广义指代表达理解（GREC）Pr 与 N-acc（无目标拒绝准确率）大幅领先专用模型，test-A/B 集分别提升 10.8% / 20.7%

消融实验

ROD 数据集：显著涨点，混合数据最优

低层定位器：OWLv2 / Grounding DINO 通用，不依赖特定模型

候选框提取：基于查询的物体框性能更好

定性结果

能正确处理：否定语义、复杂描述、无目标场景
不强行输出框，比 OWLv2、Griffon、Groma 更可靠

结论

我们介绍了ROD-MLLM，这是一种多模态大型语言模型，旨在通过自由形式的语言实现更可靠的目标检测。它利用基于查询的低级定位方法，精确提取相关目标以进行高级理解。为解决数据集的局限性，我们设计了一个自动化标注流程，并构建了ROD数据集，该数据集包含丰富的目标描述以及数量各异的相应边界框。ROD-MLLM在基于语言的目标检测方面的出色表现，凸显了其在更广泛、更多样化的定位应用中的潜力。

查看全文

http://www.jsqmd.com/news/473763/