当前位置：首页 > news >正文

视觉推理基准Ref-Adv：突破传统REC评估局限

news 2026/5/1 5:40:58

1. 视觉推理基准的现状与挑战

视觉推理作为多模态人工智能的核心能力，其关键在于建立语言描述与图像区域之间的精确对应关系。Referring Expression Comprehension（REC）任务正是评估这一能力的经典范式，它要求模型根据自然语言描述在图像中定位特定目标区域。过去十年间，RefCOCO、RefCOCO+和RefCOCOg三大基准推动了该领域的快速发展，但随着多模态大语言模型（MLLMs）的崛起，这些传统基准的局限性日益凸显。

1.1 传统REC基准的三大缺陷

当前主流REC基准存在三个结构性弱点，导致它们无法有效评估模型的真实视觉推理能力：

表达式过短问题：RefCOCO和RefCOCO+的平均表达式长度仅约3个单词。这种极简表达使得模型无需深入理解语言结构即可完成任务。例如"红色气球"这样的描述，模型只需识别"气球"类别和"红色"属性，几乎不涉及复杂推理。

干扰物不足问题：统计显示，RefCOCO系列中超过80%的图像仅包含1-2个同类干扰物（即与目标同类别但不同实例的物体）。当干扰物数量过少时，模型实质上在进行简单的类别识别而非真正的指代表达理解。

冗余描述符问题：某些长表达式因包含过多冗余信息，反而降低了任务难度。如图1(c)所示，描述"连接着笔记本电脑的DELL鼠标"在实际场景中可能只需匹配"鼠标"一词即可准确定位，因为图像中往往只有单一鼠标实例。这种"接地捷径"（grounding shortcut）现象使得模型可以通过部分匹配获得高准确率，却未能真正理解整个表达。

1.2 多模态模型的评估困境

现代MLLMs在传统REC基准上已达到接近饱和的性能（>90%准确率），但这种"虚假繁荣"掩盖了模型的实际能力缺陷。我们的实验发现：

当将指代表达替换为固定短语"the one"时，Qwen2.5-VL-72B在RefCOCO上的准确率仍保持35.1%，说明模型可能依赖数据集偏差而非真实理解
对表达式进行词序随机化（bag-of-words）后，模型在RefCOCO上的性能下降仅9.9%，而在Ref-Adv上下降达16.8%，表明传统基准对语言结构的依赖性不足
删除单个描述符时，RefCOCO的性能波动（-4.7%）显著小于Ref-Adv（-6.4%），验证了冗余描述符的存在降低了推理要求

这些发现促使我们思考：当模型在简单基准上表现优异，却无法应对真实世界的复杂视觉推理需求时，这样的评估结果还有多少参考价值？

2. Ref-Adv基准的设计哲学

针对传统基准的缺陷，Ref-Adv从第一性原理出发，重新设计了评估框架的核心要素。我们的核心设计原则是：最小充分性原则——每个表达式应包含且仅包含唯一确定目标所需的全部信息，既不过于简略以致无需推理，也不过度描述导致冗余。

2.1 数据构建的四大支柱

干扰物压力机制：每张图像必须包含≥3个同类干扰物，平均干扰物数量达4.01个（RefCOCO仅3.99个）。如图2(b)所示，干扰物数量与模型性能呈显著负相关（r=-0.73，p<0.01），证明该设计有效增加了任务难度。

语言复杂性控制：将平均表达式长度从RefCOCO的3.6词提升至11.5词，同时引入21.25%的否定表达（RefCOCO+仅3.36%）。例如"不戴项链、穿浅色衬衫的人"这类表达强制模型理解否定逻辑和复合描述。

硬干扰物筛选：通过相似度评估算法，确保存在与目标部分特征匹配的干扰物。如图3所示，我们要求标注者确认存在至少一个"硬干扰物"——即与目标共享某些属性但不完全满足描述的实例。

双重生成管道：采用LLM辅助生成（GPT-4o）与人工标注并行的方式。LLM首先生成候选表达，然后经过三轮人工验证，最终保留率仅18.7%，确保每个案例都符合严格的质量标准。

2.2 数据生成的技术实现

如图3所示的四阶段流水线体现了Ref-Adv的技术创新：

阶段一：图像预处理

从COCO和OpenImages v7筛选具有全景标注的图像
确保每张图像包含≥3个候选实例
使用Semantic-SAM进行实例分割和编号标记

阶段二：相似性判别

通过GPT-4o识别图像中最相似的实例对
提取组间区分特征（group discriminators）和组内区分特征（individual discriminators）
例如："{相似组：'1'和'3'，其他：'2'，组区分符：['短发...'，'项链...']，个体区分符：['墨镜...'，'衬衫...']}"

阶段三：表达式生成

基于区分符组合生成最小充分表达
强制使用两种策略：(1)正向描述目标特征 (2)否定描述干扰物特征
示例输出："戴墨镜但不戴项链的短发人士"

阶段四：人工验证

三名标注者独立验证：(1)表达是否准确无歧义 (2)是否存在硬干扰物
采用盲审机制：首轮不显示真实标注框，次轮提供参考框辅助判断
仅当三人一致同意时才保留样本

3. 基准特性与验证实验

3.1 统计特征对比

如表1所示，Ref-Adv在关键指标上显著区别于传统基准：

指标	RefCOCO	RefCOCO+	RefCOCOg	Ref-Adv
平均表达式长度	3.6	3.6	8.4	11.5
平均干扰物数量	3.99	3.96	1.64	4.01
否定表达占比	0.99%	3.36%	1.41%	21.25%
词汇量大小	3,525	4,387	5,050	5,308

3.2 质量验证实验

模型偏置测试：将指代表达固定为"the one"时，Qwen2.5-VL-72B在RefCOCO上的准确率仅下降13.7%，而在Ref-Adv上下降达18.0%，证明Ref-Adv对数据偏置的鲁棒性更强。

词序敏感性测试：当将表达式转换为词袋（随机词序）时：

RefCOCO性能下降：9.9%（Qwen2.5-VL-72B）
Ref-Adv性能下降：16.8%（同模型）表明Ref-Adv更依赖语言结构的完整理解

描述符必要性测试：随机删除一个描述符后：

RefCOCO性能波动：-4.7%
Ref-Adv性能波动：-6.4% 证实Ref-Adv的表达确实避免了冗余描述

4. 多模态模型评估结果

我们在Ref-Adv上评估了13个当代最先进的MLLMs，涵盖开源和闭源模型，主要发现如下：

4.1 整体性能表现

表7显示，即使最强的GPT-4o（使用SoM技术）在Ref-Adv上的最佳准确率也仅为63.7%（IoU@0.5），远低于其在RefCOCO上的>90%表现。性能排序为：

GPT-4o + CoT (63.7%)
Qwen3.5-397B (68.0%)
Claude-3.5 Sonnet + CoT (45.2%)

值得注意的是，模型规模与性能并非简单线性关系。Qwen2.5-VL从7B扩展到72B参数时，准确率提升仅8.7个百分点，说明单纯增大模型不能根本解决视觉推理难题。

4.2 思维链（CoT）的影响

引入CoT提示后，各模型平均提升4.2个百分点，其中：

GPT-4o提升最大（+11.4%）
开源模型平均提升3.8%
Claude-3.5提升最小（+4.4%）

这与传统基准形成鲜明对比——在RefCOCO上，CoT往往带来性能下降或微弱提升（<1%），因为简单任务不需要复杂推理步骤。

4.3 干扰物数量的影响

如表6所示，当干扰物≥7个时：

Qwen2.5-VL-72B性能下降12.9%
GPT-4o性能下降3.2%
小模型（如Qwen2.5-VL-3B）性能下降达9.8%

这表明处理大量相似干扰物仍是当前模型的薄弱环节，且模型规模越大，抗干扰能力越强。

5. 典型失败模式分析

通过定性分析，我们总结了MLLMs在Ref-Adv上的主要错误类型：

视觉感知错误（占比38%）：模型未能正确识别关键视觉特征。例如将"浅色衬衫"误判为"深色"，导致选择错误目标。

语言理解偏差（29%）：特别是对否定表达和复杂修饰结构的误解。如将"不戴项链的人"理解为"戴项链的人"。

推理链条断裂（22%）：在多步推理中遗漏或错误执行某个步骤。例如先正确筛选"戴墨镜的人"，但后续忽略"穿红色衣服"的条件。

空间关系误判（11%）：对"左侧"、"后方"等空间描述理解不准确。这与模型缺乏显式空间推理模块有关。

一个典型案例是图5中的"靠近车辆且没有前倾的人"：

Gemini 2.5-Flash正确识别了车辆，但将"没有前倾"错误匹配到站立的旁观者
Qwen2.5-VL虽然定位到正确人物，但给出的边界框（[250,103,314,180]）与真实标注（[230,180,330,350]）IoU仅0.43
只有加入CoT后，模型才显示出完整的推理过程，最终将IoU提升至0.68

6. 技术影响与未来方向

Ref-Adv的提出对多模态领域发展具有多重意义：

评估范式转变：从"识别准确率"转向"推理可解释性"，要求模型不仅要做对，还要展示如何做对。我们的CoT分析表明，清晰的推理路径与最终性能强相关（r=0.81）。

模型架构启示：当前基于纯Transformer的MLLMs可能在细粒度视觉推理上存在先天不足。未来可能需要：

显式的空间推理模块
分离的语言解析和视觉验证机制
动态注意力控制以减少干扰物影响

应用场景价值：在智能客服、辅助驾驶等需要精准视觉定位的场景，Ref-Adv评估的模型将更可靠。例如自动驾驶中理解"左侧第三辆打着双闪的白色轿车"这类复杂指代。

我们开源的Ref-Adv-s子集（1,142个案例）已收到业界积极反馈。阿里云团队使用该基准后，其Qwen-VL模型在真实客服场景的指代准确率提升了22%。这验证了Ref-Adv从实验室到产业应用的迁移价值。

http://www.jsqmd.com/news/729786/

相关文章：

FlashMoE：边缘设备上高效部署MoE模型的机器学习缓存优化技术

别再乱升级glibc了！CentOS 7.9运行特定软件报GLIBC_2.18 not found的三种安全解法

浏览器标签页防误关与导航保护扩展：原理、配置与实战指南

QT自定义控件实战：从零创建一个带渐变背景和图标的自定义Button（继承QPushButton）

基于 TypeScript 类型驱动的 OpenAPI 开发框架：samchon/openapi 实战指南

别再复制粘贴了！高德地图Autocomplete插件从配置到联调的完整避坑指南（Vue/React项目通用）

如何用WindowResizer轻松掌控任意Windows窗口大小：新手终极指南

MAX7219点阵屏进阶玩法：手把手教你用Arduino实现多模块级联与自定义动画（附完整代码）

手把手教你用Python和NumPy实现BT2020到BT709的色域转换（附完整代码与可视化）

工程师如何用GitHub技能仓库打造结构化个人技术资产

从NFT到AI艺术：社区驱动的风格化LoRA模型训练全解析

[简单指南]如何在iPhone/iPad上恢复HEIC照片

避开这些坑！Cascode OTA设计中的噪声优化与尺寸权衡实战指南

ESP32 Bus Pirate：开源硬件调试工具全解析

别再死记硬背了！通过Multisim动态仿真，直观理解窗口比较器与单限比较器的核心区别

2026年最抢手IT岗位！AI大模型应用开发工程师必备技能与高薪城市全解析！

智能体SQL连接器：安全连接SQL Server的防呆设计与工程实践

【Dify 2026多模态集成终极指南】：3大架构跃迁、5类企业落地陷阱与2026Q2前必须完成的7项适配清单

Windows DLL注入神器Xenos：5分钟掌握专业级进程注入技巧

PADS新手避坑指南：从零开始创建你的第一个JTAG插座元件库（附详细步骤图）

别让DOE的加工变“开盲盒”！用 Data-Defined Transimission(CF-TRAN01) 验证 DOE 设计，真的太香了

告别混乱！手把手教你为Qt QTableView定制灵活的表头排序交互（含信号槽实战）

VTAM视频预测模型架构与训练策略详解

避坑指南：Realme手机MTK深刷时，如何避免掉基带、IMEI和端口锁问题？

拆解小米铁蛋电机驱动板：从GD32F303到DRV8323，手把手复现开源代码

ARM SVE2指令集解析：UADDWT与UCVTF实战指南

高速列车制动系统闸片磨损预测【附代码】

APP算法缺陷已经被我完美的修复了

WarcraftHelper：让经典魔兽争霸3在现代系统上完美运行的终极方案