当前位置: 首页 > news >正文

接入 Qwen2.5-VL,基于显式空间关系图的 VLM 空间推理诊断实验

1. 为什么要做这一阶段?

在前几个阶段中,我们已经完成了 SRG-CD 的基础实验闭环:

第一阶段,我们从 VSR 数据集中筛选空间关系样本,构建 caption-level Spatial Relation Graph,并生成 relation flip、object swap、wrong SRG 等结构化反事实样本。

第二阶段,我们接入 OWL-ViT,对图像中的 subject 和 object 进行开放词汇检测,构建 BBox-SRG。

第三阶段,我们进一步实现 Geometry v2,用几何规则对 left/right、above/below、near/far、inside/outside 等空间关系进行显式诊断。

到这里,SRG-CD 已经不只是一个 caption 数据集,而是具备了三层信息:

caption-level relation bbox-level visual evidence geometry-level diagnostic result

但是,真正的问题还没有回答:

视觉语言模型到底能不能稳定理解这些空间关系?

更进一步:

VLM 是只会判断一句 caption 看起来像不像对, 还是能够识别空间关系图中的结构性冲突?

因此,阶段四的目标就是接入一个真实 VLM,对 SRG-CD 构造出的空间关系样本进行系统诊断。

本阶段选择的模型是:

Qwen2.5-VL-7B-Instruct

我们不是简单问模型“这张图是什么”,而是围绕空间关系构造了五类诊断任务:

1. original caption true/false 2. relation_flip caption true/false 3. object_swap caption true/false 4. structured_srg_check 5. wrong_srg_conflict

这五个任务分别对应从普通图文一致性,到关系方向反转,再到主体-客体交换,最后到显式空间关系图冲突检测。

这也是 SRG-CD 与普通 VQA / image-caption matching 任务的区别:我们关心的不是模型是否会“描述图像”,而是模型在结构化空间反事实条件下是否可靠。


2. 实验数据:100 条均衡 VLM 评测子集

本阶段没有直接用全部 976 条 BBox-SRG 成功样本,而是先从中筛选了 100 条高质量 VLM 评测子集。

筛选目标包括:

1. BBox-SRG 构建成功; 2. 覆盖 horizontal / vertical / distance / containment 四类关系; 3. 同时包含 label=True 和 label=False; 4. 同时包含 Geometry v2 diagnostic_correct=True 和 False; 5. 尽量保持关系类型、标签和诊断结果的均衡。

最终子集分布如下:

Total selected: 100 horizontal : 25 vertical : 25 distance : 25 containment : 25 label=True : 48 label=False : 52 Geometry v2 correct : 51 Geometry v2 incorrect : 49

这个分布非常适合做诊断实验,因为它避免了模型只在某一类关系上表现好,或者数据本身被某一类标签主导。

换句话说,这个 100 条子集不是为了追求“大”,而是为了追求“结构均衡”和“诊断有效”。


3. 五类诊断任务设计

3.1 Original caption 判断

第一类任务是最接近传统图文一致性判断的任务。

给定图像和原始 caption,例如:

The bed is right of the potted plant.

我们询问模型:

Does the image support this statement?

这类任务用于测试 VLM 是否能判断图像是否支持原始空间关系描述。

它是最基础的一层能力。


3.2 Relation flip 反事实

第二类任务是 relation flip。

例如原始关系是:

bed right of potted plant

relation flip 后变成:

bed left of potted plant

它考察的是模型是否对空间关系方向敏感。

如果模型真的理解 left/right、above/below 等空间关系,那么 relation flip 后的判断应该发生变化。


3.3 Object swap 反事实

第三类任务是 object swap。

例如:

The bed is right of the potted plant.

进行 object swap 后,可能变成:

The potted plant is left of the bed.

这个任务比 relation flip 更难。

因为它不只是判断方向,还需要同时处理:

subject identity object identity relation direction role reversal

这类任务主要暴露 VLM 的 object-role binding 问题,也就是模型是否真的把“谁在谁的哪边”绑定清楚了。


3.4 Structured SRG check

第四类任务不再只输入自然语言 caption,而是显式输入结构化关系:

Subject: bed Relation: right of Object: potted plant

然后询问模型这个结构化空间关系是否被图像支持。

这个任务用于测试:

VLM 是否能稳定理解显式 Spatial Relation Graph 表达。

如果模型只能处理自然语言,但不能处理结构化图关系,那么它在这个任务上就会下降。


3.5 Wrong SRG conflict

第五类任务是本阶段最关键的诊断项。

我们给模型一个 caption relation 和一个 deliberately wrong SRG relation,然后问:

Does the proposed graph relation conflict with the caption relation?

例如:

Caption relation: The bed is right of the potted plant. Proposed graph relation: The bed is left of the potted plant.

模型需要判断这两个关系是否冲突。

这个任务不只是视觉判断,而是结构一致性判断。它要求模型理解:

caption relation graph relation relation conflict

因此,wrong_srg_conflict 是最能体现 SRG-CD 价值的任务。


4. 实验设置

本阶段使用的模型是:

Qwen2.5-VL-7B-Instruct

运行环境为:

AutoDL RTX 4090 conda env: gdino torch: 2.5.1 + cu121 transformers: 4.51.3 model source: ModelScope local snapshot

模型推理输出被约束为 JSON 格式:

{"answer": "yes" or "no", "reason": "one short sentence"}

这样做有两个好处:

第一,便于自动解析。

第二,能够保留模型的一句简短理由,方便后续做错误案例分析。

最终在 100 条样本上,五个任务全部完成,解析率均为 100%。


5. Dataset-label evaluation:以数据集标签为评价标准

第一套评价使用的是原始 VSR label 和 counterfactual expected_label。

这套评价回答的问题是:

Qwen2.5-VL 是否复现了数据集给出的标签?

结果如下:

original accuracy = 81.00% relation_flip accuracy = 58.00% object_swap accuracy = 52.00% structured_srg_check accuracy = 67.00% wrong_srg_conflict accuracy = 51.00% parse_rate = 100.00%

从这个结果可以看到,Qwen2.5-VL 在 original caption 判断上表现较好,准确率达到 81%。

但是一旦进入结构化反事实任务,性能明显下降:

relation_flip 下降到 58% object_swap 下降到 52% wrong_srg_conflict 只有 51%

这说明模型虽然能够较好地完成普通 caption 判断,但在空间关系反事实和结构冲突判断上并不稳定。

尤其是 wrong_srg_conflict 接近随机水平,说明模型并不能可靠识别“错误空间关系图”和 caption 之间的冲突。


6. 按关系类型分析:distance 和 containment 是弱点

进一步按关系类型分析,可以看到不同空间关系族之间差异非常明显。

在 dataset-label evaluation 下,各关系类型的 wrong_srg_conflict accuracy 是:

horizontal : 76.00% vertical : 84.00% containment : 36.00% distance : 8.00%

这个结果非常关键。

它说明 Qwen2.5-VL 对 horizontal / vertical 这类方向性关系相对敏感,尤其是 left/right、above/below 这类关系比较容易被模型处理。

但是对于 distance 关系,例如:

near far from next to

模型几乎无法可靠识别结构冲突。

distance 的 wrong_srg_conflict 只有 8%,这接近完全失效。

containment 关系也不稳定,只有 36%。

因此可以得到一个重要结论:

VLM 对方向性空间关系的结构冲突判断较强, 但对距离关系和包含关系的结构冲突判断明显较弱。

这也说明,如果只报告总体准确率,会掩盖不同关系类型之间的巨大差异。

SRG-CD 的价值之一,就是能够把这种差异拆出来。


7. Geometry-label evaluation:以 BBox-SRG / Geometry v2 为视觉真值

在分析错误案例时,我们发现了一个更重要的问题:

数据集标签、图像几何证据、VLM 回答并不总是一致。

例如某个样本中,原始 caption 是:

The bed is right of the potted plant.

数据集 label 是 False。

但是 Qwen2.5-VL 回答 yes,并给出理由:

The bunk beds are positioned to the right of the potted plant.

也就是说,从模型视觉判断角度看,它认为图像确实支持这句话。

这就带来一个问题:

如果数据集标签和显式几何证据冲突,那么模型回答和谁一致才算对?

因此,我们又做了第二套评价:Geometry-label evaluation。

这套评价不再直接使用 VSR 原始 label,而是根据 BBox-SRG / Geometry v2 重新计算视觉标签。

它回答的问题是:

Qwen2.5-VL 是否符合显式几何证据?

重算后的结果如下:

original accuracy = 60.00% relation_flip accuracy = 71.00% object_swap accuracy = 54.00% structured_srg_check accuracy = 50.00% wrong_srg_conflict accuracy = 51.00% parse_rate = 100.00%

这套结果和 dataset-label evaluation 明显不同。

其中最明显的是:

original 从 81% 降到 60% relation_flip 从 58% 升到 71%

这说明:模型并不是简单地“复现数据集标签”,而是更接近某种视觉判断;但这种视觉判断和我们的显式几何规则也并不完全一致。

这正是 SRG-CD 发现的关键问题:

VLM response、dataset label、geometry evidence 三者之间存在系统性不一致。

8. Geometry v2 正确与否会显著影响 VLM 评测解释

进一步把样本按照 Geometry v2 是否诊断正确分组,可以看到差异非常明显。

在 visual-label evaluation 中:

Geometry correct=True: original 86.27% relation_flip 76.47% object_swap 58.82% structured_srg_check 68.63% wrong_srg_conflict 52.94% Geometry correct=False: original 32.65% relation_flip 65.31% object_swap 48.98% structured_srg_check 30.61% wrong_srg_conflict 48.98%

这个结果说明:

当 Geometry v2 本身判断稳定时,Qwen2.5-VL 的 original 和 structured_srg_check 表现也明显更好。

但是当 Geometry v2 与样本标签或视觉证据不一致时,模型表现会显著下降。

这说明我们不能只问:

VLM 答对了吗?

而应该进一步问:

VLM 的回答和 dataset label 一致吗? VLM 的回答和 bbox geometry 一致吗? dataset label 和 bbox geometry 本身一致吗?

这三个问题不能混为一谈。

SRG-CD 的核心意义,就是把这三者拆开分析。


9. Relation flip 与 Object swap 的差异

在 visual-label evaluation 下:

relation_flip accuracy = 71.00% object_swap accuracy = 54.00%

这个差异说明,Qwen2.5-VL 对 relation flip 的处理明显好于 object swap。

这符合直觉。

relation flip 主要考察关系方向变化,例如:

left of <-> right of above <-> below inside <-> outside

模型只需要判断关系方向是否改变。

而 object swap 需要模型同时绑定 subject 和 object:

A left of B

和:

B right of A

在语义上可能等价,但模型必须正确处理角色交换和关系反转。

这更容易暴露 object-role binding 的问题。

因此,object_swap 接近随机水平并不是偶然现象,它说明 VLM 在空间关系中的主体-客体绑定仍然不稳定。


10. Wrong SRG conflict 是最强诊断项

无论使用 dataset-label 还是 visual-label,wrong_srg_conflict 的准确率都是:

51.00%

这几乎就是随机水平。

这说明 Qwen2.5-VL 并不擅长判断:

一个显式空间关系图是否与 caption 发生结构冲突。

尤其是在 distance 和 containment 关系上,模型表现更差。

这也给 SRG-CD 提供了非常强的研究动机:

传统 caption 判断不能充分暴露 VLM 的空间推理缺陷; 显式 SRG conflict diagnosis 能更细粒度地发现模型的不可靠性。

换句话说,模型可能会判断一句话“看起来对”,但它不一定能判断一个结构化空间关系图和这句话是否逻辑冲突。

这正是我们想诊断的能力缺口。


11. 错误案例分析:模型有时答错,也有时“数据集标签错”

错误案例中有一类非常值得关注。

例如:

Caption: The bed is right of the potted plant. Dataset label: False Qwen answer: yes Qwen reason: The bunk beds are positioned to the right of the potted plant.

从 dataset-label evaluation 看,Qwen 是错的。

但从模型理由和 BBox-SRG 几何关系看,它可能并没有错。

这说明有些样本的原始 label 与图像几何证据之间可能存在冲突。

这类案例非常重要,因为它说明 SRG-CD 不只是一个 VLM 评测工具,也可以作为数据集诊断工具:

检测 dataset label、caption relation、bbox geometry 是否一致。

因此,本阶段的实验发现可以概括为:

SRG-CD 不仅能发现 VLM 的空间推理错误, 还可以发现 benchmark label 与视觉几何证据之间的不一致。

这使得项目从“模型评测”进一步扩展到了“数据-模型联合诊断”。


12. 阶段四核心结论

本阶段实验可以总结为五点。

第一,Qwen2.5-VL 在普通 original caption 判断上表现较强,dataset-label accuracy 达到 81%。

第二,一旦进入结构化反事实诊断,模型性能显著下降。relation_flip、object_swap、wrong_srg_conflict 分别只有 58%、52%、51%。

第三,object_swap 比 relation_flip 更难,说明主体-客体角色绑定是 VLM 空间推理中的重要弱点。

第四,wrong_srg_conflict 接近随机水平,说明模型很难可靠判断显式空间关系图和 caption 之间是否存在结构冲突。

第五,dataset label、geometry evidence 和 VLM response 之间存在系统性不一致。使用 Geometry-label 重新评价后,original、relation_flip 等任务的结果发生明显变化,说明传统单一标签评价不足以解释 VLM 的空间推理行为。

最终可以得到阶段四的核心结论:

Qwen2.5-VL 可以较好完成普通图文一致性判断, 但在显式空间关系图冲突检测和结构化反事实诊断上仍然不稳定。 SRG-CD 通过引入 BBox-SRG、Geometry v2 和 counterfactual diagnosis, 能够比传统 caption-level evaluation 更细粒度地揭示 VLM 的空间推理可靠性问题。

13. 当前项目进度

截至阶段四,SRG-CD 已经完成了一个较完整的研究闭环:

Stage 1: Caption-level SRG-Bench v0.1 Stage 2: BBox-SRG construction with OWL-ViT Stage 3: Geometry v2 spatial relation diagnosis Stage 4: Qwen2.5-VL structured counterfactual diagnosis

目前已经得到的核心输出包括:

data/srg_bench_v01/vlm_eval_subset_100.jsonl results/vlm/qwen_vl_eval_subset_100.jsonl results/tables/qwen_vl_eval_summary.csv results/tables/qwen_vl_eval_group_metrics.csv results/tables/qwen_vl_eval_geometry_metrics.csv results/tables/qwen_vl_eval_error_cases.csv results/tables/qwen_vl_eval_visual_summary.csv results/tables/qwen_vl_eval_visual_group_metrics.csv results/tables/qwen_vl_eval_visual_geometry_metrics.csv results/tables/qwen_vl_eval_visual_error_cases.csv

这些结果说明,SRG-CD 已经具备了:

数据构建 显式关系图建模 几何诊断 VLM 推理评测 反事实分析 错误案例导出

六个核心能力。


14. 下一步计划

下一阶段可以继续做三件事。

第一,增加更多 VLM 对比实验。例如:

Qwen2.5-VL-3B InternVL LLaVA GPT-4o / GPT-4.1 vision

这样可以比较不同模型在 SRG-CD 上的空间推理可靠性。

第二,改进 wrong_srg_conflict prompt。目前模型在这个任务上接近随机,后续可以比较:

caption-only conflict prompt SRG-text prompt JSON graph prompt step-by-step relation comparison prompt

从而判断模型到底是不会空间推理,还是不适应当前 prompt 格式。

第三,进一步清洗 dataset-label 与 geometry-label 不一致的样本,构建一个更可靠的 SRG-Bench v0.2。

尤其是那些:

dataset label = False bbox geometry supports caption VLM also says yes

的样本,可能需要人工复核。


15. 总结

阶段四是 SRG-CD 项目中非常关键的一步。

在这一阶段中,我们不再停留在“构建空间关系图”,而是把显式 SRG 真正用于 VLM 空间推理诊断。

实验结果表明,Qwen2.5-VL 在普通 caption 判断上具有较强能力,但在 relation flip、object swap 和 wrong SRG conflict 这些结构化反事实任务上明显不稳定。

更重要的是,实验揭示了一个比单纯模型错误更深的问题:

dataset label、geometry evidence、VLM response 三者之间并不总是一致。

这说明 VLM 空间推理可靠性研究不能只依赖传统标签准确率,而需要显式建模空间关系结构,并结合几何证据和反事实诊断进行分析。

这也是 SRG-CD 的核心思想:

用显式空间关系图,把 VLM 的空间推理错误从“答错了”拆解为: 关系方向错误、 主体客体绑定错误、 结构图冲突识别失败、 数据标签与视觉几何不一致。

相比普通图文一致性评测,SRG-CD 提供了一种更结构化、更可解释、更适合研究 VLM 空间推理可靠性的诊断框架。

http://www.jsqmd.com/news/993818/

相关文章:

  • 从攻击者视角看Nginx:手把手用Burp Suite调试CVE-2013-4547文件名逻辑漏洞
  • 从固件到应用:SMBIOS数据在现代系统中的流转与实战解析
  • 登报遗失声明去哪里办理?2026线上办理流程及避坑指南 - 慧办好
  • Halcon实战:用最小外接矩形和正矩形精准框选瑕疵(附完整代码与效果对比)
  • 2026年安徽省亳州初中生异地择校,公办安徽建工技师学院学费全免,名额可登记 - cc江江
  • 2026青岛迪奥包包回收实测,避坑指南、本地门店横评 - 奢侈品回收测评
  • 档案存放到了自己手里速速存到这些地方!别等政审被卡才后悔 - 慧办好
  • 深度解析RK3588设备Armbian系统移植:从电视盒子到企业级Linux服务器的高效改造实践指南
  • 闲置名表变现难?哈尔滨全城可上门 - 奢侈品交易观察员
  • SYN6288语音模块进阶玩法:STM32如何实现带背景音乐的智能语音合成与提示音效
  • OptiScaler终极指南:5个技巧让游戏画质提升50%的免费超分辨率工具
  • OpenCore Legacy Patcher终极指南:老旧Mac系统兼容性深度解析与实战技巧
  • 5分钟掌握Chrome图片格式转换:Save Image as Type扩展的终极使用指南
  • RevokeMsgPatcher深度解析:基于内存补丁的企业级消息防撤回技术实现
  • Nginx配置文件详解【20260611】006篇-侧重大流量和高并发
  • AI搜索优化公司哪家专业?2026真实测评3家主流服务商 - 资讯速览
  • 一键抠图换背景工具推荐2026:保姆级教程从微信小程序到PC软件
  • 163MusicLyrics:5分钟掌握免费歌词下载与管理的完整指南
  • DeepBump:从平面到立体的智能纹理转换革命
  • 2026年长三角地区PTFE滤芯厂家精选:技术与服务双优企业推荐 - 资讯速览
  • 国内主流冷凝回收设备厂家实测排行与工况适配 - 起跑123
  • 选址不用愁!多家知名汽修连锁品牌加盟选址扶持大盘点 - 品牌测评鉴赏家
  • 告别手动标注!用PubLayNet数据集5分钟搞定PDF文档布局识别模型训练
  • Windsurf IDE实测:AI原生开发如何重构编程逻辑?
  • DataV:30分钟构建企业级数据大屏的革命性可视化解决方案
  • 郑州名表差价怎么选?禹竞标准更合理 - 禹竞
  • 13Java 网络编程
  • 2026检测认证行业气路系统优质厂家推荐 - 资讯速览
  • SpringBoot项目里调用老旧C# WebService接口,我是怎么一步步搞定XML解析和JSON转换的
  • 组织能力地图的设计方法