当前位置: 首页 > news >正文

From Correspondence to Actions Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Languag

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Authors:Masanari Oi, Koki Maeda, Ryuto Koike, Daisuke Oba, Nakamasa Inoue, Naoaki Okazaki

Deep-Dive Summary:

摘要

虽然多模态大语言模型(MLLMs)在单图像空间推理方面取得了显著进展,但在需要整合多个视角信息的多图像空间推理任务中仍面临挑战。认知研究表明,人类通过两种机制解决此类任务:跨视图对应关系(识别不同视图中对应相同物理位置的区域)和逐步视角转换(按顺序组合相对视角变化)。现有的研究通常只是部分或隐晦地整合了这些机制。为此,我们提出了HATCH(Human-Aware Training for Cross-view correspondence and viewpoint cHange),这是一个具有两个互补目标的训练框架:(1)块级空间对齐(PaStA),鼓励在空间对应区域的跨视图补丁表示进行对齐;(2)先动作后回答推理(ActoR),要求模型在预测最终答案之前生成显式的视角转换动作。在三个基准测试上的实验表明,HATCH 显著优于同等规模的基准模型,并能与更大规模的模型竞争,同时保持了单图像推理能力。

1. 引言

图 1. 多图像空间推理的两种认知机制:(a) 跨视图对应关系;(b) 逐步视角转换(例如旋转)。

人类通过建立跨视图的空间对应关系并执行逐步的视角转换来进行多视图推理。现有的方法往往通过大规模微调或引入 3D 专业模型来隐含地处理这些问题,但缺乏统一且显式的学习目标。

HATCH 框架通过以下两个核心组件将这些认知见解显式地融入 MLLM 训练中:

  • PaStA:教模型“如何看”,通过几何监督对齐不同视图间的补丁特征。
  • ActoR:教模型“如何动”,通过强化学习(GRPO)优化视角转换动作的生成。

实验显示,HATCH 将基准模型(Qwen2.5-VL-3B-Instruct)的性能平均提升了14.2 % 14.2\%14.2%,并在多项基准测试中优于更大规模的模型。

2. 相关工作

多图像空间推理要求模型整合物理场景的不同视图信息。现有工作多采用显式的空间或 3D 表示,但通常不会在统一的学习目标中同时监督跨视图对应和逐步视角转换。HATCH 通过特征级对齐和基于动作的视角转换训练,直接将这两种机制结合起来。

3. 方法论

3.1 问题设置

输入包含一组捕捉相同场景的不同视角图像I = { I 1 , I 2 , … , I N } \mathcal{I} = \{I_1, I_2, \ldots , I_N\}I={I1,I2,,IN}和一个自然语言问题Q QQ。训练期间可使用相机内参、位姿和深度图,但这些信息仅用于构建监督信号,不作为模型输入。

3.2 HATCH 概述

图 2. HATCH 流水线概览:包含 PaStA(学习对应关系)和 ActoR(执行视角转换动作)。

训练分为两个阶段:

  1. PaStA 阶段:仅更新图像编码器,冻结语言模型。
  2. ActoR 阶段:通过显式的视角转换动作教模型如何进行推理。

3.3 块级空间对齐 (PaStA)

PaStA 利用训练时的几何信息构造补丁级的对应目标。通过计算跨视图的定向重叠矩阵M X → Y M_{X \to Y}MXY,定义对称的空间对应矩阵S SS

S = 1 2 ( M X → Y + M Y → X ⊤ ) ( 1 ) S = \frac{1}{2} (M_{X \to Y} + M_{Y \to X}^{\top}) \quad (1)S=21(MXY+MYX)(1)

基于S SS构造目标对应分布p ( j ∣ i ) p(j|i)p(ji)

p ( j ∣ i ) = s o f t m a x j ( S [ i , : ] τ 1 ) ( 2 ) p(j\mid i) = \mathrm{softmax}_j\left(\frac{S[i,:]}{\tau_1}\right) \quad (2)p(ji)=softmaxj(τ1S[i,:])(2)

模型预测的分布q ( j ∣ i ) q(j|i)q(ji)则基于补丁特征间的余弦相似度:

q ( j ∣ i ) = s o f t m a x j ( cos ⁡ ( e i X , e j Y ) τ 2 ) ( 3 ) q(j\mid i) = \mathrm{softmax}_j\left(\frac{\cos(\mathbf{e}_i^X,\mathbf{e}_j^Y)}{\tau_2}\right) \quad (3)q(ji)=softmaxj(τ2cos(eiX,ejY))(3)

通过最小化交叉熵损失L C L \mathcal{L}_{\mathrm{CL}}LCL来对齐这两个分布。

3.4 先动作后回答推理 (ActoR)

ActoR 将推理过程公式化为:先生成 JSON 格式的视角转换动作序列A \mathcal{A}A,再预测答案a aa

动作序列包含一系列原子相机操作(如turn_left,move_forward)。训练过程包括:

  1. 冷启动 SFT:使用离线构造的动作序列让模型熟悉输出格式。
  2. 带可验证奖励的强化学习:使用 GRPO 算法,通过三个奖励组件进行优化:

R = λ 1 R a c t − a c c + λ 2 R a n s − a c c + λ 3 R f o r m a t ( 8 ) R = \lambda_{1}R_{\mathrm{act - acc}} + \lambda_{2}R_{\mathrm{ans - acc}} + \lambda_{3}R_{\mathrm{format}} \quad (8)R=λ1Ractacc+λ2Ransacc+λ3Rformat(8)

其中R a c t − a c c R_{\mathrm{act - acc}}Ractacc评估动作的几何准确性,R a n s − a c c R_{\mathrm{ans - acc}}Ransacc评估答案正确性。

4. 实验

我们在 SPAR-Bench-MV、MindCube-Tiny 和 MMSI-Bench 三个基准上评估了 HATCH(基于 Qwen2.5-VL-3B)。

4.2 主要结果

HATCH 在所有基准测试上均显著提升了基准模型的性能。例如,在 SPAR-Bench-MV 上提升了17.8 17.817.8个百分点。其表现甚至可以媲美 GPT-5.2 等闭源模型,并优于 32B/72B 等更大的开源模型。

4.3 分析

  • 训练动力学:如图 3 所示,训练呈现两个阶段:首先是动作奖励提升,随后是 QA 奖励提升,这证实了视角转换动作作为中间推理步骤的有效性。


图 3. GRPO 训练期间的奖励变化趋势。

  • 消融研究:如表 2 所示,移除 PaStA 或 ActoR 都会导致性能下降,说明两者在多图像推理中起到了互补作用。

  • 网格分辨率:图 4 显示,当补丁网格n = 4 n=4n=4时效果最佳,过细的网格会破坏视觉区域的完整性。


图 4. PaStA 网格分辨率分析。

  • 推理模态:相比于自然语言思维链(CoT),基于动作的推理(HATCH)提供了更精确、可验证的几何线索,表现更优(见图 5)。


图 5. 不同推理模态的定性对比。

4.4 单图像空间推理性能

尽管 HATCH 针对多图像设计,但在单图像基准测试(SPAR-Bench-SI 和 CV-Bench)上也表现出色,优于同尺寸甚至更大尺寸的模型,显示了其良好的泛化能力。

5. 结论

本研究提出了 HATCH 框架,通过结合表示层的对应关系学习(PaStA)和结构化的先动作后回答推理(ActoR),有效地提升了多模态大模型的跨视图空间理解能力。实验证明,这种受人类认知启发的训练方式在多图像和单图像任务中均取得了优异成绩。

影响声明

本文介绍的研究工作旨在推进机器学习领域的发展。尽管该研究可能产生多种潜在的社会影响,但作者认为目前没有需要在此特别强调的具体事项。

Original Abstract:While multimodal large language models (MLLMs) have made substantial progress in single-image spatial reasoning, multi-image spatial reasoning, which requires integration of information from multiple viewpoints, remains challenging. Cognitive studies suggest that humans address such tasks through two mechanisms: cross-view correspondence, which identifies regions across different views that correspond to the same physical locations, and stepwise viewpoint transformation, which composes relative viewpoint changes sequentially. However, existing studies incorporate these mechanisms only partially and often implicitly, without explicit supervision for both. We propose Human-Aware Training for Cross-view correspondence and viewpoint cHange (HATCH), a training framework with two complementary objectives: (1) Patch-Level Spatial Alignment, which encourages patch representations to align across views for spatially corresponding regions, and (2) Action-then-Answer Reasoning, which requires the model to generate explicit viewpoint transition actions before predicting the final answer. Experiments on three benchmarks demonstrate that HATCH consistently outperforms baselines of comparable size by a clear margin and achieves competitive results against much larger models, while preserving single-image reasoning capabilities.

PDF Link:2602.08735v1

部分平台可能图片显示异常,请以我的博客内容为准

http://www.jsqmd.com/news/366412/

相关文章:

  • 2026年数据资产管理厂商推荐,数据资源管理系统平台优选 - 品牌2025
  • 2026国内最新珠宝3D建模培训机构top5推荐!广东广州等地优质培训学校权威榜单发布,专业赋能珠宝行业人才成长 - 品牌推荐2026
  • SDRPlusPlus:让移动设备实现专业无线电接收的跨平台解决方案
  • 国际机票预订平台价格透明度深度测评:同程、携程、航司官网与比价工具横向对比 - 资讯焦点
  • 小程序计算机毕设之基于springboot的优购在线社区便利店系统小程序基于SpringBoot的社区便利店购物平台系统(完整前后端代码+说明文档+LW,调试定制等)
  • 真心不骗你!自考必备的AI论文平台 —— 千笔AI
  • OpenCloudOS9部署 CrowdSec 全流程(由z.ai提供)
  • Java计算机毕设之基于springboot的学生档案管理系统基于SpringBoot + Vue的学生档案管理系统的设计与实现(完整前后端代码+说明文档+LW,调试定制等)
  • 2026年大型集团资产管理系统有哪些?哪家资产管理系统平台软件好? - 品牌2025
  • dash
  • 京东e卡回收98折真实平台存在吗?揭秘隐藏官方价格表 - 淘淘收小程序
  • 干货合集:AI论文网站,千笔AI VS PaperRed,专为本科生打造!
  • Apache Druid 代码执行漏洞(CVE-2021-25646)
  • 毕业论文救星在哪?AI 写论文软件排行榜速看
  • 突破种子搜索碎片化困境:Jackett重构你的资源聚合体验
  • 宝塔面板nginx安装modsecurity(z.ai提供)
  • AI产品经理与传统PM的核心差异,小白也能轻松看懂!
  • 交稿前一晚!降AIGC网站 千笔 VS WPS AI,专科生专属高效之选
  • 口服抗衰产品推荐,2026年十款网络热门NMN抗衰产品分析,兼顾成分、吸收、功效、性价比等验证 - 资讯焦点
  • 航班取消时,谁的客服更稳?同程、携程、飞猪、去哪儿四平台客服响应横向测评 - 资讯焦点
  • 2026年2月心理咨询机构深度对比,师资环境效果全方位解析 - 品牌鉴赏师
  • 如何防止串通投标
  • 航班取消时,谁的客服响应更稳?四大平台服务能力横向测评报告 - 资讯焦点
  • 江苏破产律师张茂诚荣膺LegalOne长三角破产重整与清算领域杰出律师 - 资讯焦点
  • 拓竹 3D打印炒面 拉丝避坑指南:这5招让你一次成型不浪费;耗8小时+半斤耗材打出“抽象摆件”?很多问题都是底部支撑没有粘牢,导致墨模型倒塌, brim设置很关键,内外侧8mm 第一层就结实了
  • 哪家公司做GEO优化最靠谱?垂直平台才是B2B企业的“AI时代入口” - 品牌推荐大师1
  • 实用指南:Linux常用命令详细介绍
  • 小白程序员必看:如何将大模型进化为能“做事”的智能体?
  • 国内微型超高温杀菌机制造商,专业生产供应商 - 品牌推荐大师
  • spring6-与juint和mybatis的集成