当前位置：首页 > news >正文

From Correspondence to Actions Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Languag

news 2026/7/8 2:04:29

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Authors:Masanari Oi, Koki Maeda, Ryuto Koike, Daisuke Oba, Nakamasa Inoue, Naoaki Okazaki

Deep-Dive Summary:

摘要

虽然多模态大语言模型（MLLMs）在单图像空间推理方面取得了显著进展，但在需要整合多个视角信息的多图像空间推理任务中仍面临挑战。认知研究表明，人类通过两种机制解决此类任务：跨视图对应关系（识别不同视图中对应相同物理位置的区域）和逐步视角转换（按顺序组合相对视角变化）。现有的研究通常只是部分或隐晦地整合了这些机制。为此，我们提出了HATCH（Human-Aware Training for Cross-view correspondence and viewpoint cHange），这是一个具有两个互补目标的训练框架：(1)块级空间对齐（PaStA），鼓励在空间对应区域的跨视图补丁表示进行对齐；(2)先动作后回答推理（ActoR），要求模型在预测最终答案之前生成显式的视角转换动作。在三个基准测试上的实验表明，HATCH 显著优于同等规模的基准模型，并能与更大规模的模型竞争，同时保持了单图像推理能力。

1. 引言

图 1. 多图像空间推理的两种认知机制：(a) 跨视图对应关系；(b) 逐步视角转换（例如旋转）。

人类通过建立跨视图的空间对应关系并执行逐步的视角转换来进行多视图推理。现有的方法往往通过大规模微调或引入 3D 专业模型来隐含地处理这些问题，但缺乏统一且显式的学习目标。

HATCH 框架通过以下两个核心组件将这些认知见解显式地融入 MLLM 训练中：

PaStA：教模型“如何看”，通过几何监督对齐不同视图间的补丁特征。
ActoR：教模型“如何动”，通过强化学习（GRPO）优化视角转换动作的生成。

实验显示，HATCH 将基准模型（Qwen2.5-VL-3B-Instruct）的性能平均提升了14.2 % 14.2\%14.2%，并在多项基准测试中优于更大规模的模型。

2. 相关工作

多图像空间推理要求模型整合物理场景的不同视图信息。现有工作多采用显式的空间或 3D 表示，但通常不会在统一的学习目标中同时监督跨视图对应和逐步视角转换。HATCH 通过特征级对齐和基于动作的视角转换训练，直接将这两种机制结合起来。

3. 方法论

3.1 问题设置

输入包含一组捕捉相同场景的不同视角图像I = { I 1 , I 2 , … , I N } \mathcal{I} = \{I_1, I_2, \ldots , I_N\}I={I1,I2,…,IN}和一个自然语言问题Q QQ。训练期间可使用相机内参、位姿和深度图，但这些信息仅用于构建监督信号，不作为模型输入。

3.2 HATCH 概述

图 2. HATCH 流水线概览：包含 PaStA（学习对应关系）和 ActoR（执行视角转换动作）。

训练分为两个阶段：

PaStA 阶段：仅更新图像编码器，冻结语言模型。
ActoR 阶段：通过显式的视角转换动作教模型如何进行推理。

3.3 块级空间对齐 (PaStA)

PaStA 利用训练时的几何信息构造补丁级的对应目标。通过计算跨视图的定向重叠矩阵M X → Y M_{X \to Y}MX→Y，定义对称的空间对应矩阵S SS：

S = 1 2 ( M X → Y + M Y → X ⊤ ) ( 1 ) S = \frac{1}{2} (M_{X \to Y} + M_{Y \to X}^{\top}) \quad (1)S=21(MX→Y+MY→X⊤)(1)

基于S SS构造目标对应分布p ( j ∣ i ) p(j|i)p(j∣i)：

p ( j ∣ i ) = s o f t m a x j ( S [ i , : ] τ 1 ) ( 2 ) p(j\mid i) = \mathrm{softmax}_j\left(\frac{S[i,:]}{\tau_1}\right) \quad (2)p(j∣i)=softmaxj(τ1S[i,:])(2)

模型预测的分布q ( j ∣ i ) q(j|i)q(j∣i)则基于补丁特征间的余弦相似度：

q ( j ∣ i ) = s o f t m a x j ( cos ⁡ ( e i X , e j Y ) τ 2 ) ( 3 ) q(j\mid i) = \mathrm{softmax}_j\left(\frac{\cos(\mathbf{e}_i^X,\mathbf{e}_j^Y)}{\tau_2}\right) \quad (3)q(j∣i)=softmaxj(τ2cos(eiX,ejY))(3)

通过最小化交叉熵损失L C L \mathcal{L}_{\mathrm{CL}}LCL来对齐这两个分布。

3.4 先动作后回答推理 (ActoR)

ActoR 将推理过程公式化为：先生成 JSON 格式的视角转换动作序列A \mathcal{A}A，再预测答案a aa。

动作序列包含一系列原子相机操作（如turn_left,move_forward）。训练过程包括：

冷启动 SFT：使用离线构造的动作序列让模型熟悉输出格式。
带可验证奖励的强化学习：使用 GRPO 算法，通过三个奖励组件进行优化：

R = λ 1 R a c t − a c c + λ 2 R a n s − a c c + λ 3 R f o r m a t ( 8 ) R = \lambda_{1}R_{\mathrm{act - acc}} + \lambda_{2}R_{\mathrm{ans - acc}} + \lambda_{3}R_{\mathrm{format}} \quad (8)R=λ1Ract−acc+λ2Rans−acc+λ3Rformat(8)

其中R a c t − a c c R_{\mathrm{act - acc}}Ract−acc评估动作的几何准确性，R a n s − a c c R_{\mathrm{ans - acc}}Rans−acc评估答案正确性。

4. 实验

我们在 SPAR-Bench-MV、MindCube-Tiny 和 MMSI-Bench 三个基准上评估了 HATCH（基于 Qwen2.5-VL-3B）。

4.2 主要结果

HATCH 在所有基准测试上均显著提升了基准模型的性能。例如，在 SPAR-Bench-MV 上提升了17.8 17.817.8个百分点。其表现甚至可以媲美 GPT-5.2 等闭源模型，并优于 32B/72B 等更大的开源模型。

4.3 分析

训练动力学：如图 3 所示，训练呈现两个阶段：首先是动作奖励提升，随后是 QA 奖励提升，这证实了视角转换动作作为中间推理步骤的有效性。

图 3. GRPO 训练期间的奖励变化趋势。

消融研究：如表 2 所示，移除 PaStA 或 ActoR 都会导致性能下降，说明两者在多图像推理中起到了互补作用。
网格分辨率：图 4 显示，当补丁网格n = 4 n=4n=4时效果最佳，过细的网格会破坏视觉区域的完整性。

图 4. PaStA 网格分辨率分析。

推理模态：相比于自然语言思维链（CoT），基于动作的推理（HATCH）提供了更精确、可验证的几何线索，表现更优（见图 5）。

图 5. 不同推理模态的定性对比。

4.4 单图像空间推理性能

尽管 HATCH 针对多图像设计，但在单图像基准测试（SPAR-Bench-SI 和 CV-Bench）上也表现出色，优于同尺寸甚至更大尺寸的模型，显示了其良好的泛化能力。

5. 结论

本研究提出了 HATCH 框架，通过结合表示层的对应关系学习（PaStA）和结构化的先动作后回答推理（ActoR），有效地提升了多模态大模型的跨视图空间理解能力。实验证明，这种受人类认知启发的训练方式在多图像和单图像任务中均取得了优异成绩。

影响声明

本文介绍的研究工作旨在推进机器学习领域的发展。尽管该研究可能产生多种潜在的社会影响，但作者认为目前没有需要在此特别强调的具体事项。

Original Abstract:While multimodal large language models (MLLMs) have made substantial progress in single-image spatial reasoning, multi-image spatial reasoning, which requires integration of information from multiple viewpoints, remains challenging. Cognitive studies suggest that humans address such tasks through two mechanisms: cross-view correspondence, which identifies regions across different views that correspond to the same physical locations, and stepwise viewpoint transformation, which composes relative viewpoint changes sequentially. However, existing studies incorporate these mechanisms only partially and often implicitly, without explicit supervision for both. We propose Human-Aware Training for Cross-view correspondence and viewpoint cHange (HATCH), a training framework with two complementary objectives: (1) Patch-Level Spatial Alignment, which encourages patch representations to align across views for spatially corresponding regions, and (2) Action-then-Answer Reasoning, which requires the model to generate explicit viewpoint transition actions before predicting the final answer. Experiments on three benchmarks demonstrate that HATCH consistently outperforms baselines of comparable size by a clear margin and achieves competitive results against much larger models, while preserving single-image reasoning capabilities.

PDF Link:2602.08735v1