Meta与普林斯顿联合提出VLM³:标准VLM细粒度三维感知能力获系统评估
Meta与普林斯顿联合提出VLM³:标准VLM细粒度三维感知能力边界获系统评估
Meta与普林斯顿大学联合提出了VLM³,该研究以标准视觉语言模型为基础,通过统一的数据组织方式和训练范式,实现了物体级三维理解、公制深度估计、像素匹配以及相机位姿求解四类任务的统一建模,并系统评估了标准VLM在细粒度三维感知中的能力边界。
三维空间感知的挑战与现状
三维空间感知是自动驾驶、机器人、三维重建等领域的核心基础能力,其目标是从二维图像中恢复真实世界的空间结构、尺度信息与几何关系。与图像分类、目标检测等二维视觉任务相比,三维感知不仅要求语义理解能力,还需要精确的空间推理与几何建模,因此长期以来被视为计算机视觉领域最具挑战性的研究方向之一。
近年来,视觉语言模型(Vision - Language Models, VLMs)凭借统一架构和大规模预训练,在分类、检测、分割等二维任务上取得了显著进展。然而,在深度估计、像素匹配、相机位姿求解等需要精确空间推理的细粒度任务中,标准VLM的性能仍难以与专业三维模型匹敌。目前,三维视觉领域尚未形成类似二维视觉中的通用基础模型,主流方法仍然依赖针对具体任务设计的专家模型,包括专门的网络结构、损失函数以及训练策略。
研究背景与VLM³框架提出
近期研究发现,未经专门三维改造的标准VLM已经表现出一定的像素级深度感知能力。这一现象表明,通用视觉语言模型可能具备比预期更强的三维表征能力,也引出了一个值得深入探讨的问题:在不引入额外编码器、视觉提示或任务专属模块的前提下,标准VLM能否胜任更广泛的细粒度三维感知任务?针对这一问题,Meta与普林斯顿大学联合提出了VLM³(VLM Cubed)框架。
相关研究成果以「VLM3: Vision Language Models Are Native 3D Learners」为题,已发表于预印本平台arXiv。研究亮点如下:在SpatialRGPT评测基准上,VLM³ - 4B无需额外编码器,即以更精简的架构超越参数规模更大的SpatialRGPT - 8B;相比此前最优视觉语言模型DepthLM - 7B,VLM³ - 4B将平均精度δ₁从0.84提升至0.90,与专业深度估计模型UnidepthV2性能持平;VLM³将基线视觉语言模型的端点误差(EPE)降低一个数量级,性能优于DKM和RoMa等经典专家模型;VLM³将AUC₃₀°指标从接近随机水平的5%大幅提升至94%,超越VGGT,并达到与DA3 - Giant相当的水平。
面向多任务三维感知的混合数据集
三维感知任务涉及场景尺度、视角变化、相机参数以及几何关系等多种因素,对训练数据的质量和覆盖范围提出了较高要求。为支撑统一三维表征能力的学习,该研究构建了一套覆盖单视图与多视图场景的混合数据体系,整体涵盖公制深度估计、物体级三维理解,以及像素匹配与相机位姿估计三类任务。
在公制深度估计任务中,研究人员采用大规模多场景混合数据集。基础数据继承自DepthLM,包含Argoverse2、Waymo、NuScenes、ScanNet++、Taskonomy、HM3D、Matterport3D等主流三维场景数据,并进一步引入1,000万张自建室外街景图像,将训练规模从1,600万张扩展至2,600万张。最终模型训练共使用约3,200万张图像和3.2亿个深度标注点,覆盖室内、室外、街景以及复杂开放环境等多种场景。
与现有工作不同,VLM³并未采用均匀采样策略,而是根据数据集规模、学习难度以及泛化价值设计差异化训练权重。实验表明,小规模数据集在混合训练过程中更容易引发过拟合,简单增加数据来源并不一定能带来性能提升。因此,研究团队适当降低了部分小规模数据集的训练权重,以提高整体泛化能力。
物体级三维理解任务完全沿用SpatialRGPT所使用的标准数据集,包括约100万张训练图像以及配套的定性、定量问答样本。该数据集已成为当前物体级三维理解任务的重要评测基准,其中大量图像缺失相机内参信息,与实际应用场景更加接近,因而能够更真实地反映模型的空间推理能力。
对于像素匹配与相机位姿估计任务,研究团队构建了统一的多视图训练数据集。该数据集整合了BlendedMVS、DynamicReplica、SailVOS3D、ScanNet++等14个主流数据源,共包含约990万组图像对。为保证训练质量,研究人员仅保留图像间可视重叠区域超过25%的样本,同时从ScanNet++中预留30个独立场景作为专属测试集,从而避免训练集与测试集之间的数据泄露。数据集权重配置以各数据源原始图像对数量为基础,进一步增强了训练过程的稳定性与适配性。
VLM³模型:最小改动原则下的统一三维学习
VLM³的设计目标并非构建新的三维视觉架构,而是在保持标准视觉语言模型原生结构不变的前提下,评估其在细粒度三维任务中的潜在能力边界。因此,整个框架遵循「最小改动原则」,不引入额外编码器、专属损失函数或任务定制模块,而是重点从输入表示、空间定位方式和数据组织策略三个方面进行优化。
研究以Qwen3 - VL - 4B作为基础模型,全程采用标准监督微调(Supervised Fine - Tuning, SFT)范式进行训练,与现有视觉语言模型的预训练和微调流程保持一致。这种设计保证了框架能够直接兼容主流VLM体系,而无需额外构建专用训练管线。
VLM³概述
首先,针对不同数据源之间相机参数不一致的问题,VLM³提出了统一的图像标准化策略。研究发现,多源三维数据集之间往往存在显著的相机内参差异,部分网络图片甚至缺失相机参数信息,这会直接影响模型学习空间几何关系的能力。为此,框架将所有输入图像统一映射到标准焦距空间,并对缺失内参的数据利用现有单图像标定模型进行估计,从而减少由成像条件差异带来的分布偏移。
其次,VLM³采用了统一的文本化空间定位范式。传统三维视觉模型通常依赖额外视觉提示、渲染标记或专门设计的位置编码模块来完成像素级定位,而VLM³则将图像坐标归一化到统一坐标空间,并以文本形式表达位置关系。通过这种方式,模型能够利用原生语言建模能力完成像素定位、区域定位以及跨视图对应关系学习,而无需引入额外视觉模块。与此同时,单张图像可以同时包含多个定位问答样本,显著提高训练效率。在深度估计任务中,单样本可提供的监督信号相比传统方案提升约10倍,而计算开销几乎保持不变。
第三个核心设计是精细化的数据混合策略。与许多依赖复杂网络结构提升性能的方法不同,VLM³将优化重点放在数据组织层面。研究团队通过大量实验发现,盲目扩大数据规模或采用均等权重混合训练,往往会导致性能饱和甚至退化。相比之下,根据数据规模和任务特征设计差异化采样策略,能够更有效地提升模型的三维表征能力。因此,数据配比被视为整个框架的重要组成部分,而不仅仅是训练过程中的辅助因素。
基于上述设计,VLM³进一步实现了四类三维任务的统一建模。深度估计通过文本化像素定位构建监督样本;物体级三维理解使用文本坐标框替代专用掩码编码器;像素匹配任务将跨视图对应关系转化为坐标预测问题;相机位姿估计则将复杂几何参数拆解为平移距离、平移方向以及旋转角度等文本问答形式。原本依赖不同模型分别处理的任务,最终被统一到标准VLM的自回归生成框架之中。
VLM³的使用示例:首次令标准视觉语言模型在多项细粒度三维任务上实现高精度三维理解
为了系统评估VLM³的有效性,研究团队围绕公制深度估计、物体级三维理解、像素匹配以及相机位姿估计四类任务开展实验,并分别与通用视觉语言模型和当前主流专家模型进行比较。
在公制深度估计任务中,研究选取9个公开数据集与通用VLM进行比较,并在5个代表性基准上对标当前最优专家模型,以δ₁作为主要评测指标。结果显示,VLM³ - 4B全面超过此前代表性方法DepthLM - 7B,平均精度由0.84提升至0.90,在多个数据集上刷新了已有纪录。与此同时,其整体性能已经达到UnidepthV2、MoGe - 2等专业深度估计模型的水平。
在物体级三维理解任务中,研究完全复用了SpatialRGPT的评测体系。结果显示,参数规模仅为4B的VLM³在定性与定量评测中均超过8B规模的SpatialRGPT。后者依赖额外的掩码编码器完成空间定位,而VLM³仅依靠统一文本定位机制即可获得更优结果,表明统一文本化建模在空间推理任务中具备较强的有效性。
像素匹配任务采用UFM评测体系,以端点误差(End Point Error, EPE)作为核心指标。实验结果表明,VLM³相较基础VLM将误差降低一个数量级,并超过DKM、RoMa等经典专家模型,仅略低于当前最优方法UFM。这说明,统一的文本化建模方式不仅适用于单视图场景,同样能够有效学习跨视图几何对应关系。
在相机位姿估计任务中,研究分别在ETH3D和ScanNet++数据集上采用AUC₃₀°指标进行评估。结果显示,VLM³将基础VLM的性能从接近随机预测水平提升至94%的AUC₃₀°,超过VGGT、MapAnything等主流方法,并接近当前最优模型DA3 - Giant的性能水平。
写在最后
长期以来,三维视觉研究主要沿着「任务驱动」的路线发展:针对深度估计、像素匹配或位姿求解等不同任务分别设计专用模型。VLM³则展示了一种不同的可能性——在不引入额外编码器、专属损失函数和复杂视觉提示机制的前提下,仅通过标准化图像处理、文本化空间建模以及精细化数据策略,标准视觉语言模型便能够在多项细粒度三维任务上达到甚至超过部分专家模型的性能。这一研究结果表明,通用视觉语言模型所具备的三维表征能力可能远超此前预期,也为三维视觉从「任务专属优化」走向「统一基础模型」提供了新的实证依据。
