当前位置：首页 > news >正文

【ICLR26-Oral Paper-Meta】DepthLM：基于视觉语言模型的度量深度

news 2026/3/27 4:45:30

文章：DepthLM: Metric Depth From Vision Language Models

代码：https://github.com/facebookresearch/DepthLM_Official

单位：Meta、普林斯顿大学

一、问题背景

在自动驾驶、机器人等诸多领域，从2D图像中理解3D深度是核心需求，其中像素级度量深度估计（判断每个像素对应物体到相机的实际米数）是关键任务。

当前技术存在两大痛点：一方面，GPT-5、Gemini等最先进的视觉语言模型（VLM），虽能灵活处理各类视觉语义任务，却在3D深度理解上表现拉胯，远不如专业模型；另一方面，纯视觉深度模型能实现超人类的深度估计精度，但这类模型高度“专才化”，需要为深度任务单独设计模型结构、定制复杂的训练损失函数，换个3D相关任务就需要重新设计，灵活性极差。

研究团队提出核心疑问：能否让VLM在不修改模型架构、不增加复杂训练损失的前提下，达到纯视觉深度模型的专业精度？本次研究给出了肯定答案。

二、方法创新

团队经全面分析发现，VLM的3D深度理解短板，并非源于缺少纯视觉模型的专属模块，而是卡在像素参考不准和跨数据集相机歧义两个核心问题，且现有训练方式的效率和数据利用也有优化空间。基于此提出的DepthLM方法，核心是三个简单且高效的创新设计，全程无需改动VLM基础架构：

视觉提示替代文本坐标，精准定位像素：摒弃以往用文字标注像素坐标的方式，直接在图像上为查询像素渲染箭头、十字等视觉标记，搭配简单文本提问“该点离相机多少米”，让VLM精准识别目标像素，解决像素参考偏差问题；
内禀条件增强，统一相机焦距：通过图像增强将不同相机拍摄的图像焦距统一为固定值，消解不同相机的参数歧义，让VLM学习到统一的世界尺度，同时实现零样本泛化能力；
稀疏标签+文本监督微调（SFT），高效利用数据：仅用每张训练图1个标注像素的稀疏标签数据，进行文本式的监督微调训练，且对比验证后选择效率更高的SFT而非强化学习（RL），同时证明图像多样性比标签密度对VLM训练更重要。

此外，DepthLM还基于统一框架，实现了对多种3D任务的兼容，只需微调即可让VLM处理主轴距距离、两点间距、相机位姿估计等复杂3D任务，实现“一模型多任务”。

三、实验结果

研究团队搭建了DepthLMBench基准数据集，融合7个高质量室内外数据集用于训练，8个非重叠数据集用于评估，以δ₁（预测值与真实值误差在25%内的比例）为核心评估指标，取得了一系列突破性结果：

碾压主流VLM，精度提升超2倍：30亿参数的DepthLM模型，在4个室内外数据集上的δ₁指标，远超GPT-5、Gemini-2.5-Pro、Qwen2.5-VL等先进VLM，精度提升超2倍，对比同量级VLM甚至有8倍提升；
媲美顶尖纯视觉模型，首次实现VLM的专业级精度：DepthLM的70亿参数模型，δ₁指标达到0.838，可与DepthPro、Metric3Dv2等顶尖纯视觉深度模型比肩，成为首个在度量深度估计上达到专业纯视觉模型精度的VLM；
点云生成质量更高，自然避免过平滑：DepthLM无需密集预测头，仅通过逐像素查询就能生成高精度度量尺度点云，且相比纯视觉模型，能自然避免边界过平滑问题，减少飞点产生，物体边界分割更清晰；
多任务能力突出，大幅超越基线模型：基于同一框架训练的统一VLM，在主轴距距离、速度/时间估计、两点间距、相机位姿等3D任务上，平均δ₁达0.804，相比GPT-5、Qwen2.5-VL等基线模型，精度提升超3.8倍，解决了主流VLM在复杂3D任务上的灾难性失败问题。