当前位置: 首页 > news >正文

【ICLR26-Oral Paper-Meta】DepthLM:基于视觉语言模型的度量深度


文章:DepthLM: Metric Depth From Vision Language Models

代码:https://github.com/facebookresearch/DepthLM_Official

单位:Meta、普林斯顿大学


一、问题背景

在自动驾驶、机器人等诸多领域,从2D图像中理解3D深度是核心需求,其中像素级度量深度估计(判断每个像素对应物体到相机的实际米数)是关键任务。

当前技术存在两大痛点:一方面,GPT-5、Gemini等最先进的视觉语言模型(VLM),虽能灵活处理各类视觉语义任务,却在3D深度理解上表现拉胯,远不如专业模型;另一方面,纯视觉深度模型能实现超人类的深度估计精度,但这类模型高度“专才化”,需要为深度任务单独设计模型结构、定制复杂的训练损失函数,换个3D相关任务就需要重新设计,灵活性极差。

研究团队提出核心疑问:能否让VLM在不修改模型架构、不增加复杂训练损失的前提下,达到纯视觉深度模型的专业精度?本次研究给出了肯定答案。

二、方法创新

团队经全面分析发现,VLM的3D深度理解短板,并非源于缺少纯视觉模型的专属模块,而是卡在像素参考不准跨数据集相机歧义两个核心问题,且现有训练方式的效率和数据利用也有优化空间。基于此提出的DepthLM方法,核心是三个简单且高效的创新设计,全程无需改动VLM基础架构:

  1. 视觉提示替代文本坐标,精准定位像素:摒弃以往用文字标注像素坐标的方式,直接在图像上为查询像素渲染箭头、十字等视觉标记,搭配简单文本提问“该点离相机多少米”,让VLM精准识别目标像素,解决像素参考偏差问题;

  2. 内禀条件增强,统一相机焦距:通过图像增强将不同相机拍摄的图像焦距统一为固定值,消解不同相机的参数歧义,让VLM学习到统一的世界尺度,同时实现零样本泛化能力;

  3. 稀疏标签+文本监督微调(SFT),高效利用数据:仅用每张训练图1个标注像素的稀疏标签数据,进行文本式的监督微调训练,且对比验证后选择效率更高的SFT而非强化学习(RL),同时证明图像多样性比标签密度对VLM训练更重要

此外,DepthLM还基于统一框架,实现了对多种3D任务的兼容,只需微调即可让VLM处理主轴距距离、两点间距、相机位姿估计等复杂3D任务,实现“一模型多任务”。

三、实验结果

研究团队搭建了DepthLMBench基准数据集,融合7个高质量室内外数据集用于训练,8个非重叠数据集用于评估,以δ₁(预测值与真实值误差在25%内的比例)为核心评估指标,取得了一系列突破性结果:

  1. 碾压主流VLM,精度提升超2倍:30亿参数的DepthLM模型,在4个室内外数据集上的δ₁指标,远超GPT-5、Gemini-2.5-Pro、Qwen2.5-VL等先进VLM,精度提升超2倍,对比同量级VLM甚至有8倍提升;

  2. 媲美顶尖纯视觉模型,首次实现VLM的专业级精度:DepthLM的70亿参数模型,δ₁指标达到0.838,可与DepthPro、Metric3Dv2等顶尖纯视觉深度模型比肩,成为首个在度量深度估计上达到专业纯视觉模型精度的VLM;

  3. 点云生成质量更高,自然避免过平滑:DepthLM无需密集预测头,仅通过逐像素查询就能生成高精度度量尺度点云,且相比纯视觉模型,能自然避免边界过平滑问题,减少飞点产生,物体边界分割更清晰;

  4. 多任务能力突出,大幅超越基线模型:基于同一框架训练的统一VLM,在主轴距距离、速度/时间估计、两点间距、相机位姿等3D任务上,平均δ₁达0.804,相比GPT-5、Qwen2.5-VL等基线模型,精度提升超3.8倍,解决了主流VLM在复杂3D任务上的灾难性失败问题。

四、优势与局限

核心优势

  1. 轻量化且通用:仅用30亿/70亿参数的小模型,就实现了大模型都达不到的3D精度,且方法跨架构适用,可迁移至不同VLM;

  2. 简单易实现:无需修改模型架构、无需设计复杂损失函数,仅通过视觉提示、焦距统一和稀疏标签微调即可实现,工程落地成本低;

  3. 灵活可扩展:基于同一框架可实现多3D任务兼容,摆脱纯视觉模型的“专才”局限,实现VLM的3D任务通用化;

  4. 数据利用效率高:仅需稀疏标签训练,大幅降低数据标注成本,更适合大规模训练。

研究局限

本次研究聚焦于VLM 3D深度理解的核心设计优化,尚未探索更精细化的策略:比如未设计专门的数滤管线来融合更多数据集,未通过多任务互补训练进一步提升模型的泛化能力,未来仍有提升空间。

五、一句话总结

Meta和普林斯顿大学提出的DepthLM方法,通过视觉提示、统一焦距和稀疏标签微调三大核心设计,首次让视觉语言模型在不改动架构和损失的前提下,实现了媲美顶尖纯视觉模型的像素级度量深度估计精度,同时解锁了VLM的通用3D任务处理能力,为视觉语言模型的3D理解研究开辟了全新方向。

http://www.jsqmd.com/news/386754/

相关文章:

  • GLM-4-9B-Chat-1M多场景落地:在线教育平台课件自动双语生成与习题解析
  • 世毫九 RAE-72h 三周期全域对抗实验总预案(最终完整版)
  • 如何成为卓越管理者
  • 实测才敢推AI论文平台,千笔ai写作 VS 学术猹,专科生专属写作神器
  • 字节芯片团队启动规模化招聘,附重要岗位职责
  • GLM-4V-9B图文理解实战案例:科研论文插图数据提取+趋势总结
  • 运料小车组态王6.53仿真运行视频
  • 2026 AI 编程将发生巨变!
  • 写论文省心了!专科生专用AI论文软件,千笔AI VS 灵感ai
  • FLUX.1模型优化:YOLOv8目标检测在图像生成质量评估中的应用
  • 2026年靠谱的电机热保护器/断电保护器人气实力厂商推荐 - 品牌宣传支持者
  • 零基础入门:用Pi0 VLA模型控制机器人的保姆级教程
  • Pi0具身智能软件测试实战:自动化测试框架搭建
  • 2026年知名的食堂外包半托/企业食堂外包专业服务推荐 - 品牌宣传支持者
  • 微信小程序开发:集成SenseVoice-Small实现语音输入功能
  • 2026年热门的新能源储能温控/汽车加热垫温控器厂家推荐与选择指南 - 品牌宣传支持者
  • 建议收藏|千笔·专业降AIGC智能体,专科生专属降AI神器
  • 深度测评!万众偏爱的一键生成论文工具 —— 千笔写作工具
  • 刚刚,Anthropic 发布了 Claude Skills 最佳实践全解
  • 小试牛刀:使用Go Gin框架构建用户管理RESTful API
  • 揭秘AI专著撰写:热门工具全解析,开启专著创作新体验
  • AI写专著的秘密武器!实用工具解析,轻松搞定专著创作
  • [特殊字符]天津实力无主灯设计|用光影勾勒家的高级氛围感
  • 如何为不同场景选海鲜饭店?2026年青岛海鲜饭店全面评价与推荐,直击信息筛选与踩雷痛点 - 品牌推荐
  • 学习进度
  • 1.Matlab实现WOA-GRU鲸鱼算法优化门控循环单元的数据多输入分类预测(完整源码和数据...
  • 如何为不同场景选海鲜饭店?2026年青岛海鲜饭店全面评测与推荐,直击品质与特色痛点 - 品牌推荐
  • 专业干货:AI专著写作必备工具盘点,提升写作效率不是梦
  • 2026年青岛海鲜饭店推荐:商务宴请与家庭聚餐场景深度评价,解决品质与性价比核心痛点 - 品牌推荐
  • AI写专著的秘密武器:实用工具推荐,大幅提升写作效率