当前位置: 首页 > news >正文

2605.VGGT-Omega 论文解读: 3D重建的Scaling Law, Register Attention效率革命 | Oxford+Meta CVPR26 Oral

VGGT-Omega: Scaling Feed-Forward 3D Reconstruction

Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schonberger, et al.

Visual Geometry Group, Oxford + Meta AI | CVPR 2026 Oral | arXiv 2605.15195

Paper | Project Page

一句话总结

VGGT-Omega 是 VGGT 的大规模升级版,通过Register Attention、简化预测头和自监督训练,将训练显存降至前作的 30%,从而支持15 倍数据规模10B 参数模型。首次证明 3D 重建模型存在类似 LLM 的幂律 Scaling Law,在 Sintel 相机估计上提升 77%(CVPR 2026 Oral)。

核心问题

前馈式 3D 重建模型(如 VGGT、DUSt3R、MASt3R)已证明可以媲美传统优化方法(COLMAP),同时提供可复用的几何感知特征。但一个关键问题未被回答:

  • 这类模型能否像 LLM 那样从规模扩大中持续获益?
  • 如果可以,如何克服 GPU 显存瓶颈以训练更大模型、使用更多数据?

VGGT 的全局注意力机制是 O(N^2) 的显存和计算瓶颈,DPT 卷积头占据大量中间激活显存,多个密集预测头进一步加剧问题。

为什么选 Register Attention?

方案优势劣势
Full Global Attention (VGGT)所有 Token 可跨帧交互O(N^2) 显存/计算;注意力图实际很稀疏
Token Merging / Sparse Attention减少 Token 数量可能丢失关键细节信息
Register Attention (本文)仅 16 个 Register 跨帧交互;无性能损失全替换会降质(保留 25% 全局层为最优)

关键发现:全局注意力图实际非常稀疏(Fig 3),只有极少数 Token 真正参与跨帧信息交换。Register 正是这些 Token 的显式化版本。

整体框架

图2:VGGT-Omega 架构。每帧添加 Camera Token + 16 个 Scene Token (Register),交替进行全局/Register 注意力和帧内注意力。密集预测头简化为 MLP + Pixel Shuffle。

三大架构改进

  • Register Attention:25% 的全局注意力层替换为 Register-only 注意力(仅 Register 跨帧通信),节省 23% FLOPs、16% 显存,性能不降反升
  • 简化密集预测头:移除 DPT 中的高分辨率卷积层,改用 MLP + Pixel Shuffle,大幅节省显存
  • 单头多任务:仅保留一个 Dense Head(深度预测)+ 一个 Sparse Head(相机参数),用多任务 Loss 联合监督,取代原来的多个独立头

总效果:训练显存降至 VGGT 的 ~30%,推理速度提升 20-25%。

Scaling Law:3D 重建的幂律

图1:模型规模和数据规模的 Scaling 曲线。Point Error 随模型/数据增大呈幂律下降。

维度范围Point Error 变化
模型规模0.2B - 1B - 5B - 10B0.107 - 0.073 - 0.057 - 0.046
数据规模2K - 100K - 1M - 2M 序列0.275 - 0.160 - 0.129 - 0.073

核心发现:3D 重建模型首次展现出类似 LLM 的幂律 Scaling 行为。数据和模型规模的持续扩大带来单调性能提升,无明显饱和。

方法详解

训练损失

$$\mathcal{L} = \lambda_{\mathrm{cam}} \mathcal{L}_{\mathrm{cam}} + \lambda_{\mathrm{depth}} \mathcal{L}_{\mathrm{depth}} + \lambda_{\mathrm{point}} \mathcal{L}_{\mathrm{point}} + \lambda_{\mathrm{match}} \mathcal{L}_{\mathrm{match}}$$

  • Camera Loss:L1 损失比较预测和 GT 相机参数(四元数旋转 + 平移 + FOV)
  • Depth Loss:相对尺度深度 + 梯度一致性 + 不确定性估计
  • Point Loss:将深度反投影为 3D 点,与 GT 点云对齐
  • Matching Loss:对比学习拉近对应 3D 位置的 Token 特征,推开不对应的

动态场景重建

关键设计选择:仅预测深度图和相机参数,不显式建模运动

  • 相机参数与场景运动天然解耦:深度描述几何,相机描述观测位姿
  • 避免引入昂贵的运动分割/光流输出
  • 模型通过大规模动态数据训练自动学习运动感知(PCA 聚类能无监督分割运动物体)

数据标注流水线

40M 互联网视频出发:

  • VLM 过滤(去除 50% 不可重建视频)
  • Grounding DINO 提取动态区域 Mask
  • 多方法特征匹配(SIFT + SuperPoint + SuperGlue + ALIKED + LightGlue)
  • VGGT + COLMAP 联合标注相机和深度
  • 多视图一致性 + XGBoost 分类器过滤低质量样本

最终产出:0.8M 高质量标注序列(200K 动态 + 600K 静态)+ 3M 公开数据 = 4M 总量(15x VGGT)。

自监督训练(DINO 风格)

Teacher-Student 蒸馏,在18M 无标注视频上训练:

  • Student:梯度下降更新;Teacher:EMA 更新
  • 相同输入不同增强 + 帧顺序打乱
  • Student 匹配 Teacher 的特征分布 (L2) + 预测 (camera, depth)
  • Point Error 从 0.073 降至 0.070,且泛化能力显著提升

主要结果

相机位姿估计

方法7 Scenes (AUC@3)Sintel (AUC@3)DyCheck (AUC@3)
VGGT10.915.021.0
MegaSaM10.622.526.8
DA318.716.232.1
VGGT-Omega 1B29.635.338.4
VGGT-Omega 10B36.440.043.7

Sintel AUC@3: 22.5 - 40.0,相对提升 77%。在所有静态和动态 Benchmark 上全面超越 VGGT、DA3、MegaSaM。

深度估计

方法Sintel delta1.25Sintel AbsRelETH3D delta1.25
MegaSaM74.10.20794.8
DA386.10.11899.6
VGGT-Omega 1B89.50.09799.8
VGGT-Omega 10B93.50.08199.8

推理效率

图7:单张 80GB A100 上的显存和速度对比。VGGT-Omega 可处理 >1000 帧而不 OOM,DA3 在 ~750 帧即耗尽显存。

Register Token 下游应用

方法Spatial SR%Object SR%Goal SR%Average SR%
OpenVLA-OFT97.698.497.997.1
+ Frozen Scene Tokens99.399.299.098.5

冻结的 VGGT-Omega Register Token 作为即插即用几何特征,直接提升 VLA 机器人操控性能。

语言对齐:Register Token 通过 CLIP 风格对比学习可与文本对齐,Top-1 检索准确率 76.8%,零样本 47.5%。证明重建学到的 Register 携带高层语义信息。

核心创新点

创新类型说明
Register Attention全新机制限制跨帧信息仅通过 Register 交换,23% FLOPs 节省无性能损失
3D 重建 Scaling Law全新发现首次证明前馈重建模型存在幂律 Scaling
Register 复用于 VLA/语言全新应用重建作为空间理解的 Proxy Task,Register 是天然的场景表征
MLP+PixelShuffle 替代 DPT工程改进大幅节省显存,定性略有 blocky artifacts 但指标相当
40M 视频标注流水线工程系统VLM 过滤 + COLMAP + 分类器,产出 0.8M 高质量动态场景标注

局限性与展望

  • 标注依赖优化:数据流水线仍需 COLMAP 迭代优化,非全端到端可扩展
  • 10B 模型推理成本:论文未报告实时性指标,10B 模型部署可行性存疑
  • 自监督增益有限:Point Error 仅从 0.073 降至 0.070,当前协议可能次优
  • MLP 头 Blocky Artifacts:深度图中出现块状伪影(尤其室外远距离场景),保留浅卷积层作为折衷
  • 内部数据不公开:40M 视频集合为 Meta 内部数据,社区无法完全复现
  • 动态建模隐式:不显式建模运动/光流,难以用于需要逐像素运动估计的下游任务

总结

VGGT-Omega 的核心贡献在于:首次证明 3D 重建模型遵循幂律 Scaling Law,并通过 Register Attention 等架构改进,使大规模训练成为可能。更深远的启示是"重建即空间理解的 Pretraining"这一范式 -- Register Token 无需微调即可提升 VLA 性能、对齐语言,暗示 3D 几何重建可能是通往通用空间智能的 Proxy Task。作为 CVPR 2026 Oral,这篇论文对 3D 视觉、机器人、自动驾驶等领域都有深远影响。

http://www.jsqmd.com/news/887170/

相关文章:

  • 【助睿实验指导】学生用户画像 - 考勤主题扩展标签构建
  • 铜排浸漆技术要点解析及合规供应方选型参考:浸粉铜排、软连接定制、软铜排定制、铜排浸粉、铜排软连接、铜箔软连接、定制软连接选择指南 - 优质品牌商家
  • 2026年Q2软铜排定制选型全维度技术指南:铜排软连接、铜箔软连接、定制软连接、定制软铜排、定制铜排、柔性软连接选择指南 - 优质品牌商家
  • 2026年红帽Red Hat最新— 个人考试预约流程
  • 前端可读性=可交付性?斯坦福人机交互实验室联合验证的Lovable代码熵值计算公式(含VS Code插件)
  • 第2章:AI辅助Solidity语法精讲——变量、函数与修饰器
  • 如何快速掌握开源UE资产编辑器:UAssetGUI完整配置与实战指南
  • leetcode思路-回溯相关(46.全排列、78.子集、17.电话号码的字母组合)
  • 第一篇:《Docker 是什么?为什么它改变了软件交付》
  • 2026年5月正规的哈尔滨耐火电缆厂家有哪些厂家推荐榜,NH-YJV、NH-BV、NH-KVV、WDZN-YJY型号厂家选择指南 - 海棠依旧大
  • 终极Android应用签名解决方案:Uber APK Signer完整实战指南
  • 2026年5月口碑好的山东耐磨地质钢管源头厂家排行榜厂家推荐榜,R780地质钢管、深井地质钢管、岩心地质钢管厂家选择指南 - 海棠依旧大
  • [智能体-78]:什么是智能体?它包括哪些组件?
  • 量子酉操作逆运算:结构化优化与NISQ应用
  • NAV专业服务推荐榜:BC MES、BC Mobile、BC WMS、BC 移动端、D365、NAV Barcode选择指南 - 优质品牌商家
  • 2026年浸漆铜排选型指南:浸粉铜排、软铜排定制、铜排浸漆、铜排浸粉、铜排软连接、铜箔软连接、定制软连接、定制软铜排选择指南 - 优质品牌商家
  • 保姆级教程:Multisim 14.0 从下载到汉化,手把手教你避开C盘爆满和激活失败的坑
  • 2026年5月专业的上海屋面屋顶防水公司哪家靠谱厂家推荐榜:屋面防水/屋顶漏水/别墅防水工程厂家选择指南 - 海棠依旧大
  • 游轮WiFi覆盖方案复盘:6台5G CPE + AP实现全船高速上网
  • 平安校园安防升级,国标GB28181视频平台EasyGBS实现全区域视频无死角合规管控
  • 终极Hyper-V设备直通解决方案:DiscreteDeviceAssigner图形化工具完整指南
  • 教育机构利用Taotoken为学生提供稳定的大模型编程实验环境
  • 马斯克转发的这张梗图,藏着工程界最朴素的真理
  • 第5章:AI辅助ERC20与ERC721进阶——代币经济学与批量铸造
  • 2026定制软连接技术选型全指南:铜排软连接/铜箔软连接/定制软连接/定制软铜排/柔性软连接/浸漆铜排/浸粉铜排/选择指南 - 优质品牌商家
  • 2026软连接定制技术维度解析与合规企业实测参考:浸粉铜排/软铜排定制/铜排浸漆/铜排浸粉/铜排软连接/铜箔软连接/选择指南 - 优质品牌商家
  • 华为芯片重大进展!何庭波:5年达1.4nm同等水平
  • 【分享】AI记账本 AI识别智能记账 解锁会员版
  • 2026年邯郸有实力的悬架螺栓销售厂家甄选指南:聚焦制造实力与稳定交付 - 2026年企业推荐榜
  • 电信运营商海量工单自动派发和闭环如何实现?基于2026年大模型Agent的技术解构