Meta与牛津联手发布VGGT-Ω:用2000万视频喂出的「3D重建巨无霸」!
EasyRader 全文翻译、生成结构化导读、思维导图,节省80%阅读时间 。
在大模型(LLM)领域,「规模定律(Scaling Law)」早已是人尽皆知的真理——模型越大、数据越多,实力就越恐怖。
但在3D计算机视觉领域,由于高质量3D数据的匮乏和几何计算的超高复杂度,Scaling Law 迟迟未能展现出其魔力。
就在最近,AI 3D 领域迎来了一颗重磅炸弹!由牛津大学视觉几何组(VGG)与Meta AI联合推出了全新的前馈3D重建基础模型——VGGT-Ω。这项研究不仅正面硬刚 3D 领域的数据瓶颈,更用实打实的数据向全行业宣告:3D几何重建,同样尊崇「大力出奇迹」的真理!
🚀 战绩一览:前馈3D重建的「新王登基」
过去,传统的3D重建(如 SfM、COLMAP)或者一些混合优化方法(如 MegaSaM),在面对复杂动态场景时,不仅速度慢得像老牛拉车,还经常出现几何漂移和纹理模糊。
而VGGT-Ω作为一个「端到端」的前馈 Transformer 模型,直接输入多张图片,就能瞬间吐出精准的相机轨迹和深度图!来看看它在业界公认的硬核测试集 Sintel 上的恐怖战绩:
- 📸相机姿态估计准确率:直接狂飙 77%!
- 📐深度估计精度:大幅提升 26%。
- ⚡速度:比大名鼎鼎的 MegaSaM 快了整整 50 倍!
无论是静态的地下珊瑚礁,还是动态的网球运动员轨迹、城市车流,VGGT-Ω 都能做到毫秒级的「一眼看穿几何结构」。
🛠 核心黑科技:它是如何把 GPU 显存「砍掉70%」的?
想要把 3D 重建模型扩展到前所未有的超大规模,原有的架构根本带不动。原版 VGGT 的全局注意力机制(Global Attention)是个严重的显存吞噬兽。
为了打破这个僵局,Meta 和牛津的科学家们对架构进行了精妙的「三板斧」魔改:
- Register Attention(寄存器注意力机制)🧠
科学家们注意到,ViT 模型会自发使用少量 Token 来传递全局几何信息。于是他们在每帧图像中加入了 16 个可学习的「寄存器 Token」(也叫场景标记 Scene Tokens)。在部分网络层中,不允许帧与帧之间的图像 Token 直接对话,而是必须通过这些「场景 Token」进行全局信息中转。这一项改动,直接砍掉了大量的 FLOPs 和显存开销! - 重塑密集预测头(Lightweight Heads)🪓
以前那些高分辨率的卷积层(如 DPT)极度浪费显存。VGGT-Ω 果断把最耗显存的卷机层换成了单个 MLP 加上 Pixel Shuffle(像素重组)算子,不仅显存暴降,重建出来的图依然丝滑流畅。 - 单预测头多任务监督(Multi-task Supervision)🎯
精简架构,精简到只保留一个深度预测头和一个相机预测头,但在训练时依然保留多任务损失(Loss)进行強力监督。
这三套组合拳下来,VGGT-Ω 成功在训练时省下了 70% 的 GPU 显存!正是这 70% 的空间,让团队能够用15倍于前作的庞大数据量对其进行疯狂投喂。
🌊 1800万互联网视频洗礼:解锁 4D 动态重建
3D 视觉最缺的是什么?高质量的几何真值(Ground Truth)数据。
VGGT-Ω 这次开发了一套极其硬核的高质量数据标注流水线:利用 VLM 预筛选、COLMAP、几何后验过滤等技术,从 4000 万个互联网野外视频中,硬生生筛选洗练出了 80 万个带有精准几何标注的动态/刚性序列。
更绝的是,他们还引入了类似DINO 的自监督学习协议(Teacher-Student 模型),直接把1800 万个毫无标注的互联网视频塞进去进行动态对齐训练!这直接解锁了模型对真实世界中各种复杂、动态、奇葩场景的恐怖泛化力。
🤖 终极彩蛋:3D 重建竟然是「具身智能」的催化剂?
如果仅仅是重建得准、速度快,它还不足以被称为「3D 空间基础模型」。
研究人员做一个非常大胆的尝试:他们把 VGGT-Ω 训练好后、原本用来做全局中转的「场景寄存器 Token(Scene Tokens)」直接冻结拔出来,当作一个外挂几何特征,塞进了具身智能大模型 OpenVLA 中。
结果令人震惊:在机器人操控基准测试 LIBERO 上,套用了 VGGT-Ω 寄存器特征的机器人,在各项操纵任务中的成功率(Success Rate)获得了全面且显著的提升!
这证明了这些由几何重建任务训练出来的 Token,不单单包含了几何点云信息,更蕴含了极高层次的空间语义与结构理解,甚至能与语言空间自然对齐(符合大模型领域的「柏拉图表征假设 Platonic Representation Hypothesis」)。
💡 总结
VGGT-Ω 的诞生,不仅仅是刷榜了几个 3D 重建的 Benchmark。它更深刻的意义在于验证了:3D 空间理解不需要死磕传统的非刚性优化公式,只要架构对了、数据和参数规模上去了,网络自己就能学会真实世界的物理与空间几何规律。
未来的自动驾驶、机器人具身智能、以及 AR/VR 设备,或许都将装上这样一个由数千万视频喂出来的「几何大脑」。
👉项目开源主页:http://vggt-omega.github.io/
👉 现在下载,开启高效科研阅读新体验!EasyReader论文阅读 - 易读论文阅读 科研文献翻译
