当前位置: 首页 > news >正文

Meta与牛津联手发布VGGT-Ω:用2000万视频喂出的「3D重建巨无霸」!

EasyRader 全文翻译、生成结构化导读、思维导图,节省80%阅读时间 。

在大模型(LLM)领域,「规模定律(Scaling Law)」早已是人尽皆知的真理——模型越大、数据越多,实力就越恐怖。

但在3D计算机视觉领域,由于高质量3D数据的匮乏和几何计算的超高复杂度,Scaling Law 迟迟未能展现出其魔力。

就在最近,AI 3D 领域迎来了一颗重磅炸弹!由牛津大学视觉几何组(VGG)与Meta AI联合推出了全新的前馈3D重建基础模型——VGGT-Ω。这项研究不仅正面硬刚 3D 领域的数据瓶颈,更用实打实的数据向全行业宣告:3D几何重建,同样尊崇「大力出奇迹」的真理!


🚀 战绩一览:前馈3D重建的「新王登基」

过去,传统的3D重建(如 SfM、COLMAP)或者一些混合优化方法(如 MegaSaM),在面对复杂动态场景时,不仅速度慢得像老牛拉车,还经常出现几何漂移和纹理模糊。

VGGT-Ω作为一个「端到端」的前馈 Transformer 模型,直接输入多张图片,就能瞬间吐出精准的相机轨迹和深度图!来看看它在业界公认的硬核测试集 Sintel 上的恐怖战绩:

  • 📸相机姿态估计准确率:直接狂飙 77%!
  • 📐深度估计精度:大幅提升 26%
  • 速度:比大名鼎鼎的 MegaSaM 快了整整 50 倍!

无论是静态的地下珊瑚礁,还是动态的网球运动员轨迹、城市车流,VGGT-Ω 都能做到毫秒级的「一眼看穿几何结构」。


🛠 核心黑科技:它是如何把 GPU 显存「砍掉70%」的?

想要把 3D 重建模型扩展到前所未有的超大规模,原有的架构根本带不动。原版 VGGT 的全局注意力机制(Global Attention)是个严重的显存吞噬兽。

为了打破这个僵局,Meta 和牛津的科学家们对架构进行了精妙的「三板斧」魔改:

  1. Register Attention(寄存器注意力机制)🧠
    科学家们注意到,ViT 模型会自发使用少量 Token 来传递全局几何信息。于是他们在每帧图像中加入了 16 个可学习的「寄存器 Token」(也叫场景标记 Scene Tokens)。在部分网络层中,不允许帧与帧之间的图像 Token 直接对话,而是必须通过这些「场景 Token」进行全局信息中转。这一项改动,直接砍掉了大量的 FLOPs 和显存开销!
  2. 重塑密集预测头(Lightweight Heads)🪓
    以前那些高分辨率的卷积层(如 DPT)极度浪费显存。VGGT-Ω 果断把最耗显存的卷机层换成了单个 MLP 加上 Pixel Shuffle(像素重组)算子,不仅显存暴降,重建出来的图依然丝滑流畅。
  3. 单预测头多任务监督(Multi-task Supervision)🎯
    精简架构,精简到只保留一个深度预测头和一个相机预测头,但在训练时依然保留多任务损失(Loss)进行強力监督。

这三套组合拳下来,VGGT-Ω 成功在训练时省下了 70% 的 GPU 显存!正是这 70% 的空间,让团队能够用15倍于前作的庞大数据量对其进行疯狂投喂。


🌊 1800万互联网视频洗礼:解锁 4D 动态重建

3D 视觉最缺的是什么?高质量的几何真值(Ground Truth)数据。
VGGT-Ω 这次开发了一套极其硬核的高质量数据标注流水线:利用 VLM 预筛选、COLMAP、几何后验过滤等技术,从 4000 万个互联网野外视频中,硬生生筛选洗练出了 80 万个带有精准几何标注的动态/刚性序列。

更绝的是,他们还引入了类似DINO 的自监督学习协议(Teacher-Student 模型),直接把1800 万个毫无标注的互联网视频塞进去进行动态对齐训练!这直接解锁了模型对真实世界中各种复杂、动态、奇葩场景的恐怖泛化力。


🤖 终极彩蛋:3D 重建竟然是「具身智能」的催化剂?

如果仅仅是重建得准、速度快,它还不足以被称为「3D 空间基础模型」。

研究人员做一个非常大胆的尝试:他们把 VGGT-Ω 训练好后、原本用来做全局中转的「场景寄存器 Token(Scene Tokens)」直接冻结拔出来,当作一个外挂几何特征,塞进了具身智能大模型 OpenVLA 中

结果令人震惊:在机器人操控基准测试 LIBERO 上,套用了 VGGT-Ω 寄存器特征的机器人,在各项操纵任务中的成功率(Success Rate)获得了全面且显著的提升!

这证明了这些由几何重建任务训练出来的 Token,不单单包含了几何点云信息,更蕴含了极高层次的空间语义与结构理解,甚至能与语言空间自然对齐(符合大模型领域的「柏拉图表征假设 Platonic Representation Hypothesis」)。


💡 总结

VGGT-Ω 的诞生,不仅仅是刷榜了几个 3D 重建的 Benchmark。它更深刻的意义在于验证了:3D 空间理解不需要死磕传统的非刚性优化公式,只要架构对了、数据和参数规模上去了,网络自己就能学会真实世界的物理与空间几何规律。

未来的自动驾驶、机器人具身智能、以及 AR/VR 设备,或许都将装上这样一个由数千万视频喂出来的「几何大脑」。

👉项目开源主页:http://vggt-omega.github.io/
👉 现在下载,开启高效科研阅读新体验!EasyReader论文阅读 - 易读论文阅读 科研文献翻译

http://www.jsqmd.com/news/854204/

相关文章:

  • 树状数组 - P2184 贪婪大陆
  • 收藏干货:MySQL/PG/人大金仓/达梦语法差异对照表
  • 你正在找靠谱企业用车平台?这几个维度比榜单靠谱 - 资讯速览
  • 为ubuntu20.04上的claude code配置taotoken作为稳定后端
  • 使用curl命令直接测试Taotoken聊天接口的完整步骤
  • 运动康复证书去哪家机构报名好?2026正规报考培训机构推荐:中山优才教育 - 优选机构推荐
  • 2026 年长沙市汽车贴膜施工工艺行业白皮书 - 资讯速览
  • 连锁vs本土vs小众:丽江婚礼机构怎么选才对 - 资讯速览
  • 每日算法快闪赛:15分钟手撕LeetCode,思维速度与工程落地全攻略
  • 十大知识领域裁剪考量因素表
  • 【干货】如何从软件测试转型为AI测试开发?这份面试题指南值得你一看!
  • 2026年中频滚焊机源头厂家:解读行业核心趋势 - 资讯速览
  • 猫抓资源嗅探终极指南:从零配置到高效下载的完整教程
  • 知网维普同时压到10%,2026年5月降AI软件4款实测 - 我要发一区
  • AI Skill 与 Prompt 的区别:从提示词到可装载能力资产
  • 2026海外住宅IP怎么选?最全服务商实测对比
  • 运动康复证书怎么报名怎么考?正规授权机构推荐:中山优才教育 - 优选机构推荐
  • 行业白皮书 GEO 化转 HTML + 结构化,AI 引用率提升 50%
  • CTP 与 Python 期货量化:封装库还是一体化 SDK
  • 从电磁铁到无线输电:手把手复现特斯拉线圈核心实验(含电路图与材料清单)
  • 告别网格发散!用SMS 13.0为ADCIRC模型构建稳定计算网格的保姆级避坑指南
  • 双率合规新赛道!九大论文辅助利器齐聚,okbiye 领衔解锁检测降重全新玩法
  • 初次使用Taotoken完成模型调用从注册到收到响应的全过程记录
  • AntiDupl.NET终极指南:快速清理重复图片,释放硬盘空间
  • 合同纠纷别慌!2026 年 5 月专业靠谱律师精选推荐 - 外贸老黄
  • 2026调理品腌料生产厂家:三大核心趋势解读 - 资讯速览
  • Taotoken的用量看板如何帮助开发者洞察模型调用模式
  • 别再手动移植了!用STM32CubeMX+Keil AC6一键搞定QP状态机(STM32F407ZGT6实测)
  • RK3399嵌入式主板PCM-8239开发实战:从硬件选型到Android系统定制
  • 保姆级教程:用ArcGIS Pro和Excel搞定城市经济联系度分析(附完整数据源)