当前位置: 首页 > news >正文

ICLR 2026 开源 | PAGE-4D:首个VGGT动态场景4D重建框架,速度无损、精度全面SOTA!

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

本文经授权发布 | 来源:3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内有20多门3D视觉系统课程、300+场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎加入!

视觉几何基础变换器(VGGT)在静态场景中表现优异,但在动态场景下面临固有矛盾:相机姿态估计需抑制动态区域,而几何重建则需建模动态信息。如何在统一框架下协调这一任务冲突?

来自MIT和Harvard的研究团队提出了PAGE-4D(Disentangled Pose and Geometry Estimation for VGGT-4D Perception)模型。该模型通过动态感知聚合器(Dynamics-aware Aggregator)预测动态感知掩码,实现静态与动态信息的解耦:在姿态估计中抑制运动线索,在几何重建中增强动态表示。该框架无需后处理,可端到端完成相机姿态估计、深度预测和点云重建等任务。

论文标题PAGE-4D: Disentangled Pose and Geometry Estimation for VGGT-4D Perception

论文链接https://arxiv.org/abs/2510.17568

项目主页https://page4d.github.io/

作者团队Kaichen Zhou, Yuhan Wang, Grace Chen, Xinhai Chang, Gaspard Beaudouin, Fangneng Zhan, Paul Pu Liang, Mengyu Wang

研究背景与挑战

真实世界场景中动态对象普遍存在,对三维感知任务提出了不同要求:

  • 相机姿态估计:需抑制动态区域以获取准确相机运动

  • 几何重建:需建模动态区域以还原完整场景几何

这种任务间的固有冲突是多任务4D重建的核心挑战。传统方法往往难以在同一框架下同时满足这两种相反的需求,导致在动态场景中性能下降。

核心发现:从实验观察到问题洞察

实验观察:虽然VGGT在静态场景理解中达到了最先进的性能,但在存在动态对象时,其精度显著下降。在Odyssey测试集上,动态区域的绝对深度误差比静态区域高94%,这凸显了需要一个能够在静态和动态场景中都实现可靠场景理解的架构。

特征可视化分析:通过对VGGT关键层的特征可视化分析,研究团队观察到动态区域表现出比静态区域更弱的激活,这表明VGGT倾向于忽略动态内容。进一步的消融实验显示,当明确抑制动态token的跨帧注意力时,相机姿态估计得到改善,但同时导致几何重建性能急剧下降。

核心洞察:这些发现揭示了动态场景中的根本矛盾:相机姿态估计需要抑制动态区域以保持对极一致性,而几何重建则需要利用它们的运动线索。在动态场景中,相机姿态估计对动态运动很脆弱,小的残差可能破坏本质矩阵拟合;而几何和跟踪任务实际上可以从建模动态运动中受益。

PAGE-4D方法概述

基于这一洞察,研究团队提出了PAGE-4D,一个动态感知的VGGT扩展。PAGE-4D由四个关键组件组成:

  1. 预训练的DINO-style编码器:提取图像级表示

  2. 动态感知聚合器(Dynamics-aware Aggregator):通过三个模块整合空间和时间线索——Frame Attention用于帧间patch关系,Global Attention用于帧内patch关系,Dynamics-Aware Global Attention用于解耦动态和静态内容

  3. 轻量级解码器:用于深度和3D点云地图

  4. 更大的解码器:专门用于相机姿态估计

PAGE-4D继承了VGGT的组件(1)、(3)和(4),而将组件(2)扩展为三阶段动态感知聚合器。

三阶段动态感知聚合器:

  • 第一阶段:由N₁层组成,每层包含一个Global Attention块和一个Frame Attention块。其输出送入动态掩码预测模块,生成动态感知掩码。

动态掩码预测:动态掩码预测模块以自监督方式学习哪些空间区域可能对应动态对象。如图(a)所示,该模块从聚合器中提取patch tokens,通过线性映射投影到低维表示,然后使用深度卷积头生成掩码logits。通过引入可学习的温度参数τ和缩放因子α,将logits转换为抑制概率,形成连续的自适应抑制权重而非二值掩码,使其对模糊的运动边界和部分遮挡更加鲁棒。

  • 第二阶段:应用动态感知掩码来解耦动态和静态内容,用于姿态和几何估计。该阶段由N₂层组成,每层包含一个Dynamics-Aware Global Attention块和一个Frame Attention块。

掩码注意力机制:一旦预测出动态掩码,它可以被直接整合到transformer注意力机制中。如图(b)所示,对于相机姿态估计任务,掩码主动抑制对动态区域的注意力,确保与对极几何和静态场景约束的一致性。而对于深度和点云任务,掩码不应用于相关patch,允许网络利用动态运动线索来改善点云地图重建和2D-3D跟踪精度。这种非对称设计明确解耦了动态区域在不同任务中的作用。

  • 第三阶段:由N₃层组成,结构与第一阶段类似。

实验结果

研究团队在多个动态场景中对PAGE-4D进行了广泛的实验验证,涵盖了视频深度估计、单目深度估计、相机姿态估计、点云地图重建和新视角合成等多个任务。

定量结果:广泛的实验表明,PAGE-4D在动态场景中始终优于原始VGGT,在相机姿态估计、单目和视频深度估计以及密集点云地图重建等任务上均取得了卓越的成果。相比VGGT,PAGE-4D在多个基准测试上实现了显著改进:深度估计准确率提升20-40%,相机姿态估计误差降低13-21%,点云重建准确度误差降低60%以上

定性结果:PAGE-4D能够从RGB输入中估计相机姿态和深度图,即使在存在动态对象的情况下也能实现高质量的点云重建。如图5所示,对比VGGT,PAGE-4D生成的点云更加密集、完整,几何一致性更好,能够有效捕捉动态物体的细节和完整场景结构。

鲁棒性:PAGE-4D在显著提升性能的同时,保持了与VGGT相同的推理速度(43.2 FPS),未增加计算成本。该方法在从视频序列到单帧输入的泛化方面表现良好,优于DUSt3R、MonST3R和FLARE等专用基线方法。在动态场景渲染应用中,将PAGE-4D重建的点云作为4D-Gaussian splatting框架的初始化,在Nerfie基准测试上实现了优于现有前馈3D重建模型的渲染性能,展现了良好的鲁棒性和泛化能力。

总结

PAGE-4D通过动态感知聚合器实现了静态与动态信息的有效解耦,在相机姿态估计、深度预测和密集点云地图重建等任务上均取得了卓越的成果。这项工作为三维视觉感知在复杂动态环境中的应用提供了新的思路和方法,有望推动动态感知技术的进一步发展。

重要的是,PAGE-4D展示了通过有效的解耦策略,即使在有限的动态数据下也能实现强大的泛化能力,为可扩展和高效的4D场景理解铺平了道路。

如果你对4D感知、动态场景理解或多任务视觉模型感兴趣,欢迎在评论区留言交流!

本文仅做学术分享,如有侵权,请联系删文。

3D视觉方向论文辅导来啦!可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。

添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。

http://www.jsqmd.com/news/554251/

相关文章:

  • MiniCPM-o-4.5-nvidia-FlagOS与Claude对比分析:在复杂推理任务上的差异化表现
  • IGBT模块封装工艺:从真空回流焊到高可靠性设计的全流程解析
  • MyBatis动态SQL避坑指南:从<if>到<foreach>,这些细节面试官最爱问
  • R数据可视化进阶|利用Scatterplot3d包打造交互式3D散点图
  • 如何快速制作专业字幕:Subtitle Edit开源工具终极指南
  • 从编译到封装:基于GmSSL 3.x的C++ SM2国密算法实践指南
  • 51单片机红外避障循迹小车实战:从接线到代码调试全流程(附避坑指南)
  • FlowState Lab赋能数字孪生:城市交通流实时仿真与推演系统
  • ArcGIS版本混乱救星:手把手教你打造专属‘批量mxd转换器’,附常见报错排查
  • 次元画室安装避坑指南:解决Anaconda环境冲突与依赖问题
  • Realistic Vision V5.1 虚拟摄影棚:Android Studio应用界面原型图快速生成
  • AtlasOS:终极Windows系统性能优化与隐私保护指南
  • BiliTools:解锁3大核心能力,零基础轻松管理B站资源
  • 从PLC到Kubernetes:工业Python网关高可用配置的6层安全加固体系(含CVE-2024-XXXX漏洞规避方案)
  • MrDoc最佳实践案例分享:成功企业的文档管理经验
  • 冬虫夏草闲置别浪费!本草拾光上门高价回收,品相好价更高 - 品牌排行榜单
  • Android OTA解压工具:payload-dumper-go如何重塑系统镜像提取效率
  • 国家中小学智慧教育平台电子课本下载工具:教育资源高效获取的技术解决方案
  • Hunyuan-MT-7B惊艳效果:WMT25官方测试集30语种首名翻译样例展示
  • 如何从零开始构建中国象棋AlphaZero AI:完整实战指南与进阶技巧
  • 2026年西安想要拍有故事感的婚礼跟拍,哪家口碑好 - mypinpai
  • 零门槛构建专属A股数据平台:3大优势+4步部署+5类应用场景
  • Jimeng LoRA在SpringBoot项目中的集成指南:AI赋能企业级应用
  • 3个步骤让Windows系统飞起来:AtlasOS性能优化实战指南
  • 共话西安找婚礼跟拍,朋友推荐多且提供4对多服务的公司选哪家 - 工业品网
  • 思源宋体终极指南:7款免费商用字体完整使用宝典
  • 电路验证与设计优化:Fritzing仿真功能全解析
  • 从无人机照片到Cesium三维地球:一份ContextCapture + GISBox的完整工作流配置清单
  • 如何免费解锁网盘高速下载:网盘直链下载助手终极指南
  • 2026年西安找一对一面修的结婚旅拍,靠谱品牌推荐 - 工业品牌热点