3D重建模型“会看”不会“改”?VGGT-Edit最高120倍加速,让3D编辑接近实时交互
【导语:当前3D重建模型虽能快速重建3D场景,但在编辑3D世界方面存在难题。来自多机构的研究团队提出原生3D编辑框架VGGT-Edit,在多个维度超越现有方法,让3D编辑接近实时交互。】
从NeRF到83D Gaussian Splatting等前馈式3D重建模型,进展迅速,能几秒内用几张图片重建完整3D场景。然而,这些模型能理解三维世界,却难以修改,涉及复杂编辑时,现有方法易崩溃,如椅子视角不一致、背景变形等,这对机器人、AR/VR等场景是致命问题。
VGGT-Edit核心思路是直接在3D空间完成编辑,基于VGGT-Like前馈式重建模型,采用残差场预测机制,保留原始场景稳定3D结构,只学习局部变化,让未改动背景区域更稳定。
其还设计了深度同步文本注入机制,让文本语义和3D空间特征在同一深度层级持续同步,同时有视角重要性加权,使多视角编辑结果更稳定。
VGGT-Edit有专门面向3D编辑任务的编辑头,额外设计编辑分支预测场景局部变化,学习哪些区域保持不变、哪些需编辑及编辑后多视角一致,让VGGT-Like模型具备编辑能力。
团队构建了规模接近10万组的DeltaScene数据集,覆盖多种场景,数据生成流程高度自动化,确保模型学习不同视角下的空间一致。
在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度超现有方法,单次编辑约5秒,最高实现120倍加速,让3D编辑接近实时交互。
实验显示,输入训练中未出现的指令,模型也能成功编辑,说明它开始理解文本语义到3D空间变化的映射,推动3D编辑向自由、稳定、实时修改世界迈进。
编辑观点:VGGT-Edit解决了3D重建模型编辑难题,其创新机制和高效性能为3D编辑带来突破,有望推动机器人、AR/VR等领域发展。
