当前位置：首页 > news >正文

项目分享|VGGT：秒级完成场景3D重建的视觉几何Transformer

news 2026/3/26 20:43:28

引言

3D场景重建是计算机视觉领域的核心难题，传统方法往往依赖多阶段流程、海量计算资源，且仅能输出局部3D属性。而CVPR 2025最佳论文成果——VGGT（Visual Geometry Grounded Transformer）彻底改变了这一现状：这款由牛津大学VGG组与Meta AI联合研发的模型，能从单张/多张/数百张场景视图中，秒级直接推断相机内外参、深度图、3D点云等全维度3D属性，还支持商用部署与生态集成，成为3D重建领域的突破性成果。

项目核心介绍

VGGT是一款前馈神经网络，核心目标是从任意数量的场景视图中快速完成全维度3D属性推断，涵盖相机外参/内参、点映射、深度图、3D点跟踪等关键信息，且全流程仅需数秒。该项目斩获CVPR 2025最佳论文奖，团队后续持续迭代：7月更新商用许可（VGGT-1B-Commercial checkpoint支持商用，排除军事场景）、开放训练代码（支持自定义数据集微调）；6月新增COLMAP格式导出功能（可直接对接NeRF/高斯溅射库）；5月上线Co3D数据集相机姿态估计评估代码，全方位降低使用门槛。

创新点与核心优势

核心创新

架构创新：摒弃传统多阶段重建流程，通过Transformer架构直接端到端推断全量3D场景属性，无需中间步骤；
零样本能力：未针对单视图重建训练，却能实现比肩SOTA的单视图3D重建效果；
商用适配：发布商用友好版checkpoint，性能与原版持平（Co3D数据集AUC@30达90.37），审批流程类LLaMA自动审核。

核心优势

极致高效：H100 GPU上1帧仅需0.04秒，100帧也仅需3.12秒，显存占用可控（1帧仅1.88GB）；
生态兼容：导出的COLMAP格式文件可直接对接gsplat等高斯溅射/NeRF库；
易用性强：支持自定义掩码排除反光/天空等干扰区域，无需精准分割，简单框选即可。

技术实现与部署实操

环境部署

首先克隆仓库并安装依赖：

gitclone git@github.com:facebookresearch/vggt.gitcdvggt pipinstall-r requirements.txt

核心推理代码

仅需几行代码即可完成3D属性推断：

importtorchfromvggt.models.vggtimportVGGTfromvggt.utils.load_fnimportload_and_preprocess_images device="cuda"iftorch.cuda.is_available()else"cpu"dtype=torch.bfloat16iftorch.cuda.get_device_capability()[0]>=8elsetorch.float16# 初始化模型并加载预训练权重model=VGGT.from_pretrained("facebook/VGGT-1B").to(device)# 加载并预处理图像（替换为自定义路径）image_names=["path/to/imageA.png","path/to/imageB.png"]images=load_and_preprocess_images(image_names).to(device)# 推理获取3D属性withtorch.no_grad():withtorch.cuda.amp.autocast(dtype=dtype):predictions=model(images)# 包含相机参数、深度图、点云等

实用功能部署

导出COLMAP格式（支持光束平差法）：

# 基础导出python demo_colmap.py --scene_dir=/YOUR/SCENE_DIR/# 带光束平差法（更快版本）python demo_colmap.py --scene_dir=/YOUR/SCENE_DIR/ --use_ba --max_query_pts=2048--query_frame_num=5

交互式3D可视化：

pipinstall-r requirements_demo.txt# Gradio网页可视化python demo_gradio.py# Viser 3D点云可视化python demo_viser.py --image_folder path/to/your/images/folder

该项目及相关内容已 AladdinEdu课题广场同步发布，欢迎前往了解更多技术实现与资源

项目地址：AladdinEdu课题广场

查看全文

http://www.jsqmd.com/news/233895/

Rembg抠图批量API：高效处理大量图片

搜索研究文献的渠道有哪些：常用资源平台与获取途径解析

从GPT到智能体：OpenCSG带你看清AI技术演进的下一站

快速上手Qwen2.5-7B｜结合vLLM实现低延迟高并发

从零部署Qwen2.5-7B-Instruct｜vLLM推理服务搭建详解

uniAPP报错：v-for 暂不支持循环数据： (env: Windows,mp,1.06.2307260； lib: 3.12.0)

ResNet18图像分类省钱攻略：按需付费比买显卡省90%

从JSON到SQL：Qwen2.5-7B实现结构化生成的技术路径

搞懂 Kali Linux、Nessus 和 Metasploit 的关系，才算真正入门网络安全

智能抠图Rembg：家居装饰去背景案例

蓝易云 - PHP基本语法解析与应用指南

Qwen2.5-7B-Instruct镜像实践｜基于vLLM与Chainlit快速搭建大模型服务

Ollama + Qwen2.5-7B：开启你的本地大语言模型之旅

农作物病虫害目标检测数据集（百度网盘地址）

Rembg抠图性能优化：多线程处理

ResNet18男女分类实战：云端GPU 2块钱玩到爽

提升AI对话质量：Qwen2.5-7B在真实场景中的应用

避坑指南：采购管理系统的十大选型方案

ResNet18图像分类避坑指南：云端GPU一键部署，3步搞定

信息安全工程师核心精讲：Web应用安全之“源安全域”机制深度剖析与实战

大模型开发必备技能！RAG召回策略全解析（建议收藏）

魔方教程资源合集

蓝易云 - CentOS下查看ssd寿命

大模型意图识别完全指南：从基础方法到95%准确率的进阶技巧

Rembg抠图GPU加速：CUDA配置指南

从零部署Qwen2.5-7B-Instruct大模型｜vLLM+Chainlit完整指南

导师推荐10个AI论文软件，专科生毕业论文写作必备！

❿⁄₈ ⟦ OSCP ⬖ 研记 ⟧ 密码攻击 ➱ 破解SSH私钥的密码短语

Gitee：本土化技术生态如何重塑中国开发者的创新范式？

跟我学C++中级篇—C++17中的元编程逻辑操作

引言