当前位置: 首页 > news >正文

项目分享|VGGT:秒级完成场景3D重建的视觉几何Transformer

引言

3D场景重建是计算机视觉领域的核心难题,传统方法往往依赖多阶段流程、海量计算资源,且仅能输出局部3D属性。而CVPR 2025最佳论文成果——VGGT(Visual Geometry Grounded Transformer)彻底改变了这一现状:这款由牛津大学VGG组与Meta AI联合研发的模型,能从单张/多张/数百张场景视图中,秒级直接推断相机内外参、深度图、3D点云等全维度3D属性,还支持商用部署与生态集成,成为3D重建领域的突破性成果。

项目核心介绍

VGGT是一款前馈神经网络,核心目标是从任意数量的场景视图中快速完成全维度3D属性推断,涵盖相机外参/内参、点映射、深度图、3D点跟踪等关键信息,且全流程仅需数秒。该项目斩获CVPR 2025最佳论文奖,团队后续持续迭代:7月更新商用许可(VGGT-1B-Commercial checkpoint支持商用,排除军事场景)、开放训练代码(支持自定义数据集微调);6月新增COLMAP格式导出功能(可直接对接NeRF/高斯溅射库);5月上线Co3D数据集相机姿态估计评估代码,全方位降低使用门槛。

创新点与核心优势

核心创新

  1. 架构创新:摒弃传统多阶段重建流程,通过Transformer架构直接端到端推断全量3D场景属性,无需中间步骤;
  2. 零样本能力:未针对单视图重建训练,却能实现比肩SOTA的单视图3D重建效果;
  3. 商用适配:发布商用友好版checkpoint,性能与原版持平(Co3D数据集AUC@30达90.37),审批流程类LLaMA自动审核。

核心优势

  1. 极致高效:H100 GPU上1帧仅需0.04秒,100帧也仅需3.12秒,显存占用可控(1帧仅1.88GB);
  2. 生态兼容:导出的COLMAP格式文件可直接对接gsplat等高斯溅射/NeRF库;
  3. 易用性强:支持自定义掩码排除反光/天空等干扰区域,无需精准分割,简单框选即可。

技术实现与部署实操

环境部署

首先克隆仓库并安装依赖:

gitclone git@github.com:facebookresearch/vggt.gitcdvggt pipinstall-r requirements.txt

核心推理代码

仅需几行代码即可完成3D属性推断:

importtorchfromvggt.models.vggtimportVGGTfromvggt.utils.load_fnimportload_and_preprocess_images device="cuda"iftorch.cuda.is_available()else"cpu"dtype=torch.bfloat16iftorch.cuda.get_device_capability()[0]>=8elsetorch.float16# 初始化模型并加载预训练权重model=VGGT.from_pretrained("facebook/VGGT-1B").to(device)# 加载并预处理图像(替换为自定义路径)image_names=["path/to/imageA.png","path/to/imageB.png"]images=load_and_preprocess_images(image_names).to(device)# 推理获取3D属性withtorch.no_grad():withtorch.cuda.amp.autocast(dtype=dtype):predictions=model(images)# 包含相机参数、深度图、点云等

实用功能部署

  1. 导出COLMAP格式(支持光束平差法):
# 基础导出python demo_colmap.py --scene_dir=/YOUR/SCENE_DIR/# 带光束平差法(更快版本)python demo_colmap.py --scene_dir=/YOUR/SCENE_DIR/ --use_ba --max_query_pts=2048--query_frame_num=5
  1. 交互式3D可视化:
pipinstall-r requirements_demo.txt# Gradio网页可视化python demo_gradio.py# Viser 3D点云可视化python demo_viser.py --image_folder path/to/your/images/folder

该项目及相关内容已 AladdinEdu课题广场同步发布,欢迎前往了解更多技术实现与资源

项目地址:AladdinEdu课题广场

http://www.jsqmd.com/news/233895/

相关文章:

  • Rembg抠图批量API:高效处理大量图片
  • 搜索研究文献的渠道有哪些:常用资源平台与获取途径解析
  • 从GPT到智能体:OpenCSG带你看清AI技术演进的下一站
  • 快速上手Qwen2.5-7B|结合vLLM实现低延迟高并发
  • 从零部署Qwen2.5-7B-Instruct|vLLM推理服务搭建详解
  • uniAPP报错:v-for 暂不支持循环数据: (env: Windows,mp,1.06.2307260; lib: 3.12.0)
  • ResNet18图像分类省钱攻略:按需付费比买显卡省90%
  • 从JSON到SQL:Qwen2.5-7B实现结构化生成的技术路径
  • 搞懂 Kali Linux、Nessus 和 Metasploit 的关系,才算真正入门网络安全
  • 智能抠图Rembg:家居装饰去背景案例
  • 蓝易云 - PHP基本语法解析与应用指南
  • Qwen2.5-7B-Instruct镜像实践|基于vLLM与Chainlit快速搭建大模型服务
  • Ollama + Qwen2.5-7B:开启你的本地大语言模型之旅
  • 农作物病虫害目标检测数据集(百度网盘地址)
  • Rembg抠图性能优化:多线程处理
  • ResNet18男女分类实战:云端GPU 2块钱玩到爽
  • 提升AI对话质量:Qwen2.5-7B在真实场景中的应用
  • 避坑指南:采购管理系统的十大选型方案
  • ResNet18图像分类避坑指南:云端GPU一键部署,3步搞定
  • 信息安全工程师核心精讲:Web应用安全之“源安全域”机制深度剖析与实战
  • 大模型开发必备技能!RAG召回策略全解析(建议收藏)
  • 魔方教程资源合集
  • 蓝易云 - CentOS下查看ssd寿命
  • 大模型意图识别完全指南:从基础方法到95%准确率的进阶技巧
  • Rembg抠图GPU加速:CUDA配置指南
  • 从零部署Qwen2.5-7B-Instruct大模型|vLLM+Chainlit完整指南
  • 导师推荐10个AI论文软件,专科生毕业论文写作必备!
  • ❿⁄₈ ⟦ OSCP ⬖ 研记 ⟧ 密码攻击 ➱ 破解SSH私钥的密码短语
  • Gitee:本土化技术生态如何重塑中国开发者的创新范式?
  • 跟我学C++中级篇—C++17中的元编程逻辑操作