当前位置: 首页 > news >正文

【论文自动阅读】NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

快速了解部分

基础信息(英文):

  1. 题目: NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos
  2. 时间: 2026.1
  3. 机构: NLPR & MAIS, CASIA; CreateAI
  4. 3个英文关键词: 4D World Model, Feed-forward 4DGS, In-the-wild Monocular Videos

1句话通俗总结本文干了什么事情

本文提出了一种名为NeoVerse的4D世界模型,它能直接利用野外单目视频进行可扩展的训练,实现高质量的4D重建和新视角视频生成。

研究痛点:现有研究不足 / 要解决的具体问题

现有4D世界建模方法面临可扩展性差的问题:一是受限于昂贵且难以获取的多视角4D数据;二是依赖繁琐的离线预处理(如重聚焦、深度估计),导致计算负担重且无法进行在线数据增强,难以利用廉价且多样的野外单目视频。

核心方法:关键技术、模型或研究设计(简要)

提出了无需位姿的前馈4D高斯溅射(4DGS)模型,结合在线单目退化模式模拟技术,实现了从单目视频到4D场景的高效端到端重建与生成。

深入了解部分

相比前人创新在哪里

  1. 全流程可扩展性:摒弃了昂贵的多视角数据或沉重的离线预处理,直接利用多样化的野外单目视频进行训练。
  2. 双向运动建模:不同于以往的单向时间建模,引入了双向运动编码分支,区分瞬时速度,支持时间上的高斯插值。
  3. 在线退化模拟:提出了基于几何关系的可见性高斯剔除和平均几何滤波器,模拟新视角下的渲染退化,无需离线计算。

解决方法/算法的通俗解释

NeoVerse的工作原理分为两步:首先,它像一个“快速扫描仪”,通过双向运动分析,仅用稀疏的关键帧就能快速构建出场景的4D高斯表示(无需知道相机具体位置);其次,它像一个“修复大师”,在训练时故意制造模糊、遮挡等视觉瑕疵(退化模拟),然后学习如何生成清晰、连贯的视频来修复这些瑕疵。

解决方法的具体做法

  1. 前馈4D重建:基于VGGT骨干网络,利用双向注意力机制预测前后向运动特征,参数化4D高斯分布。
  2. 稀疏关键帧重建:仅对视频中的稀疏关键帧进行网络推理重建,非关键帧通过双向线性/角度插值得到。
  3. 退化模拟:通过随机变换相机轨迹进行高斯剔除(模拟遮挡)和平均深度滤波(模拟边缘伪影),生成训练用的退化渲染图。

基于前人的哪些方法

主要基于VGGT(Visual Geometry Grounded Transformer)的骨干网络设计,并继承了4D高斯溅射(4DGS)的概念,同时借鉴了NoPoSplat等方法的无需位姿思想。

实验设置、数据、评估方式、结论

  1. 实验设置:在32块A800 GPU上训练,第一阶段重建训练150K迭代,第二阶段生成训练50K迭代。
  2. 数据:使用了18个公开数据集(如Arkitscenes, Waymo等)及自建的超100万条互联网单目视频数据集。
  3. 评估方式:使用PSNR、SSIM、LPIPS进行重建质量评估;使用VBench进行生成视频的质量、一致性及美学评估。
  4. 结论:NeoVerse在重建和生成任务上均达到了SOTA(最先进)性能,且推理速度显著快于同类方法(如TrajectoryCrafter)。

提到的同类工作

ViewCrafter, TrajectoryCrafter, FreeSim, 4DGT, NoPoSplat, AnySplat, StreamSplat, MoVieS, ReCamMaster, CamCloneMaster, SynCamMaster, GEN3C, DaS, See3D, Difix3D+, Voyager, GS-DiT, See4D, PostCam, Light-X.

和本文相关性最高的3个文献

  1. VGGT (基础骨干网络)
  2. TrajectoryCrafter (主要对比的同类生成方法)
  3. 4DGT (主要对比的同类重建方法及改进基础)

我的

实现的效果就是输入一段视频,然后能换视角观看。
方法就是用VGGT搞一个4DGS的重建,然后用Diffusion再修复一下。和trajectory crafter基本一致,只是换成了4DGS来修复。

http://www.jsqmd.com/news/253660/

相关文章:

  • 如何将CAD图纸进行黑白打印?
  • 导师严选2026自考AI论文网站TOP10:高效写作全维度测评
  • OctShop源码高效灵活构建小程序多用户商城
  • 历时八年,微软XAML Studio正式开源
  • 基于单片机的智能窗户结构系统设计
  • 基于单片机的语音识别控制灯
  • MySQL索引精讲:从原理到实战,小白也能秒懂!
  • 一种基于STM32的智能门锁系统的设计
  • 不止是 “姐妹岛”:明月岛的独家浪漫
  • 11个AI论文工具,支持LaTeX排版与多维度内容优化
  • 基于单片机的眼部按摩仪设计-控制系统设计
  • 有没有想过:为什么索引能加快查询速度?深入 B+ 树原理,小白也能秒懂!
  • 重磅!谷歌推出全新TranslateGemma翻译模型系列
  • 11种AI论文创作助手,提供LaTeX排版与语义优化双重支持
  • 歌乐枕西,嘉陵抱东,磁器口藏千年韵
  • 11种AI论文创作工具,集成LaTeX排版与自动化内容优化技术
  • 光圈智选首页升级:升佣 + 选品提速双 buff
  • 基于STM32的智能家居安防系统设计
  • 导师推荐!MBA开题报告TOP8 AI论文写作软件测评
  • 基于stm32的四旋翼无人机的设计——飞行控制系统软件设计
  • 惊魂一刻!重装系统误删分区,数据救援大揭秘
  • AIDL Hal 开发笔记3---- stable-c HAL 实例分析
  • 基于PLC的卷扬机控制系统
  • AIDL Hal 开发笔记4----驱动开发
  • 收藏级指南:Agentic RAG 彻底升级传统RAG,打造能干活的AI数字同事
  • 基于51单片机的出租车计价器
  • QML基本元素
  • 交直流可编程电源(技术资料) 直流电源是直流输出0-30V 5A TL494 线路; 交流电压...
  • DevSecOps时代测试工具的进化论:从功能验证到全链路质量保障
  • 收藏级!大厂后端面试全流程复盘+大模型从入门到实战学习礼包