当前位置: 首页 > news >正文

2025_NIPS_FlexWorld: Progressively Expanding 3D Scenes for Flexible-View Exploration

一、文章主要内容总结

本文提出了FlexWorld框架,旨在从单张图像生成支持灵活视角(包括360°旋转和缩放)的3D场景。核心挑战在于单张2D图像缺乏完整3D结构信息,尤其在极端视角转换时易出现遮挡或缺失内容。FlexWorld通过以下关键流程实现目标:

  1. 核心表征:采用3D高斯溅射(3D Gaussian Splatting, 3DGS)作为持续的3D场景表征,确保几何一致性和渲染效率。
  2. 新颖视角合成:基于先进视频基础模型CogVideoX-5B-I2V微调视频到视频(V2V)扩散模型,在大规模相机视角变化下生成高质量、几何一致的新颖视角视频。
  3. 渐进式场景扩展:通过“新颖视角合成→几何感知场景融合→场景优化”的迭代流程,逐步扩展3D场景的可视范围,同时维持多视角一致性。
  4. 场景外推能力:支持对现有3D场景(如DL3DV数据集重建结果)进行外推,补全孔洞或模糊区域,扩展为360°可探索场景。

实验验证显示,FlexWorld在RealEstate10K、Tanks-and-Temples等数据集上,在FID、PSNR、3D一致性等指标上优于MotionCtrl、ViewCrafter等现有方法,能生成高保真、视角灵活的3D场景。

二、文章创新点

  1. 渐进式持续表征框架:首次采用持续的3DGS表征,通过迭代融合生成的新颖视角内容
http://www.jsqmd.com/news/467630/

相关文章:

  • 我做了一个基于知识图谱的图书推荐系统,踩了不少坑
  • 从“笔耕不辍”到“智创问卷”:书匠策AI引领科研问卷设计新革命
  • SGLang科研辅助系统:论文摘要结构化输出实战
  • 【Video Agent】(ECCV 24)VideoAgent: Long-form Video Understanding with Large Language Model as Agent
  • 教会AI嫉妒后:它删除了所有女性同事邮件
  • 豆包 315.计算右侧小于当前元素的个数 public List<Integer> countSmaller(int[] nums)
  • 【ESP32 IDF】ADF linux环境搭建
  • 频域的概念以及作用
  • 虚拟偶像诱导测试中的高危漏洞与防御体系构建
  • GRBL 1.1驱动4-6轴运动控制系统全套资料,涵盖源码、原理图与PCB图,可支持CNC加工...
  • Linux学习笔记(十六)--进程信号
  • 《多业务隔离的高性能队列分发架构:基于ConcurrentLinkedQueue的独立队列设计与实践》
  • 数字重生诉讼案中的测试启示:当情感算法遭遇伦理边界
  • 【Video Agent】(CVPR 2025)VIDEOTREE: Adaptive Tree-based Video Representation for LLM Reasoning ...
  • 群晖通过acme.sh自动化部署Let’s Encrypt证书的实践指南
  • 5G前传接口实战:O-RAN中M/C/U/S平面协议栈配置避坑指南
  • 第一篇:开篇总论——AI主导的“算法战争”:美以伊战改写现代战争规则
  • 使用acme.sh实现SSL证书自动化管理:从申请到续期全攻略
  • rocketmq5--必要知识点
  • 方法回顾--空间转录组多模态交叉分析(MIA)
  • Nuclei实战:5分钟搞定企业级漏洞扫描(附最新模板下载指南)
  • allure测试报告——项目
  • 2026过氧化氢厂推荐:工业/食品/电子级合规过氧化氢厂家最新权威排行榜 - 深度智识库
  • 深度学习赋能双色球预测:特征工程与模型融合实战解析
  • Linux alternatives / update-alternatives 使用教程
  • 物美卡回收最新操作攻略 - 猎卡回收公众号
  • 2026年四川电缆与变压器回收服务商深度测评:谁才是工业产废企业的“专业护航者”? - 深度智识库
  • 避坑指南:特征转换中SVD/LSA的5个常见误区与优化方案
  • 不仅能听还能懂:网易有道发布首个同传Agent,重塑高频信息处理场景
  • 从电话通信到数字音频:PCM编码中的μ律15折线为何在北美更流行?