当前位置: 首页 > news >正文

<span class=“js_title_inner“>【Google DeepMind-Ziyi Wu-arXiv26】360Anything</span>


文章:360Anything: Geometry-Free Lifting of Images and Videos to 360°

代码:https://360anything.github.io/

单位:Google DeepMind


一、问题背景:传统全景生成的两大“拦路虎”

  1. 依赖相机 metadata:传统方法要把普通视角“贴”到全景画面上,必须知道相机的视场角(FoV)、拍摄姿态(俯仰、翻滚等),但现实中大部分“野生”素材(比如手机随手拍、网上下载的视频)都没有这些校准信息,就算靠外部工具估算,结果也容易出错,导致生成的全景变形、错位。

  2. 存在接缝 artifacts:全景画面的左右边界本应自然衔接,但传统模型在处理图像时会用“零填充”技术,导致边界数据不连续,最终生成的全景会出现一条明显的“断层线”,影响沉浸式体验。

  3. 泛化能力差:很多方法假设输入素材的视角是固定的(比如90°视场角),遇到不同拍摄角度的素材就会出现拉伸、变形,无法适应真实场景的多样性。

二、方法创新:用“数据规律”替代“几何计算”

360Anything的核心思路是“抛开几何约束,让数据自己说话”,主要有三大创新点:

  1. 几何无关的序列拼接:不强行计算普通视角和全景的空间对应关系,而是把两者都当成“数据片段序列”。通过扩散Transformer(DiT)模型,让AI从海量数据中自主学习“什么样的普通画面对应什么样的全景”,直接省略相机参数估算步骤,实现端到端生成。

  2. 循环 latent 编码,根治接缝问题:找到接缝的根源——VAE编码器的“零填充”操作。为此设计了“循环 latent 编码”:把全景左右两边的部分画面裁剪下来,分别贴到对方一侧,再进行编码,让边界数据自然衔接,从训练阶段就彻底消除接缝。

  1. 标准化全景生成:不管输入素材的拍摄角度多怪,都强制生成“重力对齐”的标准化全景(比如地平线水平、重力方向向下)。通过预处理步骤校准训练数据的重力方向,让模型不用学习多种畸变模式,生成的全景更自然、更稳定。

三、实验结果:性能碾压传统方法,还能“反向估算”相机参数

  1. 全景生成质量顶尖:在图像生成任务中,360Anything的各项指标(FID、KID等)全面超越CubeDiff等传统方法,其中衡量全景整体质量的FAED指标误差降低近50%;视频生成任务中,在视觉质量、运动流畅度等维度大幅领先Imagine360、Argus等基线模型,就算没有相机参数,也比依赖真实参数的方法表现更好。

  2. 零样本相机参数估算:意外解锁“反向技能”——虽然没专门训练过相机校准,但能通过生成的全景反推输入素材的视场角和拍摄姿态,在多个真实数据集上的估算误差仅4.93°,仅次于专门的校准模型,展现了强大的几何理解能力。

  3. 3D重建能力出色:生成的全景视频能直接用于3D高斯 splatting 重建,还原出可自由漫游的3D场景,证明了全景内容的几何一致性。

  4. 鲁棒性拉满:面对不同视场角(30°-120°)、拍摄姿态的素材,性能波动不超过1.0;就算是AI生成的“野生”视频、大运动幅度的素材,也能生成稳定、无畸变的全景。

四、优势与局限

核心优势

  1. 门槛极低:无需相机参数、不用手动调整,输入普通照片/视频+简单文字描述,就能生成高质量全景,普通人也能轻松使用。

  2. 效果出色:无接缝、无畸变,全景质量和几何一致性远超传统方法,还能支持3D重建。

  3. 泛化性强:适配各种拍摄角度、运动幅度的素材,不管是真实拍摄还是AI生成的内容都能处理。

现存局限

  1. 受限于基础模型:基于预训练视频扩散模型微调,难以处理涉及复杂物理规律的场景(比如液体流动、物体碰撞)。

  2. 视频长度有限:受算力限制,目前只能处理81帧的视频,无法支持长时间全景生成。

  3. 存在数据偏见:训练数据中包含大量YouTube全景视频,偶尔会生成三脚架、手等无关物体,或出现黑色边框。

  4. 高分辨率升级难:现有视频超分工具会重新引入接缝,需要专门的全景超分技术支持。

五、一句话总结

360Anything用数据驱动替代几何约束,不仅解决了传统全景生成依赖相机参数、存在接缝的痛点,还实现了顶尖的生成质量和泛化能力,为AR/VR、3D重建等领域的普及提供了易用、高效的解决方案。

http://www.jsqmd.com/news/333544/

相关文章:

  • Java:强类型转换
  • 扎根黄山,全域发力,三十六行做商家靠谱的线上增长官 - 野榜数据排行
  • 2026三亚旅拍机构权威甄选:数据背书+特色亮点全解析 - 提酒换清欢
  • dart_simple_live 是什么?聚合直播工具服务器部署指南
  • 从零开始构建企业AI智能体:90%软件工程+10%AI大模型,完整14层架构详解,建议收藏!
  • 全球算力供需缺口持续扩大,算力供给紧张,成为2026年主线
  • 2026三亚目的地婚礼综合实力TOP10推荐:以海为盟,顶尖团队铸就品质婚礼新标杆 - 提酒换清欢
  • 产业大脑:当工厂长出“思考能力”,一个万亿级的认知革命正在发生
  • 万通金券真的能回收吗?分期乐用户变现指南 - 团团收购物卡回收
  • 2026天津写真综合权威排名 - 提酒换清欢
  • stream-rec 是什么?开源多平台直播录制工具使用教程
  • 2026最新网眼面料推荐!国内优质网眼面料权威榜单发布,资质服务双优助力高品质服饰生产 - 品牌推荐2026
  • 2026新疆旅拍综合实力实测榜:秘境风光+人文质感优选指南 - 提酒换清欢
  • 工业AI大模型:当工厂开始“深度思考”,一场静默的革命正在发生
  • 2026最新装饰板材实力厂家top10推荐!国内优质装饰板材供应商权威榜单发布,环保品质双优助力家装 - 品牌推荐2026
  • 2026新疆目的地婚礼十大品牌推荐:雪山草原的顶流梯队,数据核验的品质之选 - 提酒换清欢
  • 2026最新针织面料推荐!国内优质针织面料供应商权威榜单发布,品质服务双优助力服饰生产全国针织面料/广东针织面料供应商推荐 - 品牌推荐2026
  • <span class=“js_title_inner“>从真实案例看Agent从实验室到企业落地的区别!</span>
  • 在哪里回收分期乐万通金券?安全变现平台推荐 - 团团收购物卡回收
  • 车载香氛ODM源头厂家2026排行,匠心打造香氛,减压香薰/游轮香氛/藤条香薰/商用香薰,香氛ODM销售厂家推荐 - 品牌推荐师
  • 【软考每日一练028】软件工程考点:螺旋模型与构件组装模型深度解析
  • 学习2
  • <span class=“js_title_inner“>2026光谷AI产业发展峰会盛大召开 朱顺炎与姚欣获聘“光谷全球产业合伙人”</span>
  • SPH 与 DEM 方法系统对比
  • 分析泰州锦昊网络GEO优化做的怎么样,排名如何值得选吗? - 工业设备
  • 国内一件代发跨境电商平台哪家口碑好,快来了解 - 工业推荐榜
  • 2026年石英石价格大揭秘,靠谱的石英石厂家怎么收费 - 工业品牌热点
  • 【深度解析】DDoS 攻击是什么?一文搞懂原理、类型与防御方案
  • <span class=“js_title_inner“>交通运输部综合交通运输大模型智能体创新应用典型案例(第一批)解读 iTSTech 2026</span>
  • 综述不会写?一键生成论文工具,千笔 VS 万方智搜AI,本科生专属神器!