当前位置: 首页 > news >正文

无需微调!浙大开源FreeFix:同时增强3D高斯泼溅的保真度和泛化性!

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内有20多门3D视觉系统课程、300+场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎加入

0. 论文信息

标题:FreeFix: Boosting 3D Gaussian Splatting via Fine-Tuning-Free Diffusion Models

作者:Hongyu Zhou, Zisen Shao, Sheng Miao, Pan Wang, Dongfeng Bai, Bingbing Liu, Yiyi Liao

机构:Zhejiang University、University of Maryland, College Park、Huawei

原文链接:https://arxiv.org/abs/2601.20857

代码链接:https://xdimlab.github.io/freefix

1. 导读

神经辐射场技术与3D高斯散布算法为视图合成技术带来了显著进步,但它们仍依赖于大量输入数据,并且在外推视图时效果往往会下降。近期的一些方法利用生成模型(如扩散模型)来提供额外辅助,但这些方法在泛化能力与图像质量之间存在着权衡:通过微调扩散模型以消除伪影虽然能提升图像质量,但存在过拟合的风险;而无需微调的方法虽然具有较好的泛化能力,但图像质量通常较低。我们提出了FreeFix这一无需微调的解决方案,它通过利用预训练的图像扩散模型来提升外推渲染的效果,从而突破了这一权衡的局限。我们采用了2D与3D相结合的细化策略,证明图像扩散模型可在无需使用成本高昂的视频扩散模型的情况下实现高效细化。此外,我们还详细研究了用于2D细化的引导信号,并提出了基于像素置信度的掩码机制,以识别需要重点优化的区域。多项实验结果表明,FreeFix能够提升多帧图像的一致性,其性能可与经过微调的方法相媲美甚至更优,同时仍保持良好的泛化能力。

2. 效果展示

我们介绍FreeFix这一方法,它旨在提升3D高斯散斑渲染中推导视图的呈现效果,而无需对扩散模型进行精细调整。在多个数据集上的实验表明,FreeFix所提供的表现力可与大多数需要精细调整的先进方法相媲美,甚至有过之而无不及。

3. 引言

新视图合成(NVS)是三维计算机视觉中的一个基本问题,对推动混合现实与具身人工智能发展具有重要作用。神经辐射场(NeRF)与三维高斯泼溅(3DGS)已实现高保真渲染,其中3DGS尤其因其实时渲染能力成为主流选择。然而,这两种方法都需要密集采集的训练图像(通常难以获得),且在外推视角(即超出训练视图插值范围的视角)下容易产生伪影。这些局限阻碍了它们在自动驾驶仿真、自由视点用户体验等下游应用中的使用。

近期工作探索了如何解决3DGS在外推视图渲染中的伪影问题。现有方法可分为两类:在训练中添加正则化项,或利用生成模型增加监督视图。正则化项通常源自三维先验或额外传感器,但它们通常是手工设计且限于特定场景类型。此外,其缺乏幻觉能力进一步限制了适用性。在利用扩散模型方面,一些方法通过配对数据对模型进行微调,例如使用稀疏激光雷达输入或带有伪影的外推渲染图来生成精细化图像。其中许多方法在特定领域数据集(如自动驾驶数据集)上训练,这不可避免地损害了扩散模型的泛化能力。最近,Difix3D+在更广泛的三维数据集上微调SD Turbo,提升了泛化性。然而,整理三维数据所需的大量努力以及高昂的微调成本,使得该方法耗时耗力,难以扩展到其他扩散模型。另一类工作试图在不微调的情况下改进外推渲染,通常在外推渲染的去噪步骤中提供外推渲染图作为引导。这保留了在大规模数据上训练的扩散模型的泛化能力,但此类方法仍落后于专门针对任务进行微调的方法。

鉴于泛化性与保真度之间的权衡,我们提出:能否在不牺牲泛化性的前提下,利用扩散模型改进外推视图渲染?为应对这一挑战,我们专注于免微调方法,并提升其在新视图合成外推任务中的有效性。这通过我们提出的2D-3D交错精细化策略,结合用于免微调图像精细化的逐像素置信度引导来实现。具体而言,给定一个已训练的3DGS,我们采样一个外推视角,渲染二维图像,用二维图像扩散模型对其进行精细化,然后将精细化后的图像通过更新3DGS整合回三维场景,再处理下一个视角。这种2D-3D交错精细化确保了先前增强的视图能为后续的二维精细化提供信息,并提升多视图一致性。重要的是,我们引入了置信度引导的二维精细化:从3DGS渲染的逐像素置信度图,高亮出需要二维扩散模型进一步改进的区域。这与先前仅依赖渲染不透明度、让扩散模型自行识别伪影区域的免训练方法形成对比。虽然我们的置信度引导原则上可应用于视频扩散模型,但先进的视频骨干网络通常计算成本更高且使用时间下采样,这阻碍了逐像素引导的直接使用。我们表明,我们的2D-3D交错优化策略在不依赖视频扩散模型的情况下,也能实现一致的精细化图像。

4. 主要贡献

我们的贡献可总结如下:

1.我们提出了一种简单有效的方法,用于增强3DGS的外推渲染,无需微调扩散模型,其核心是2D-3D交错精细化策略与逐像素置信度引导。

2.我们的方法兼容多种扩散模型,并能在多样场景内容中保持泛化性。

3.实验结果表明,我们的方法显著优于现有免微调方法,并达到与基于训练的方法相当甚至更优的性能。

5. 方法

无需微调扩散模型即可提升3DGS在外推视图中的渲染质量。我们提出了一种交错策略,结合2D与3D精细化,以利用图像扩散模型生成多帧一致的结果(如流程顶部所示)。在2D精细化阶段,我们还引入了置信度引导与整体引导,以提升去噪结果的质量与一致性。

6. 实验结果

我们使用SDXL和Flux作为扩散骨干网络,在LLFF、Mip-NeRF 360和Waymo数据集上评估FreeFix。这包括表1中的定量比较,以及图5和图7中与基线方法的定性比较。尽管FreeFix仅使用图像扩散模型作为骨干且无需对扩散模型进行微调,但在定量和定性评估中,其性能仍与使用视频扩散模型或需要微调的方法相当甚至更优。

具体而言,使用不透明度掩码作为引导的ViewExtrapolator在LLFF上显示出轻微改进,但相较于我们的置信度引导方案改进有限。此外,它在Mip-NeRF 360和Waymo上未能提供改进。这是因为ViewExtrapolator使用一组训练视图中的最近视图作为参考视图,在视频扩散模型中生成测试视图。虽然在前向场景的LLFF中,使用最近训练视图作为SVD的参考视图表现良好(测试视图更接近训练视图),但这对Mip-NeRF 360和Waymo通常不成立,因此ViewExtrapolator性能下降。

Difix3D+在我们的基线中展现出最佳的泛化能力和强大性能。FreeFix在LLFF和Mip-NeRF 360上超越了Difix3D+,同时在Waymo上提供相当的性能。我们将此归因于扩散模型的泛化性。尽管Difix3D+在DLV3D上进行了微调,可能遇到过与LLFF和Mip-NeRF 360类似的场景,但数据集之间的领域差距仍削弱了Difix3D+的泛化性。相比之下,我们的方法保持了扩散模型从网络规模数据集中学到的原始泛化能力。对于Waymo数据集,Difix3D+在大型内部驾驶数据集上进行了微调,其中驾驶场景高度结构化且类间差异较小,使模型更易学习。

7. 总结 & 未来工作

在本文中,我们提出了FreeFix,一种无需微调扩散模型即可修复伪影并提升3DGS质量的方法。FreeFix在各种数据集上展示了最先进的性能,并具备与未来更先进的扩散模型部署的强大兼容能力。然而,FreeFix仍存在一定局限。当外推视图产生过多伪影且可信引导信息极少时,它可能会遇到失败案例。此外,3DGS的更新过程相对较慢,且难以在数十个精细化步骤中收敛。这些挑战为未来工作提供了机遇,以设计更鲁棒、高效的方法来实现三维重建与二维生成模型的集成。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊春节专属课程福利重磅来袭!为回馈新老学员一路支持,本次活动特推出重磅折扣福利,所有课程统一享7折特惠,其中10门课程支持一次性全部打包购买(限时福利仅需279元)!

春节7折特惠

春节专属7折优惠微信扫码领取,限时三天内使用

3D视觉工坊所涉及课程的包括但不限于:工业3D视觉、自动驾驶、SLAM、具身智能、扩散模型、无人机、大模型和3D视觉基础等。

专属打包福利

上图中的:ROS2、相机标定、线结构光、3D缺陷检测、激光-视觉-IMU-GPS融合SLAM、VINS-Fusion、模型部署、3D目标检测、深度估计、多传感器融合这10门课程,除单独购买享7折外,也支持一次性全部购买,限时福利仅需279元,扫描下方二维码加入「3D视觉从入门到精通知识星球」一次性全部解锁!

扫码加入3D视觉从入门到精通知识星球

活动咨询

▲长按扫码添加小助理,咨询更多
http://www.jsqmd.com/news/391611/

相关文章:

  • 2026年靠谱的胶囊小火车/无轨小火车直销厂家价格参考怎么选 - 行业平台推荐
  • 一文讲透|专科生专属降AI平台 —— 千笔·降AI率助手
  • RMBG-2.0批量处理功能:高效处理大量图像
  • InstructPix2Pix与Keil5开发环境配置
  • 2026安全鞋厂家推荐排行榜上海畅为产能领先,专利环保双保障 - 爱采购寻源宝典
  • 2026球场围网厂家推荐排行榜产能与专利双维度权威解析 - 爱采购寻源宝典
  • Qwen3-Reranker-0.6B与嵌入式系统结合:物联网设备智能处理
  • 2026年靠谱的蒸发器/低温蒸发器实力工厂参考哪家靠谱(高评价) - 行业平台推荐
  • Matplotlib样式API深度解析:从样式定制到设计系统集成
  • BGE-Large-Zh步骤详解:从Docker pull到热力图渲染的7个关键节点
  • 寻找关节镜批发厂家?这些考量因素很重要,内窥镜手术动力/ShaverSystem/电动骨动力代加工,关节镜厂商有哪些 - 品牌推荐师
  • 2026硅质保温板厂家推荐排行榜产能规模与专利技术双维度权威解析 - 爱采购寻源宝典
  • 分期乐用户必看:京东E卡快速回收变现指南! - 团团收购物卡回收
  • 2026高压鼓风机厂家推荐排行榜产能与专利双优的权威之选 - 爱采购寻源宝典
  • [兰溪民间故事]兄妹成亲:从洪荒浩劫到人间婚俗的古老密码
  • 2026清扫车厂家推荐排行榜产能与专利双维度权威解析 - 爱采购寻源宝典
  • 科研党收藏!千笔ai写作,本科生论文神器
  • 2026年靠谱的小型滤油机/油滤油机实力厂家推荐如何选 - 行业平台推荐
  • 2026代理记账厂家推荐排行榜产能规模与专利技术双维度权威解析 - 爱采购寻源宝典
  • 2026年评价高的船舶缆绳/丙纶缆绳生产厂家实力参考哪家强(更新) - 行业平台推荐
  • 2026年口碑好的化工粉体吨包机/粮食吨包机哪家便宜源头直供参考(真实参考) - 行业平台推荐
  • 这次终于选对了!9个降AI率工具测评:本科生降AI率必备推荐
  • 2026过滤机器设备厂家推荐排行榜产能、专利、质量三维度权威解析 - 爱采购寻源宝典
  • 2026集装箱框架设计厂家推荐排行榜产能与专利双优企业领衔 - 爱采购寻源宝典
  • 2026年知名的金蝶软件/杭州金蝶软件技术推荐 - 行业平台推荐
  • 直接上结论:更贴合本科生需求的AI论文软件,千笔·专业学术智能体 VS 灵感风暴AI
  • Springboot工程中使用EasyPOI方式导出合同word文档
  • 参考文献崩了?圈粉无数的AI论文软件 —— 千笔写作工具
  • 2026方舱厂家推荐排行榜产能规模与专利技术双维度权威对比 - 爱采购寻源宝典
  • 2026冷库厂家推荐排行榜从产能规模到专利技术权威解析 - 爱采购寻源宝典