当前位置: 首页 > news >正文

CVPR 2026 | CFG:用分数差异分析提高条件生成中CFG的引导

作者: vivo BlueImage Lab
摘要: 针对扩散生成中长期使用的固定 CFG scale 机制存在不合理论的假设,该工作从 score 差异随扩散时间衰减的角度首次提出了 时间自适应的指数控制函数(C²FG)。这一 training-free、plug-and-play 引导策略在 DiT、SiT、Stable Diffusion 等多种框架上均稳定带来显著 FID 降低与 IS 提升,并可与 interval guidance/auto guidance 等方法正交叠加。实验证明,在 ImageNet 条件生成任务中,C²FG 在多个架构与采样器配置下达到了行业领先的生成质量。对应的论文已被 CVPR 接收!
该工作由vivo BlueImage Lab,上海交通大学共同完成。

本文入选 CVPR 2026

CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)IEEE国际计算机视觉与模式识别会议,主要内容是计算机视觉与模式识别技术。

论文主页:https://arxiv.org/abs/2603.08155

一、为什么固定 CFG scale 不够好?

标准 CFG: $$ \hat\epsilon_\omega(x_t,t,y)=\hat\epsilon_{\emptyset}(x_t,t)+\omega\big(\hat\epsilon_{c}(x_t,t,y)-\hat\epsilon_{\emptyset}(x_t,t)\big). $$ 常见做法使用固定 \(\omega\),但它默认“条件/无条件差异在所有时间步同等重要”。我们的理论与实证显示:这种差异在扩散时间上是动态变化的,因此固定 \(\omega\) 难以同时兼顾早期结构形成与后期精确对齐。

二、核心理论(VP-SDE 重点):score discrepancy 的严格上界(论文 Theorem 1)

VP-SDE 前向扩散: $$ dx_t=-\frac{1}{2}\beta(t)x_tdt+\sqrt{\beta(t)}dw_t. $$

Theorem 1(VP-SDE Score MSE Bound)

假设样本空间有界且闭。令 \(p(x,t)\)\(\tilde p(x,t)\) 为由初始分布 \(p(x_0)\)\(\tilde p(x_0)\) 诱导的时刻 \(t\) 的密度(论文中取 \(\tilde p(x,t)=p(x,t\mid y)\))。则 score 差异满足一致上界: $$ |\nabla\log p(x,t)-\nabla\log \tilde p(x,t)| \le \frac{\alpha(t)}{\sigma^2(t)}C,\quad \forall x\in \mathrm{supp},\ t\ge 0, $$ 其中 \(C\) 为常数, $$ \alpha(t)=\exp\Big(-\frac{1}{2}\int_0^t\beta_sds\Big),\quad \sigma(t)=\alpha(t)\sqrt{\int_0t\frac{\beta_s}{\alpha2(s)}ds}. $$
重参数化 \(t'=\frac{1}{2}\int_0^t\beta_sds\) 后(论文式(9)): $$ |\nabla\log p(x,t)-\nabla\log p(x,t\mid y)| \le \frac{e{-t}}{1-e{-2t}}C, $$ 当 \(t\) 较大时呈现 \(O(e^{-t})\) 的指数衰减趋势。

结论: 在前向扩散中,条件/无条件分布会逐步“趋同”,其 score 差异上界随时间衰减;对应到反向采样,越接近数据(\(t\to 0\))越需要更强、更精细的条件引导。

三、方法:C²FG(指数控制的 time-dependent CFG)

我们将固定 $ \omega $ 替换为时间控制函数: $$ \omega(t)=\omega_0\exp\Big(\lambda\Big(1-\frac{t}{t_{\max}}\Big)\Big). $$ 并在采样时使用:

\[\hat{\boldsymbol{\epsilon}}_{\boldsymbol{c}}^\omega\left(\boldsymbol{x}t\right)=\hat{\boldsymbol{\epsilon}}{\varnothing}\left(\boldsymbol{x}t\right)+\omega(t)\left[\hat{\boldsymbol{\epsilon}}{\boldsymbol{c}}\left(\boldsymbol{x}t\right)-\hat{\boldsymbol{\epsilon}}{\varnothing}\left(\boldsymbol{x}_t\right)\right] . \]

为什么这种形式好用?

  • 与理论与观测一致: 差异呈指数趋势,调度函数自然对齐;
  • 连续可导更稳定: 比分段/线性更平滑;
  • 只需两个超参: \(\omega_0\)(最大强度)与 \(\lambda\)(衰减速率);
  • training-free、plug-and-play: 无需额外训练或外部分类器。

四、实验结果展示

Figure 1:理论预测的“时间趋势”在真实模型中成立

  • (a) 条件与无条件 score 的 MSE 随时间变化,并被一个随 \(t\to+\infty\) 逼近 0 的函数上界约束;
  • (b) 余弦相似度在反向采样过程中下降,说明二者在幅值与方向上都逐渐分离。

Figure 2:CFG vs.C²FG 的采样流程比较

  • CFG:\(\omega\) 为常数;
  • C\(^2\)FG:\(\omega(t)\) 为随时间变化的衰减控制函数。

Figure 3:C²FG的直观示意(并解释 interval guidance 可视为特例/可融合)

论文指出:区间 guidance 的“只在有效区间用引导”可以在我们的框架下得到解释;同时C²FG+ interval可以进一步减少不必要的模型评估开销(把引导放在更“有效”的阶段)。

Figure 4:2D Toy Example(更少 outliers,更贴近目标条件分布)

  • (b) EDM2(\(\omega=1\))出现 outliers;
  • (c) \(\beta\)-CFG(\(\alpha=\beta=2,\ \omega=1\))outliers 更多;
  • (d) C\(^2\)FG(\(\omega_0=1,\ \lambda=0.6\))outliers 更少,匹配目标更好。

Figure 5:ImageNet 质化对比(纹理更清晰、畸变更少)

红框示例显示C²FG 能有效缓解失真与纹理模糊;在不同采样器与步数下都能保持一致改进。

ImageNet Class-Conditional(多架构、多分辨率、多采样器综合评估)

DiT-XL/2 (256×256, ODE)

  • baseline:FID 2.29,IS 276.8
  • C²FG(ω0=1, λ=ln2):FID 2.07,IS 291.5

SiT-XL/2 (REPA, 256×256, SDE)(强基线也能继续提升)

  • baseline:FID 1.80,IS 284.0
  • C²FG(ω0=1, λ=1):FID 1.51,IS 315.0

SiT-XL/2 (REPA, 256×256, SDE)(强基线也能继续提升)

  • interval baseline:FID 1.42,IS 305.7
  • interval +C²FG:FID 1.41,IS 308.0

DiT-XL/2 (512×512, SDE, 100 steps)

  • baseline:FID 6.81,IS 229.5
  • C²FG:FID 6.54,IS 280.9

引用:

C²FG:Control Classifier-Free Guidance via Score Discrepancy Analysis, CVPR 2026.

vivo BlueImage Lab
蓝图影像创新实验室,主要负责移动影像算法创新,包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。
致力于不断提升vivo移动影像的算法能力,使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用,努力为用户提供更加丰富和便捷的影像体验。
欢迎持续关注 vivo 影像技术,获取前沿技术创新经验分享与热招岗位信息。

http://www.jsqmd.com/news/576948/

相关文章:

  • 千问3.5-2B保姆级教程:从模型原理到业务集成的全栈技术路径
  • 南京精灵智控科技有限公司联系方式查询:一份关于其业务与联系途径的客观梳理与使用参考 - 十大品牌推荐
  • 黄金期货如何选择?2026年4月推荐评测口碑对比知名五家 - 十大品牌推荐
  • 告别单调对话:SillyTavern如何让你轻松打造专属AI角色聊天室
  • vLLM-v0.17.1集成Ollama生态:本地化模型管理与一键切换
  • ai生成代码如何管理?快马结合gitbash实现智能开发工作流
  • Transformer太贵,Mamba太新?跨架构知识迁移TransMamba详解:原理、代码与避坑指南
  • Koikatu HF Patch完整指南:从零开始掌握游戏增强技巧
  • STM32Cude中SYS Debug配置不当导致Keli5烧写程序后芯片无法识别的解决方案
  • gte-base-zh生产环境部署案例:中小企业知识库向量化实战
  • 从ROS1到ROS2:手把手教你移植hdl_localization激光点云定位包(含完整CMakeLists.txt修改指南)
  • 2026成都代理记账优质品牌推荐指南 - 优质品牌商家
  • 革新性突破:Mac百度网盘下载速度解放方案
  • 内存管理-5-物理内存数据结构-4-struct address_space - Hello
  • 激光喷丸强化与多点冲击:多层仿真及表面完整性仿真技术
  • 探索汽车LAR LQG半主动/主动悬架:基于Simulink的奇妙之旅
  • 5个突破限制:MediaCreationTool.bat的Windows安装效率倍增指南
  • 不止于仿真:用Quartus II 13.1 + SignalTap II 实时调试你的Cyclone IV FPGA项目
  • 零基础玩转Chandra OCR:4GB显存就能跑的83分OCR神器
  • 工厂边缘计算盒子优选:聚焦拓锶的产品、性能、应用与服务 - 品牌2026
  • 过零检测电路选哪个?光耦、运放还是专用芯片?一份给硬件工程师的选型与设计避坑指南
  • 用Python和OpenCV复现MOSSE目标跟踪算法:从频域理解到代码实战
  • 通义千问3-VL-Reranker-8B镜像部署:免配置环境快速验证多模态能力
  • 别再死记硬背了!用eNSP模拟OSPF动态路由,图解邻居建立全过程(含抓包分析)
  • 02-Spring IoC 容器深度解析
  • Unity资源提取全攻略:3步解决游戏资产复用难题
  • Qwen3-4B-Instruct写作大师:开箱即用的智能创作工具
  • 如何用CodeMaker将Java/Scala开发效率提升300%?5个核心技巧带你掌握智能代码生成
  • 挑战复杂功能,让快马AI成为你微信小程序开发的智能编程搭档
  • DriverStore Explorer:驱动存储深度清理与管理的终极解决方案