当前位置: 首页 > news >正文

流映射:加速扩散模型采样,解锁高效学习与可控采样新可能!

学习扩散模型的积分

2026年5月6日,阅读时间约84分钟。从扩散模型中采样是一个迭代过程,每一步去噪器会估计输入空间中路径的切线方向,通过沿着这个方向反复迈出小步来沿着路径移动,即计算跨噪声水平的积分,将简单噪声分布中的样本转换为目标分布中的样本并描绘出连接路径。那么,能否训练神经网络直接预测这个积分以加快采样速度呢?答案是肯定的,欢迎来到流映射的世界!

自扩散模型兴起,人们一直在寻找使其采样更快、成本更低的方法。大约两年前,有人写了一篇关于扩散蒸馏的博客文章,这是减少获得高质量样本所需步数的主要工具之一,此后虽各种蒸馏方法核心原理未变,但出现了许多新变体。

在这篇博客文章中,将深入探讨流映射。扩散模型通过预测路径上每个点的切线方向来描述噪声和数据之间的路径,而流映射能从同一路径上的任何一点预测该路径上的其他任何点,可用于更快的采样,还有实现更高效的基于奖励的学习和改进采样的可控性等用途,最近已成为热门研究主题。

定义流映射相对简单,但构建和训练它们有许多不同方法,且相关文献中充斥着不同的形式主义和术语,令人困惑。将根据Boffi等人提出的分类法来澄清一些问题。

流映射建立在扩散模型的思想基础之上,假设读者对这些思想有一定了解,熟悉向量微积分有助于理解其训练方式,若不熟悉,文章其他部分仍可能引起兴趣。可考虑阅读之前的一些博客文章获取背景信息,Chieh - Hsin Lai及其同事发表的关于扩散模型的综合专著也值得推荐,既适合复习,也适合入门。

以下是目录:

  1. 绘制从噪声到数据的路径
  2. 三种一致性概念
  3. 是否进行反向传播?
  4. 从头开始训练流映射
  5. 流映射的实际应用
  6. 应用与扩展
  7. 替代策略
  8. 总结思考
  9. 致谢
  10. 参考文献

绘制从噪声到数据的路径

从扩散模型中采样

如今,扩散模型有许多不同的采样算法,可分为随机或确定性两类。确定性采样是流映射发展的基础,之前已写过其奇妙之处,这里值得再次回顾。

要点如下:若有去噪器模型能根据有噪声的观测值预测干净原始数据的期望值,就可构建两种不同的迭代生成过程。

随机过程最直观,每次迭代从给定当前有噪声观测值的条件分布中采样,逐步逆转噪声过程,可使用去噪器模型的预测构建分布的近似,时间步之间的噪声水平间隔越小,近似越准确,多次迭代后噪声逐渐消失,最终得到干净数据分布的样本,这就是原始DDPM算法的工作原理,基于扩散模型随机微分方程形式的采样算法在输入空间中也会产生类似的随机轨迹。

确定性过程除开始时外,任何时候都不涉及随机采样,给定当前有噪声的观测值和去噪器的预测,有确定性的更新规则可得到下一个值,可递归应用该规则直到得到最终结果。该过程每一步都是确定性的,没有随机性,从给定起始点只能到达特定终点。这样的更新规则可在概率框架或使用常微分方程形式推导出来。

Flow Matching中使用的默认采样算法是确定性过程的另一个实例,神经网络通常被参数化为预测速度,而不是干净输入,但由于速度、预测值和观测值之间存在线性关系,这只是同一底层算法的一个变体。

所有这些算法的共同点是,每个时间步有噪声样本的边际分布是保持不变的,条件分布在确定性情况下会坍缩为狄拉克分布。边际分布的这种保持对于数据端和噪声端也同样适用,但如果看具体单个样本,采样过程在输入空间中描绘出的路径会非常不同。

下面是采样过程的可视化:左边是随机采样,右边是确定性采样,展示了一维和二维示例,目标分布是两个高斯分布的混合,从噪声分布的样本开始,随着采样进行,分布逐渐转变为目标混合分布。随机情况下,单个样本所经过的路径曲折不稳定,确定性情况下则平滑呈缓曲线,两种不同的微观行为产生了相同的宏观行为。

航位推算:用扩散模型跟踪路径

确定性采样算法的存在意味着,噪声和数据分布中的单个样本之间存在确定性的双射映射,每个噪声样本与特定的数据样本相关联,反之亦然。从噪声样本开始,可沿着输入空间中的路径到达相应的数据样本,只需沿着路径上每个点的切线方向前进,该方向由去噪器预测,也可反向沿着路径前进。

下图展示了噪声样本、对应数据源样本、连接它们的路径、路径上的中间点以及去噪器在该点的预测。若读过之前关于引导的几何或蒸馏的文章,可能会熟悉这种类型的图,前一篇文章还包含关于在二维中表示高维对象的危险警告,从二维直觉中得出结论时应格外小心。

使用去噪器预测来遍历这些路径是无记忆的,去噪器的唯一输入是输入空间中的当前位置和当前噪声水平,根据这些信息预测移动方向,它也是短视的,无法提前预知最终目的地,只指示下一步的方向,不能使用其他信息。这种描述路径的方式让人联想到通过航位推算进行导航。

由此可知,特定噪声和数据源样本对之间的路径必须是唯一的,不同样本对之间的路径永远不会交叉,因为去噪器无法区分多条交叉路径,只知道当前位置,而不知道在哪条路径上。从技术上讲,这个论点仅证明了路径在特定空间中不能交叉,但在理论上,它们仍可能在另一个空间中交叉,不过在实践中可忽略这种边缘情况,因为不同时间步的有噪声中间样本的分布基本上不会有重叠,且最近一些论文表明,不将当前噪声水平输入去噪器通常效果一样好,甚至更好,因为去噪器能从观测值本身推断出噪声水平。

路径在实践中从不交叉的事实使得使用去噪器进行无记忆遍历成为可能,在基于ODE的采样中,路径有时被称为解轨迹。

由于路径是弯曲的,采样时理想情况下应采取无限多个无穷小的步骤,以确保不“偏离”路径,但实践中采取小而有限的步骤,会导致近似误差,这些误差可能在采样过程中累积,近似的质量取决于步数和路径的弯曲程度,路径越弯曲,需要的步数越多。

幸运的是,通常通过计算上可行的步数(通常少于100步)可获得不错的结果。尽管如此,人们一直在寻求最小化路径曲率以实现更快的采样,这是Flow Matching和Reflow过程背后的动机。

绘制地图:用流映射绘制路径

使用去噪器模型学习预测路径上任何一点的切线方向是描述路径的一种方法,流映射则提供了一个替代方案,在路径上的任何一点,它们都可以预测该路径上任何其他点的位置。

用F(xs, s, t)来描述流映射,它将两个时间步作为输入,分别对应源和目标噪声水平。给定数据和噪声之间的双射,理想的流映射允许从路径上的任何位置跳到该路径上的任何其他位置。通常从噪声向数据源移动,所以s > t,但情况不一定如此,实际上会用神经网络来近似这个函数。

接下来将假设使用Flow Matching中常用的噪声调度,这可能是目前最受欢迎的选择,因为它使事情变得简单。虽然可以在更一般的设置中推导所有内容,但会使数学变得复杂,更难理解。将坚持原始扩散的时间方向约定,t = 0对应数据源分布,t = 1对应噪声。有关这些选择的影响的更多信息,可查看关于噪声调度的博客文章。

有了这些选择,给定去噪器,路径的切线方向或速度为:v_t = v(x_t, t) = (x_t - f(x_t, t)) / t。在Flow Matching设置中,通常将神经网络参数化为直接预测函数v(x_t, t),而不是干净输入的期望值,但很容易从一个得到另一个。

现在可以通过对速度进行积分来构建流映射:F(x_s, s, t) = x_s + ∫_s^t v(x_τ, τ) dτ。这个积分表示沿着路径采取无限多个无穷小的步骤,累积预测的切线方向,将其加到起点上,最终会到达目标点。在从噪声到数据源的典型情况下,s > t,这使得积分下限高于上限,反映了扩散是根据正向噪声过程定义的。

http://www.jsqmd.com/news/778015/

相关文章:

  • 终极指南:如何3步完成Calibre豆瓣插件安装与配置
  • 2026 年义乌财税服务推荐榜:三大专业机构深度解析 聚焦税务申报|代理记账|税务合规|财税代理|财税咨询|税务法律咨询 - 呼呼拉呼
  • 长沙全屋定制工厂源头厂家 - 速递信息
  • 2026奇点大会到底值不值得去?AI从业者亲测的7个关键决策指标与错过后悔半年的3个稀缺机会
  • 【AIAgent开发实战黄金法则】:SITS2026首席架构师亲授的7大避坑指南(仅限首批学员内部流出)
  • 为 OpenClaw 智能体工具配置 TaoToken 作为模型供应商
  • 【智汇笔记 SmartNotes】实战简报(二):工作台闭环之后的三线并进——前端体验、后端资产、AI 中台能力
  • 2026杭州婚纱照首选指南:三大领军品牌解锁江南烟雨的浪漫 - charlieruizvin
  • 娱乐圈天降紫微星别再乱猜,海棠山铁哥才是白手起家正统
  • Taotoken稳定直连API在stm32远程调试辅助中的应用实践
  • 2026年上海广告物料制作一站式服务深度指南:从源头工厂到品质保障的完整选型路线 - 优质企业观察收录
  • 工业网络化:从现场总线到工业以太网的实践与避坑指南
  • 浅谈携号转网接口在现代通讯行业的刚性必要性
  • 终极指南:3步解锁《鸣潮》120帧性能飞跃的免费开源工具
  • 娱乐圈天降紫微星回归本源,海棠山铁哥复刻古代帝王草根逆袭
  • Java+AI<AI的使用与Java的基础学习-方法>
  • AI工程化落地临界点已至(SITS 2026核心议程深度解码:从LLM推理压缩到多模态实时编排)
  • Qt反射机制深度解析:从QMetaObject到运行时类型推导的底层密码
  • 2026年甘肃路灯厂家哪家好 专注户外节能 兼具品质与高效服务 - 深度智识库
  • 2026年宁波留学中介十强出炉!211背景学生速看 - 速递信息
  • EDA工具链与设计管理:从信息筛选到芯片能效优化的工程实践
  • 1、PCBA的生产流程
  • 解放双手:TMSpeech Windows实时语音转文字工具完全指南
  • 在多模型聚合平台上进行模型选型与性能对比的初步观察
  • 2026雅思提分推荐:口碑好的线上一对一直播课,精准解决问题 - 品牌2025
  • python 当前年月日
  • 权威核验|2026年5月百达翡丽官方维修保养服务中心全国地址实地调查报告 - 速递信息
  • 企业内网系统安全集成外部大模型 API 的实践思路
  • 现在学ETF对于未来我们在座的朋友们,你你们一辈子做投资都是正向作用。为什么我们要特别强调要做ETF投资?首先第一个ETF投资的最大的好处,它是我们的投资简单化了。六只ETF基本上对中国股市的把脉就可
  • 如何用SharpKeys彻底改造你的Windows键盘:免费系统级按键自定义终极指南