当前位置：首页 > news >正文

从 DDPM 到 Flow Matching：生成模型的范式革命

news 2026/6/26 1:53:51

本文将彻底解答你关于 Flow Matching 的所有困惑：FM 有没有加噪去噪过程？t 到底起什么作用？为什么采样需要多步？target 和 DDPM 有什么本质区别？积分到底是什么？为什么 FM 效果更好？所有结论均严格对应原始论文，附可直接运行的代码示例。

前言

如果你正在学习生成模型，一定听过这样的说法："Flow Matching 是下一代生成模型，比扩散模型更快更好"。但当你深入研究时，会发现无数让人困惑的问题：

为什么 FM 的训练代码和 DDPM 几乎一模一样，只是换了个 target？
都说 FM 没有加噪去噪，那它的中间状态是怎么来的？
既然是 ODE 积分，为什么不能一步生成，还要多步采样？
边缘概率路径和条件概率路径到底是什么关系？
积分没有解析解到底是什么意思？

本文将从 DDPM 的本质出发，一步步带你走进 Flow Matching 的世界，用最通俗的语言、最直观的类比、最严谨的数学，把所有核心概念讲透。读完这篇，你将彻底理解 Flow Matching 为什么能成为生成模型的新范式。

一、先破后立：DDPM 的本质与痛点

在讲 Flow Matching 之前，我们必须先搞清楚 DDPM 到底在做什么，以及它的根本缺陷在哪里。

1.1 DDPM 的核心：加噪 - 去噪范式

DDPM 的整个框架建立在一个固定的前向马尔可夫加噪链之上：

x0：干净的真实数据 /latent
t：离散的加噪步数（通常是 1000 步）
ϵ：我们自己随机采样的高斯噪声

训练过程：

随机采样一个步数 t
随机采样一个噪声ϵ
用上面的公式生成带噪图片xt
让模型从xt中预测出我们当初添加的噪声ϵ
用 MSE 损失优化模型

采样过程：从纯噪声xT开始，逐步减去模型预测的噪声，最终还原出干净数据x0。

1.2 DDPM 的三个根本痛点

这三个痛点是扩散模型与生俱来的，无论怎么优化噪声调度、怎么蒸馏，都无法从根本上解决：

（1）严重的时间偏好问题

DDPM 预测的噪声ϵ的方差随时间剧烈变化：

当t→0（接近干净数据）：，所以ϵ→0，target 几乎全是 0
当t→1（接近纯噪声）：，所以ϵ是标准高斯噪声

这导致模型会把 90% 以上的能力用在拟合t接近 1 的时刻，而对生成质量影响最大的t接近 0 的时刻，模型几乎没有学到东西。这就是为什么扩散模型需要精心设计复杂的噪声调度（β schedule），本质上就是在试图 "拉平" 不同时刻的学习难度，但永远不可能完全解决。

（2）target 和采样过程间接对应

DDPM 训练时预测的是噪声ϵ，但采样时如果想用更高效的 ODE 采样，必须把它转换成速度向量：

这个转换过程会引入额外的误差，特别是当σt很小时（t 接近 0），误差会被无限放大。

（3）采样效率低下

由于上述两个问题，扩散模型通常需要 100~1000 步采样才能得到高质量的结果，即使经过蒸馏，也很难做到 10 步以内的高质量生成。

二、Flow Matching 核心思想：抛弃加噪，直接学流

Flow Matching（FM）的出现，彻底抛弃了 DDPM"先加噪再去噪" 的繁琐范式，提出了一种更简单、更直接、更高效的生成建模方法。

2.1 基础概念：连续归一化流（CNFs）与向量场

连续归一化流（CNFs）是一种确定性生成模型，它的核心思想是：

用一个连续的向量场，把简单的噪声分布 "流" 成复杂的数据分布。

向量场是整个 CNFs 和 FM 的灵魂，你可以把它理解成一个 "导航系统"：

输入：当前时刻 t + 当前位置 x
输出：x 在 t 时刻应该移动的速度向量（方向 + 大小）
Shape：和输入 x 完全相同（比如输入是 [B,3,32,32]，输出也是 [B,3,32,32]）

数学上，向量场定义了一个常微分方程（ODE）：

只要我们学会了这个向量场vt(x)，就能从任意初始噪声x1（t=1）开始，通过解这个 ODE，得到最终的干净数据x0（t=0）。

2.2 Flow Matching 的目标：学习边缘向量场

FM 的最终目标是学习一个边缘向量场ut(x)，这个向量场能把标准高斯噪声分布，平滑地转换成真实数据分布。

但这里有一个核心难题：边缘向量场根本算不出来。

边缘向量场的定义是所有样本条件向量场的加权平均：

这个积分是高维、难解、无法直接计算的 —— 你不可能把所有训练样本都拿出来，对每个 x 都算一遍加权平均。

2.3 天才解决思路：Conditional Flow Matching（CFM）

FM 论文的定理 2是整个框架的灵魂，它证明了一个反直觉的结论：

如果你对每个样本x0，都让模型学会它的条件向量场ut(x∣x0)（也就是从噪声到x0的那条单独路径的流速），那么在期望意义下，模型自动就学会了边缘向量场ut(x)。

换句话说：

我们不需要直接算那个难解的积分
我们只需要每次随机抽一个样本x0，教模型学会 " 怎么从噪声流到这个x0"
当你教过足够多不同的x0之后，模型自然就学会了 " 怎么从噪声流到任意符合分布的x0"

2.4 OT 路径：最简单、最高效的条件路径

CFM 可以使用任意的条件概率路径，而最优传输（OT）路径是其中最简单、最高效的一种。

OT 路径定义的条件概率路径是：

其中：

αt=1−(1−σmin)t（数据的权重，随 t 增大而减小）
σt=t（噪声的权重，随 t 增大而增大）
σmin≈1e−4（一个很小的常数）

对这条路径关于 t 求导，就得到了我们的训练 target：

注意：这不是加噪！

DDPM 的加噪是 "在干净数据上逐步叠加噪声"，是一个破坏过程
FM 的xt是 "干净数据和纯噪声的线性插值"，是一个平滑过渡过程
你可以直接生成 t=0.5 的xt，不需要先生成 t=0.1、t=0.2… 的状态

2.5 FM 的完整训练流程

现在，我们可以写出 FM-OT 的完整训练流程，你会发现它和 DDPM 惊人地相似：

for x0 in dataloader: # 1. 随机采样一个时刻 t ~ U[0,1]（连续的，不是离散的步数！） t = torch.rand(B, device=x0.device) # 2. 随机采样一个纯噪声 x1 ~ N(0,I) x1 = torch.randn_like(x0) # 3. 用OT路径公式，一步生成t时刻的中间状态 x_t sigma_min = 1e-4 alpha_t = 1 - (1 - sigma_min) * t.view(-1, 1, 1, 1) sigma_t = t.view(-1, 1, 1, 1) x_t = alpha_t * x0 + sigma_t * x1 # 4. 计算OT路径的目标向量场（标准答案） u_target = (1 - sigma_min) * x0 - x1 # 5. 模型预测向量场 v_pred = model(x_t, t) # 同一个U-Net，输出shape和x_t完全一样 # 6. MSE损失 loss = F.mse_loss(v_pred, u_target) # 7. 反向传播 loss.backward() optimizer.step()