当前位置：首页 > news >正文

从Denoising Score Matching到扩散模型：一文理清核心关联与实现差异

news 2026/6/7 8:48:49

从Denoising Score Matching到扩散模型：噪声梯度场的统一视角

在生成模型领域，一个根本性的挑战是如何有效捕捉高维数据分布的复杂结构。传统方法如变分自编码器（VAE）和生成对抗网络（GAN）通过不同的途径逼近数据分布，但都存在各自的局限性。近年来，基于分数匹配（Score Matching）和扩散过程（Diffusion Process）的方法展现出了独特的优势，特别是在图像生成任务中取得了令人瞩目的成果。本文将深入探讨Denoising Score Matching（DSM）与扩散模型之间的理论联系，分析它们在噪声处理机制、目标函数设计等维度的异同，为读者提供一个系统性的认知框架。

1. 分数匹配的基础与挑战

分数匹配的核心思想是直接估计数据分布的对数梯度（即"分数"），而非像传统方法那样先估计分布本身再求导。给定数据分布 ( p_{data}(x) )，其分数函数定义为：

[ \nabla_x \log p_{data}(x) ]

这个看似简单的概念实际上蕴含了丰富的信息。在统计物理学中，分数函数描述了数据点在概率空间中的"力场"方向，指向更高概率密度的区域。通过学习和模拟这个力场，我们可以实现从简单分布（如高斯噪声）到复杂数据分布的逐步演化。

1.1 原始分数匹配的局限性

原始分数匹配的目标函数为：

[ J(\theta) = \frac{1}{2} \mathbb{E}{p{data}} \left[ | s_\theta(x) - \nabla_x \log p_{data}(x) |_2^2 \right] ]

其中 ( s_\theta(x) ) 是我们学习的分数网络。然而，这个目标函数存在两个主要问题：

计算复杂度高：需要计算分数网络的雅可比矩阵迹 ( tr(\nabla_x s_\theta(x)) )，对于高维数据这几乎不可行
低密度区域采样困难：在数据稀疏区域，分数估计不准确，导致后续采样质量下降

# 原始分数匹配的损失计算（概念代码） def original_score_matching_loss(data, score_network): # 需要计算score_network对输入的雅可比矩阵 jacobian = compute_jacobian(score_network, data) trace_term = jacobian.trace() norm_term = 0.5 * (score_network(data)**2).sum() return (trace_term + norm_term).mean()

1.2 加噪的直觉：从DSM到扩散

为了解决上述问题，Denoising Score Matching（DSM）引入了一个关键创新：对原始数据添加可控噪声。这一简单而有效的策略带来了多重好处：

将难以处理的原始分数估计转化为可计算的噪声条件分数估计
通过噪声填充数据空间的低密度区域，改善分数估计的稳定性
为后续的多尺度噪声调度和渐进式生成奠定基础

DSM的核心公式可以表示为：

[ \ell(\theta; \sigma) = \frac{1}{2} \mathbb{E}{p{data}(x)} \mathbb{E}{\tilde{x}\sim\mathcal{N}(x,\sigma^2I)} \left[ | s\theta(\tilde{x}, \sigma) + \frac{\tilde{x}-x}{\sigma^2} |_2^2 \right] ]

这个公式揭示了分数函数与噪声残差之间的深刻联系，为理解扩散模型提供了重要线索。

2. DSM与扩散模型的关联性分析

扩散模型可以视为DSM思想在时间维度上的延伸和系统化。两者共享相同的理论根基，但在实现方式和应用场景上存在差异。下面我们从几个关键维度进行比较分析。

2.1 噪声调度机制对比

维度	DSM	扩散模型
噪声强度	离散多尺度（固定几个σ值）	连续时间（σ(t)作为t的函数）
噪声类型	通常使用高斯噪声	可扩展至其他噪声类型
调度策略	手工设计	可学习或精心设计的衰减策略
多尺度融合	加权求和不同σ的损失	通过SDE/ODE自然实现连续过渡

# DSM的多尺度噪声调度示例 def dsm_multiscale_loss(data, score_network, sigmas): losses = [] for sigma in sigmas: noise = torch.randn_like(data) * sigma perturbed_data = data + noise target = -noise / (sigma**2) pred = score_network(perturbed_data, sigma) losses.append((pred - target).pow(2).sum(dim=1)) return torch.mean(torch.stack(losses, dim=0).sum(dim=0))

2.2 分数函数的参数化差异

在DSM中，分数网络通常显式地将噪声水平σ作为输入，学习一个条件分数估计器：

[ s_\theta(\tilde{x}, \sigma) ]

而在扩散模型中，分数函数通常通过时间步t参数化：

[ s_\theta(x_t, t) ]

这种参数化上的差异反映了两种方法对噪声处理的不同视角：

DSM将不同噪声水平视为独立的估计任务
扩散模型将噪声过程视为连续演化，强调时间维度上的相关性

重要提示：在实践中，这两种参数化可以相互转换，因为噪声水平σ通常是时间t的确定性函数。这使得许多DSM的技术可以直接迁移到扩散模型中。

2.3 采样过程的联系与区别

两者的采样过程都基于朗之万动力学（Langevin Dynamics），但具体实现有所不同：

DSM采样：
- 通常采用固定噪声水平的朗之万采样
- 可能需要手动调整不同噪声水平间的过渡
- 采样步骤相对独立
扩散模型采样：
- 通过SDE/ODE实现噪声水平的连续变化
- 采样过程具有明确的时间演化轨迹
- 可以应用更高级的求解器（如DPM-Solver）

# DSM的朗之万采样示例 def dsm_langevin_sampling(score_network, initial_noise, sigmas, steps_per_sigma): x = initial_noise for sigma in reversed(sigmas): for _ in range(steps_per_sigma): score = score_network(x, sigma) noise = torch.randn_like(x) * np.sqrt(2 * step_size) x = x + step_size * score + noise return x