当前位置：首页 > news >正文

NeurIPS 2025 Spotlight｜先学骨架，再添血肉，扩散模型学习动态中频谱偏置的解析理论

news 2026/3/27 3:15:14

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

作者简介

王彬旭，哈佛大学 Kempner 自然与人工智能研究所研究员，本科毕业于北京大学元培学院物理学方向。她的主要研究兴趣包括视觉神经科学，以及生成模型的理论机制与其在神经科学中的应用。

内容简介

我们构建了一个解析框架，用于理解扩散模型训练过程中生成分布的演化规律。基于高斯等价原理，我们求解了线性去噪器与卷积去噪器的全批量梯度流动力学（Gradient flow），并对所得的概率流常微分方程（Probability flow ODE）进行积分，最终得到生成分布的解析表达式。该理论揭示了一条普适的逆方差谱定律：特征模式或傅里叶模式达到目标方差所需的时间满足关系 τ∝λ-1（τ为时间，λ为方差）。这意味着高方差（粗粒度）结构的学习完成时间，通常要比低方差（细粒度）细节快多个数量级。将分析扩展至深度线性网络与线性卷积网络后我们发现：权重共享仅会改变学习速率（加快学习进程但无法消除偏差），而局部卷积则会引入性质完全不同的偏差。在高斯数据集与自然图像数据集上的实验表明，基于深度多层感知机（MLP）的U型网络（UNet）中，上述谱定律依然成立。然而，卷积U型网络（Convolutional U-Nets）表现出多种模式近乎同步快速出现的特征，这表明局部卷积对学习动力学具有重塑作用。这些研究结果凸显了数据协方差在扩散模型学习顺序与速度调控中的核心作用，同时也提示需进一步深入探究局部卷积所引入的独特归纳偏差。

论文地址：https://arxiv.org/pdf/2503.03206

论文解读

本研究聚焦扩散模型的学习动态过程，核心探索其频谱层面存在的学习速率差异，即频谱偏置问题。

扩散模型在过去几年已在多个领域取得卓越成就，涵盖图像、视频、形状及语言等方向。在这一通用范式下，研究流程可概括为：收集图像、视频、分子等各类数据，输入数据集后训练生成模型，学习数据分布，再通过采样从习得的分布中获取新的样本。但这一过程存在显著的未解之谜：习得的分布与训练数据分布之间的关联尚未明确，或者说输入的离散数据点为何最终会转化为连续分布。

另一个关键问题是，数据本身的自然结构如何影响学习与采样的动态过程。核心研究疑问在于：训练过程中，扩散模型如何逐步逼近目标分布？哪些特征更难学习或需要更长时间习得？习得的分布与网络架构之间存在怎样的关联？

本研究试图构建一个解析框架，以揭示训练过程中习得分布的变化规律。首先回顾扩散模型的工作机制：在训练过程中，score 网络(score network)的参数沿梯度流方程(gradient flow ODE)迭代，在训练数据上优化降噪损失(denoising score matching loss)，从而逐渐逼近数据的 score 函数（对数密度梯度 ∇logp(x;σ) ）；训练完成后，在采样过程中，样本沿习得的 score 方向遵循概率流动力学(Probability flow ODE)，得到最终习得分布。

由于学习与采样的动态过程相互耦合嵌套，直接求解难度很大。所以如果希望获得解析理解，理论层面需对系统进行简化。此前研究中，我们探讨了习得 score 函数的结构特征，我们发现训练良好的网络，其 score 函数在较长时间内可通过高斯线性 score 函数有效逼近，而对 delta 分布等更尖锐的 score 函数逼近效果较差。理论结果表明，在噪声强度（noise level）较大或者说噪声图片远离原本分布的场景下，高斯线性 score 函数是理想的近似。

基于上述观察，我们提出简化模型：假设去噪器模型（denoiser）为输入的线性函数，且不同噪声水平使用独立的参数。这一假设使整个系统可解：学习过程（梯度流gradient flow）求解更简便，因损失与权重呈线性关系，即便使用多层线性网络（deep linear network），也可借助深度线性网络的理论求解；采样方程同样是一个线性方程，在权重矩阵可交换（commute）的前提下可以在共有的特征基底上分别积分。

研究中我们还考虑了多种模型变种，包括残差连接、更深层的线性网络及线性卷积网络等，相关理论均适用于这些场景并可求解。在最简单的单层网络情形下，整个系统拥有闭式解（closed form solution），我们推导了网络的参数在各训练时间点的解析解，以及生成分布在每个训练时刻的解析结果。其他模型变种的解析结果已在论文中详细呈现，此处不再展开。

这一场景下的核心结果如下：

线性模型场景下，训练过程中任意时间点的生成分布均为高斯分布，且其协方差矩阵（covariance）可在数据集主成分的基上分解，核心的动态变量为各主成分的方差；
各个主成分方差的变化可以用解析解预测，曲线显示，在方差上升和方差下降的模式中，均有高方差成分收敛速度更快，低方差成分收敛速度较慢的规律，即逆频谱偏置；
定量分析表明，收敛时间与训练数据在对应模式的目标方差呈近似逆幂律关系，幂次约为-1，即近似呈反比。

我们还推导出网络结构与习得分布之间的一系列关联：

一般线性网络最终习得的是数据的最优高斯近似；
线性卷积网络最终习得平稳高斯过程（stationary Gaussian processes），也即数据的最佳平移不变近似，但忽略了傅立叶模式之间的相关性；
使用局部卷积核的卷积网络会习得更加局部的平稳高斯过程，忽略了远程交互。

我们对四种网络结构的权重学习及分布演变动态过程进行了求解：线性以及深度线性网络的权重沿数据主成分呈指数收敛或 Sigmoidal 曲线收敛，习得分布的收敛普遍存在逆频谱偏置；线性卷积网络的权重以及生成的分布沿着傅立叶模式收敛，不同傅立叶模式同样存在逆频谱偏置；局部卷积网络（与现实的卷积神经网络和 UNet 最相近）的学习过程是卷积核参数在图像块（patch）的主成分上指数收敛，而其整体数据分布的收敛过程因核尺寸较小导致许多傅立叶模式耦合，于是许多模式会同时学习和涌现，因此频谱偏置比较弱。

为验证理论结果，我们在自然图片数据上训练了深层的非线性扩散模型，追踪生成样本在训练数据主成分上的方差变化。实验结果显示，多层感知机（MLP）一类的扩散模型与理论预测高度吻合：高方差方向收敛更快，低方差方向收敛更慢，收敛时间与目标方差的关系可通过逆幂律较好拟合，但实际网络的频谱偏置小于理论预期，低方差模式的学习速度快于预期。

本研究可总结为以下核心结论：若去噪模型为线性网络，其参数演变沿数据主成分展开，习得数据分布的训练动态可以解析求解。分布演变通常先沿前几个主成分方向拉伸，再扩展至压缩后续主成分方向，收敛时间与方差呈逆幂律关系。

本研究提供了可解析求解的典型案例及多种网络结构变种的延伸。其应用价值在于未来可以借助解析理论对损失函数的加权方案（loss weighting）和噪声策略（noise schedule）进行有理论指导的优化。

本期文章由支昕整理

往期精彩文章推荐

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了2000多位海内外讲者，举办了逾800场活动，超1000万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击阅读原文查看作者直播回放！