当前位置：首页 > news >正文

变分自编码器原理与潜变量模型解析

news 2026/3/26 17:07:29

判别模型 vs 生成模型

机器学习模型通常分为判别模型和生成模型两类，这一区分源于构建和训练这些模型时使用的概率公式。

判别模型学习标签$y$基于数据点$x$的概率，数学上表示为$p(y|x)$。为了将数据点分类到某个类别，我们需要学习数据与类别之间的映射关系，这种映射可以描述为概率分布。

生成模型则学习没有外部标签的数据点的概率分布，数学上表示为$p(x)$。在这种情况下，数据本身"竞争"概率密度。

条件生成模型是另一类模型，尝试学习数据$x$基于标签$y$的条件概率分布，表示为$p(x|y)$。

生成模型

生成模型的目标是学习概率密度函数$p(x)$。这个概率密度有效地描述了训练数据的行为，并通过从分布中采样来生成新数据。理想情况下，我们希望模型学习到的概率密度$p(x)$与数据密度$p_{data}(x)$相同。

生成模型可分为两类：

显式密度模型：能够显式计算密度函数$p$
隐式密度模型：不计算$p(x)$，但训练后能够从底层分布中采样

潜变量模型

潜变量模型旨在用潜变量建模概率分布。潜变量是将数据点转换到连续低维空间的表示。

直观上，潜变量将以更简单的方式描述或"解释"数据。在严格的数学形式中，遵循概率分布$p(x)$的数据点$x$被映射到遵循分布$p(z)$的潜变量$z$。

基本术语定义：

先验分布$p(z)$：建模潜变量的行为
似然$p(x|z)$：定义如何将潜变量映射到数据点
联合分布$p(x,z)=p(x|z)p(z)$：似然和先验的乘积，本质描述模型
边际分布$p(x)$：原始数据的分布，模型的最终目标
后验分布$p(z|x)$：描述可由特定数据点产生的潜变量

生成过程：从$p(z)$采样$z$，然后从$p(x|z)$采样$x$
推断过程：从$p(x)$采样$x$，然后从$p(z|x)$采样$z$

用最大似然训练潜变量模型

最大似然估计是一种完善的估计概率分布参数的技术，通过最大化似然函数来实现。数学上表示为：

$$\theta^{ML} = arg \max_{\theta} \sum_{i=1}^{N} log p_{\theta}(x_{i})$$

为了应用梯度下降，需要计算边际对数似然函数的梯度：

$$\nabla log p_{\theta}(x) = \int p_{\theta}(z |x) \nabla_{\theta} log p_{\theta}(x,z) dz$$

变分推断

变分推断用易于处理的分布近似难处理的后验分布，通过优化问题计算。我们想用称为变分后验的另一分布$q_{\phi}(z|x)$来近似实际的$p_{\theta}(z|x)$。

证据下界（ELBO）定义为：

$$L_{\theta,\phi}(x) = \textbf{E}{q(z)} \left[ log \frac{p_{\theta}(x,z)}{q_{\phi}(z|x)} \right] \leq log p_{\theta}(x)$$

扩展ELBO方程：

$$L_{\theta,\phi}(x) = log p_{\theta}(x) - \textbf{KL}(q_{\phi}(z|x) || p_{\theta}(z|x))$$

摊销变分推断

在摊销变分推断中，我们训练外部神经网络来预测变分参数，而不是对每个数据点优化ELBO。该网络在一些论文中称为推断网络。

重参数化技巧

直观上，我们可以将重参数化技巧理解为：由于无法计算期望的梯度，我们将概率分布的参数从分布空间"移动"到期望空间。

对于高斯分布，我们可以用固定已知分布中的样本表示$z$：

$$z = \mu +\sigma \epsilon \quad with \quad \epsilon \sim N(0,1)$$