当前位置：首页 > news >正文

【VAE 论文阅读| ICLR 2014】：变分自编码器——深度生成模型的理论基石

news 2026/5/6 23:27:04

论文信息

标题：Auto-Encoding Variational Bayes
会议：ICLR 2014
单位：阿姆斯特丹大学
代码：https://github.com/dpkingma/vae
论文：https://arxiv.org/pdf/1312.6114.pdf

一、前言：生成模型的“不可能三角”

在VAE出现之前，深度生成模型一直被三个难题卡住：

后验概率不可算：p ( z ∣ x ) p(z|x)p(z∣x)无法直接求解
大规模数据训不动：传统变分推断不支持小批量SGD
采样与推断割裂：生成和编码不能一套模型搞定

这篇论文直接用变分推断+重参数化一把梭哈，从此VAE成为生成模型三大支柱之一。

二、核心思想一句话讲透

编码器（Encoder）：输入图片x xx，输出隐变量z zz的分布q ϕ ( z ∣ x ) q_\phi(z|x)qϕ(z∣x)
解码器（Decoder）：输入隐变量z zz，输出重建图片p θ ( x ∣ z ) p_\theta(x|z)pθ(x∣z)
训练目标：让边缘似然下界最大，既保证重建准，又保证生成真实

通俗解释：
不是普通自编码器只学“编码→解码”，而是学概率分布，能从噪声随机采样生成全新图片。

三、整体架构

图1 VAE概率图模型

实线：生成模型p θ ( z ) p θ ( x ∣ z ) p_\theta(z)p_\theta(x|z)pθ(z)pθ(x∣z)
虚线：近似后验q ϕ ( z ∣ x ) q_\phi(z|x)qϕ(z∣x)
θ \thetaθ：解码器参数
ϕ \phiϕ：编码器参数

四、核心公式全解析

4.1 对数似然下界（ELBO）

log ⁡ p θ ( x ( i ) ) ≥ L ( θ , ϕ ; x ( i ) ) \log p_\theta(x^{(i)}) \ge \mathcal{L}(\theta,\phi;x^{(i)})logpθ(x(i))≥L(θ,ϕ;x(i))
L = − D K L ( q ϕ ( z ∣ x ) ∥ p θ ( z ) ) + E q ϕ ( z ∣ x ) [ log ⁡ p θ ( x ∣ z ) ] \mathcal{L} = -D_{KL}(q_\phi(z|x) \parallel p_\theta(z)) + \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)]L=−DKL(qϕ(z∣x)∥pθ(z))+Eqϕ(z∣x)[logpθ(x∣z)]

L \mathcal{L}L：证据下界（越大越好）
D K L D_{KL}DKL：KL散度，衡量分布差异
q ϕ ( z ∣ x ) q_\phi(z|x)qϕ(z∣x)：编码分布（近似后验）
p θ ( z ) p_\theta(z)pθ(z)：先验分布（标准高斯）
p θ ( x ∣ z ) p_\theta(x|z)pθ(x∣z)：解码分布（生成图像）
E \mathbb{E}E：期望

通俗解释：
左边让编码靠近先验（规范分布），右边让重建尽可能准。

4.2 重参数化技巧（VAE能训的关键）

z = μ + σ ⊙ ϵ , ϵ ∼ N ( 0 , I ) z = \mu + \sigma \odot \epsilon,\quad \epsilon \sim \mathcal{N}(0,I)z=μ+σ⊙ϵ,ϵ∼N(0,I)

z zz：隐变量采样
μ \muμ：编码器输出均值
σ \sigmaσ：编码器输出标准差
ϵ \epsilonϵ：标准高斯噪声
⊙ \odot⊙：按元素相乘

通俗解释：
把随机性甩给固定噪声ϵ \epsilonϵ，让z zz可导，才能用反向传播训练。

4.3 高斯先验下的KL闭式解

− D K L = 1 2 ∑ j = 1 J ( 1 + log ⁡ σ j 2 − μ j 2 − σ j 2 ) -D_{KL} = \frac{1}{2}\sum_{j=1}^J \left(1+\log\sigma_j^2 - \mu_j^2 - \sigma_j^2\right)−DKL=21j=1∑J(1+logσj2−μj2−σj2)

J JJ：隐变量维度
μ j , σ j \mu_j,\sigma_jμj,σj：第j jj维的均值、方差

五、核心PyTorch代码

5.1 VAE Encoder（输出μ, logvar）

importtorchimporttorch.nnasnnimporttorch.nn.functionalasFclassEncoder(nn.Module):def__init__(self,in_dim=784,hidden_dim=400,latent_dim=20):super().__init__()self.fc1=nn.Linear(in_dim,hidden_dim)self.fc_mu=nn.Linear(hidden_dim,latent_dim)self.fc_logvar=nn.Linear(hidden_dim,latent_dim)defforward(self,x):h=F.relu(self.fc1(x))mu=self.fc_mu(h)logvar=self.fc_logvar(h)returnmu,logvar

5.2 VAE Decoder

classDecoder(nn.Module):def__init__(self,latent_dim=20,hidden_dim=400,out_dim=784):super().__init__()self.fc2=nn.Linear(latent_dim,hidden_dim)self.fc3=nn.Linear(hidden_dim,out_dim)defforward(self,z):h=F.relu(self.fc2(z))x_recon=torch.sigmoid(self.fc3(h))returnx_recon

5.3 重参数化 + 损失函数

classVAE(nn.Module):def__init__(self):super().__init__()self.encoder=Encoder()self.decoder=Decoder()defreparameterize(self,mu,logvar):std=torch.exp(0.5*logvar)eps=torch.randn_like(std)returnmu+eps*stddefforward(self,x):mu,logvar=self.encoder(x)z=self.reparameterize(mu,logvar)x_recon=self.decoder(z)# 损失：重构损失 + KL散度recon_loss=F.binary_cross_entropy(x_recon,x,reduction='sum')kl_loss=-0.5*torch.sum(1+logvar-mu.pow(2)-logvar.exp())returnrecon_loss+kl_loss