当前位置：首页 > news >正文

DSS-GAN：基于Mamba的高效生成对抗网络架构解析

news 2026/6/20 5:52:42

1. DSS-GAN架构设计解析

DSS-GAN的核心创新在于将Mamba（一种选择性状态空间模型）作为生成器的主干网络，替代了传统GAN中常用的卷积架构。这种设计带来了显著的参数效率提升——1-dir变体仅需4.4M参数，相比StyleGAN2-ADA的25.0M减少了82%。让我们深入拆解这个架构的关键组件：

1.1 层次化Mamba生成器

生成器采用金字塔式结构处理多分辨率特征图，从8×8到目标分辨率（如256×256）分阶段处理。每个分辨率阶段包含：

DLR块：方向性潜在路由的核心处理单元
Mamba块：基于状态空间模型的序列处理模块
上采样层：逐步提升特征图分辨率

特别值得注意的是最高分辨率阶段的特殊设计：在512×512配置中，最终阶段使用StyleGAN2启发的卷积细化块而非Mamba块。这是因为Mamba的序列处理特性使得高分辨率时token数量呈平方增长（512×512=262k tokens），计算成本过高。通过这种混合设计，既保持了低分辨率阶段的全局一致性建模，又在高分辨率阶段利用卷积擅长处理局部细节的特性。

1.2 方向性潜在路由(DLR)机制

DLR是DSS-GAN最具创新性的条件控制机制，其工作流程可分为三个关键步骤：

潜在向量分解：输入噪声向量z被分解为：
- 基础子向量z_base（维度D_base=92）
- K个方向子向量z_dir（每个维度D_dir=20/28）
- 类嵌入子向量z_e（维度D_e=64）
方向权重计算：通过可学习的路由网络计算每个方向的权重：
```
# 伪代码表示路由权重计算 direction_weights = softmax((W_r * z_dir + α * e_y) / τ)
```
其中τ=1.0是温度参数，α是类到路由的缩放因子（训练中从≈0增长到0.095）
特征仿射调制：每个Mamba块的特征图会按方向权重进行调制：
```
modulated_feature = γ * feature + β # γ,β由方向子向量预测
```

这种设计使得不同方向（行、列、对角线）可以发展出专门化的特征表示。如图12-14所示，单独替换某个方向的子向量会对应改变生成图像中特定方向的结构特征。

1.3 Mamba块配置策略

Mamba块的参数配置随分辨率变化呈现有趣的模式：

分辨率	d_state	d_conv	扩展因子	深度
8×8	64	4	2.0	2
16×16	64	4	2.0	1
32×32	64	4	2.0	1
64×64	48	3	1.5→1.0	1
128×128	32	2	1.0	1
256×256	16	1	1.0	1

这种"高分低配"的策略有效平衡了模型容量与计算成本。特别是在高分辨率阶段降低d_state（状态维度）和扩展因子，避免了token数量爆炸带来的计算负担。

2. 训练优化与稳定性技巧

2.1 训练配置细节

DSS-GAN采用了一系列精心调校的训练参数（见表13）：

优化器：Adam(β1=0.0, β2=0.99)
学习率：生成器9e-5，判别器3e-5
正则化：R1惩罚系数γ=5，每4步应用一次
梯度裁剪：生成器阈值10，判别器阈值15
EMA：分两阶段（0.999→0.9995），在106张图像后切换

特别值得注意的是batch size的配置：

128×128：batch size=128
256×256：batch size=96
512×512：batch size=48

这种递减策略补偿了高分辨率时显存占用的增加。

2.2 稳定性增强技术

180°旋转机制：在Mamba块内部引入可逆的180°旋转操作，在不改变输出空间布局的前提下，为SSM递归提供反向梯度路径。具体实现：

前向传播时对特征图执行旋转
通过Mamba处理
反向旋转恢复原方向这种方法显著改善了训练稳定性，且不引入额外参数。

方向权重初始化： DLR的初始方向权重设置为均匀分布（1/K），随着训练逐渐分化。如图4所示，不同分辨率阶段会自然发展出不同的方向偏好：

8×8：偏向行扫描（权重≈0.39）
16×16：偏向列扫描（权重≈0.54）
32×32：偏向对角线扫描（权重≈0.43）
更高分辨率：权重趋于均匀

这种自适应的 specialization 是模型性能的关键。

2.3 扫描方向选择策略

实验表明，扫描方向的数量和类型应该匹配数据集的几何特性：

方向数量：
- 各向同性数据（如人脸）：1个方向足够
- 强方向性数据（建筑纹理）：需要3方向（行、列、对角线）
- 在256×256分辨率下，3-direction比1-direction的FID改善显著（10.29 vs 15.17）
方向类型：
- 标准配置：行、列、对角线扫描
- 替代方案：希尔伯特曲线、阿基米德螺旋线等空间填充曲线
- 关键原则：方向应覆盖数据的主要几何结构

图18-19的对比实验清晰展示了方向多样性的重要性：当三个方向都采用相同的行扫描时，训练最终会崩溃（FID升至189），而几何不同的方向配置则稳定收敛。