联合团队发布深度学习优化算法综述,为下一代优化方法设计提供实践指南
深度学习优化算法演进:联合团队发布综述,为下一代优化方法设计提供实践指南
在深度学习的发展历程中,以随机梯度下降(SGD)和 Adam 为代表的一阶梯度下降方法是现代模型训练的基础优化算法。然而,随着大语言模型(LLM)时代的到来,传统优化方法正面临硬件与系统层面的多重瓶颈,主要表现为反向传播引起的内存限制(内存墙)、分布式网络中的通信开销(通信墙)以及处理敏感数据时的隐私保护问题(隐私墙)。
面对这些工程挑战,优化算法的设计与演进方向正发生转变。近日,来自浙江大学 APRIL Lab、复旦大学、上海交大及新加坡国立大学的联合团队发布了最新长文综述,不仅系统回顾了深度学习优化算法的演进轨迹,还针对多种模型架构和训练场景对主流优化器进行了全面的实证评估,为下一代高效、鲁棒、可信的优化方法设计提供了极具价值的实践指南。
论文链接:https://arxiv.org/abs/2604.12968 项目链接:https://github.com/APRIL - AIGC/awesome - optimizer
图|优化方法演化树,以经典基础方法为根节点,发展轨迹分支为一阶、二阶和零阶。节点大小反映引用影响力,不同聚类展示了从基础梯度更新到面向特定场景的高级框架的演进历程
背景
在深入探讨优化器的演进历史之前,研究团队首先介绍了深度学习复杂的优化环境。模型训练的本质是经验风险最小化,但在高维空间中,神经网络的损失地形是一片崎岖的非凸地带。这里不仅布满了诱导模型陷入停滞的鞍点,还隐藏着无数局部最优的陷阱。SGD 正是通过巧妙利用随机梯度带来的噪声,才得以在这片崎岖的地形中跌跌撞撞地逃离鞍点,最终寻找到具备强大泛化能力的平坦极小值。而当我们步入超参数化时代,神经正切核(NTK)理论表明,在无限宽极限下,梯度下降训练的网络动态可近似为固定核上的核回归过程,从而为过参数化网络的优化收敛性质提供了理论解释。
图|优化方法的量化演进时间线 统一的数学视角
针对现有文献中分类零散、演进脉络不够清晰的问题,研究团队构建了统一的数学分类框架,将底层的优化基元划分为三大类:
图|代表性优化方法的分类与对比
1. 一阶优化算法(FO)
作为当前应用最广的方法,FO 依赖一阶梯度及其派生统计量以低计算开销实现收敛,并严格避免显式的二阶曲率近似。综述将 FO 梳理为 8 个维度,每个维度都针对基础算法的某一特定缺陷展开改进:动量机制有助于逃离鞍点,自适应步长减轻了人工调参负担,方差缩减机制能够加速病态区域中的收敛,稳定性机制保证了噪声环境下训练的鲁棒性,学习率调度优化了整体学习过程的推进,泛化增强技术致力于寻找平坦极小值,混合方法结合了不同策略的互补优势,而内存高效变体则使大规模模型训练成为可能。
为克服一阶方法的几何限制并实现结构优化,研究团队将目光转向能够明确纳入内在曲率的 SO 方法。
2. 二阶优化算法(SO)
SO 算法通过显式构建并结合真实的曲率信息(如海森矩阵 Hessian 或费雪信息矩阵 FIM)来对更新方向进行预处理,旨在突破一阶算法的性能极限。研究团队详细盘点了 Hessian 近似、FIM 应用及拟牛顿法等为降低大规模计算复杂度而生的前沿方案。然而,SO 方法严格要求函数必须具有二阶可微性,并且需要大量内存来实现曲率计算。随着深度学习向大规模 LLM 模型和不可微的黑盒环境发展,这些严苛前提条件形成了难以逾越的应用障碍,从而自然推动了后续详述的零阶算法的转型。
3. 零阶优化算法(ZO)
针对大规模训练中反向传播带来的高额显存开销,零阶方法提供了一种可行的解决方案。该方法通过前向函数评估近似梯度方向,能够有效缓解显存限制。
场景驱动的优化范式
随着大模型参数规模的急剧扩大以及应用场景的复杂化,仅从数学视角进行算法设计已无法完全解决实际工程中的瓶颈。现代优化器的设计趋势正在向结合系统架构的工程解决方案演进:
1. 分布式优化
针对大规模计算节点间的通信瓶颈,通常引入梯度压缩(如量化与稀疏化)、局部更新策略及去中心化通信拓扑,从而实现高效的信息同步。分布式优化的发展演化,体现了一种从启发式单维压缩向具有理论保证的多维联合设计的范式转变。早期方法主要通过简单的梯度量化来降低通信开销,而后逐渐发展为能够同时处理方差缩减、曲率近似以及隐私噪声的复杂优化框架。
2. 隐私保护优化
为了保障敏感数据的安全性,研究者探讨了差分隐私优化与梯度噪声注入技术,以在隐私保护强度与模型性能之间寻找最优平衡。全局裁剪具有实现简单的优势,但在异构训练阶段中的性能往往并不理想。自适应裁剪通过实时校准改善了效用与隐私之间的权衡,但同时引入了额外的计算开销。曲率感知裁剪则能够更充分地利用损失景观的几何结构,从而提升优化稳定性,但其代价是需要计算代价较高的曲率近似。
3. 内存高效设计
针对大语言模型的超大规模参数,这篇综述分析了低秩梯度存储等策略,旨在受限的硬件显存条件下实现大模型的微调与训练。
标准化基准测试
现有研究中往往缺乏公平的跨架构对比测试,导致优化器选择缺乏可靠指导。为此,研究团队建立了一个标准化的评估框架,在视觉任务(ResNet、ViT)以及因果语言建模(Llama)上,对 23 种不同优化器进行了大规模基准测试。
测试定量分析了不同优化器学习率敏感性、长期训练的可扩展性以及跨架构的泛化能力。
1. 跨架构泛化与鲁棒性差异
实验表明,Muon 和 MARS 在 ResNet - 50 和 Llama - 60M 上均保持优异性能(PPL≈12 - 14),即使在 5×学习率下仍稳定;Kron、Lion、LAMB 展现出良好的跨架构迁移能力;SGD 系列在 Llama 上遭遇灾难性训练崩溃(梯度爆炸导致 NaN),证明在高度各向异性的 LLM 损失景观中,缺乏自适应机制的一阶方法无法同时满足所有层的收敛需求。
2. 长期训练可扩展性(100 vs 300 Epoch)
研究团队分析了优化器在延长训练周期时的行为差异,发现:
- 持续改进型:SGD 在 ViT - S 上从 100 到 300 epoch 提升 +9.41%,因其无激进方差累积,允许模型持续探索损失景观;
- 快速饱和型:Muon、Lion、Kron 等先进优化器在 100 epoch 已达高基线(>77%),300 epoch 仅提升 +1.9%~+4.7%,表明其早期即收敛到优质局部极小值;
- 性能退化:RMSprop 在 ResNet - 50 上 300 epoch 相比 100 epoch 性能下降,因长期累积的梯度噪声未修正,导致步长估计失衡。
3. 优化器相关性分析(轨迹动力学)
研究团队还计算验证损失一阶差分(而非原始损失)的 Pearson 相关系数,捕捉优化器的“内在节奏”而非整体趋势。关键发现如下:
- 架构主导效应:ViT 训练呈现高度同质化(所有优化器相关性高),因其严格的学习率 warmup 和正则化协议压制了优化器的个性;ResNet 则显示显著算法分化。
- 算法家族聚类: 自适应标量族(Adam、AdamW、Nadam 等)高度相关,共享平方梯度 EMA 的同步适应模式;结构预处理族(Kron、Muon)彼此强相关,但与标量族差异显著,因其通过矩阵更新而非对角缩放导航参数空间;
- 机制异常值:Lookahead(双权重插值)、MADGRAD(对偶平均)与标准方法相关性低,具有独特的损失遍历轨迹。
- 时间平滑效应:随着训练从 100 epoch 延长到 300 epoch,所有优化器相关性上升,表明不同算法路径最终汇聚到相似的几何区域。
展望
当然,研究团队还指出了未来的几个研究方向。例如,一阶方法可以从脆弱的经验调参转向自动生成架构特定的优化器;推进结构矩阵更新(如 Muon 的 Newton - Schulz 正交化),利用梯度统计的几何结构;集成自适应低精度算术,动态调整数值精度以平衡内存占用与收敛稳定性。二阶方法可以将结构感知自适应(如 TK - FAC 的迹保持分解)与低精度算术结合,设计适合现代 AI 加速器(GPU/TPU)内存层次结构的稀疏矩阵运算;探索高效稀疏矩阵求逆技术,在保持二阶信息优势的同时实现与一阶基线相当的全局效率。零阶方法则可以从精确梯度校正机制中汲取灵感(如 VAMO 的方差降低),数学上消除不同网络架构引入的固有随机噪声,稳定高度变化的更新步长。
