当前位置：首页 > news >正文

图像分类优化器选型实战：从SGD到LAMB的工程解剖

news 2026/7/4 14:02:44

1. 项目概述：为什么优化器不是“调参玄学”，而是图像分类器的隐形引擎

在训练一个ResNet-50模型识别猫狗时，你可能花三天调学习率、两天改数据增强、一天换损失函数，最后模型准确率卡在92.3%不动了——直到你把SGD换成AdamW，加了一行weight_decay=0.05，准确率直接跳到94.1%，验证曲线也变得异常平滑。这不是巧合，而是优化器在背后真正发力的信号。Impact of Optimizers in Image Classifiers这个标题表面看是讲“不同优化器对图像分类效果的影响”，但实际拆开后你会发现，它根本不是一张简单的对比表格能说清的事：它牵扯到梯度更新的本质逻辑、参数空间的几何结构、批量归一化与权重衰减的耦合效应、甚至GPU显存占用与收敛速度之间的隐性权衡。我带过七届CV方向实习生，几乎所有人最初都把优化器当成“配菜”——等模型搭完、数据准备好、损失函数写好，最后才随手选个Adam应付一下。结果就是：同样用ViT-B/16在ImageNet-1k上微调，有人跑出78.2% top-1，有人稳定在80.6%，差的那2.4个百分点，70%以上来自优化器配置的细节偏差。这篇内容不讲公式推导（那些你早该背熟了），也不堆砌论文引用，而是从一个每天要跑12轮实验的工程师视角，告诉你：当你说“用Adam试试”时，你其实默认接受了哪些假设？当你发现Adam在小批量训练时震荡剧烈，是该调betas还是该换LAMB？为什么PyTorch官方示例里ResNet用SGD+Momentum，而Vision Transformer默认用AdamW？这些选择背后，是数学原理、硬件特性、数据分布和模型架构四股力量在实时博弈。适合谁看？如果你正卡在SOTA复现的最后1%精度上，如果你的验证loss总在第30个epoch突然飙升，如果你分不清weight_decay和L2 regularization在Adam里的真实作用路径——那你不是缺调参技巧，而是缺一次对优化器底层行为的“现场解剖”。接下来的内容，全部基于我在工业级图像分类系统（日均处理200万张医疗影像）中踩过的坑、记下的日志、画过的梯度范数热力图，以及反复重训57次后确认的实操结论。

2. 核心设计逻辑：为什么不能只比“最终准确率”，而必须追踪整个训练轨迹

2.1 优化器影响的不是终点，而是整条收敛路径

很多人做优化器对比实验，习惯性地只记录“训练完后的top-1准确率”和“最终验证loss”，然后画个柱状图得出结论：“Adam比SGD高0.8%”。这种做法在学术benchmark里勉强过关，但在真实项目中会埋下巨大隐患。我去年重构一个工业缺陷检测模型时就吃过亏：新版本用AdamW训练，在CIFAR-100上最终准确率比旧版SGD高0.6%，但上线后推理延迟上升了17%。查因发现，AdamW在训练中期（epoch 40–80）产生了大量高频小幅度参数更新，导致BN层的running_mean和running_var统计量波动剧烈，最终使推理时的BN计算无法有效融合进卷积层——这问题在最终模型里完全不可见，只有回溯训练过程中的BN统计量标准差曲线才暴露出来。所以本项目的设计起点非常明确：所有对比必须基于完整训练轨迹的多维观测，而非单点快照。我们固定其他所有超参（batch size=256, lr=0.1, epochs=100, data augment: RandAugment-M9, label smoothing=0.1），仅变更优化器类型，同步采集以下6类指标：

每epoch的梯度L2范数均值与方差（反映更新稳定性）
各层权重的梯度直方图分布偏度（skewness）（判断梯度是否集中于少数通道）
BN层running_var的标准差变化曲线（关联推理部署稳定性）
每10个epoch保存的checkpoint在OoD数据集（如ImageNet-A）上的鲁棒性衰减率（检验泛化能力迁移）
GPU显存峰值占用与训练吞吐量（samples/sec）（硬件效率维度）
学习率warmup阶段（前5 epoch）的loss下降斜率（冷启动敏感性）

提示：不要用torch.cuda.memory_allocated()测显存，它返回的是当前分配量，不是峰值。正确做法是在训练循环外加torch.cuda.reset_peak_memory_stats()，循环内用torch.cuda.max_memory_allocated()取最大值——这个值才决定你能否把batch size从256提到512。

2.2 为什么必须包含LARS和LAMB？——大模型时代的特殊约束

当前主流教程常把优化器列表停在Adam/SGD/RMSProp，但当你真正训练ViT-L/16或ConvNeXt-XL这类参数量超3亿的模型时，会发现传统优化器集体失灵。原因很现实：大批量训练（batch size > 8K）下，SGD的学习率需线性缩放（如batch=8192时lr=3.2），但此时BN层的统计量估计严重不准；Adam则因自适应学习率机制，在大批量下梯度方差极小，导致beta2=0.999的指数衰减让v_t更新迟钝，等效学习率持续衰减。LARS（Layer-wise Adaptive Rate Scaling）正是为解决此问题诞生：它对每一层单独计算学习率缩放因子η_layer = η_global × (||w|| / ||g||)，其中||w||是该层权重L2范数，||g||是该层梯度L2范数。这样既保留了全局学习率的调度策略，又避免了浅层（如stem conv）因梯度大而更新过猛、深层（如head fc）因梯度小而更新停滞的问题。而LAMB在此基础上更进一步，将Layer-wise scaling与Adam的动量机制结合，并引入信任比率（trust ratio）约束更新方向——它要求Δw与-g的余弦相似度必须大于阈值（默认0.001），否则将Δw投影到梯度反方向上。我们在ImageNet-21k上实测：ViT-H/14用AdamW需128卡×3天收敛，换LAMB后仅需64卡×2.2天，且最终top-1高0.3%。这说明：优化器选型必须匹配你的硬件规模与模型复杂度，脱离场景谈“哪个更好”毫无意义。

2.3 权重衰减（weight decay）的双重身份：正则化器还是优化器组件？

这是最常被误解的核心概念。几乎所有教程都说“weight decay防止过拟合”，但当你用Adam时，这句话在数学上并不成立。SGD with weight decay 的更新式是：
w_{t+1} = w_t - η × (g_t + λ × w_t)
即梯度g_t与权重w_t直接相加，λ是L2正则强度。
而AdamW（注意是W，不是原始Adam）的更新式是：
w_{t+1} = w_t - η × m̂_t / √v̂_t - η × λ × w_t
这里λ × w_t是独立于梯度的惩罚项，与SGD一致。但原始Adam（无W）是：
w_{t+1} = w_t - η × m̂_t / √v̂_t - η × λ × m̂_t / √v̂_t
看到区别了吗？原始Adam把weight decay加在了已缩放的梯度上，相当于对动量项施加正则，这会导致小梯度参数被过度抑制。这就是为什么PyTorch在1.2版本后强制推荐AdamW——它修复了这个设计缺陷。我们在ResNet-50上做了对照实验：固定λ=1e-4，Adam最终验证acc=76.2%，AdamW达77.5%；若把Adam的λ调低到5e-5，acc升至76.8%，但仍低于AdamW。结论很清晰：weight decay不是可有可无的“锦上添花”，而是优化器内部更新逻辑的固有组成部分，其数值必须与优化器类型协同设计。这也是为什么Hugging Face的Transformers库中，ViT默认用AdamW(weight_decay=0.05)，而CNN模型常用SGD(momentum=0.9, weight_decay=1e-4)——它们的λ数值差异，本质是对各自更新机制的补偿性调整。

3. 关键技术点深度解析：从数学定义到GPU寄存器级影响

3.1 SGD with Momentum：简单粗暴却暗藏玄机的“惯性小车”

SGD with Momentum的更新公式看似简单：
v_t = β × v_{t-1} + g_t
w_{t+1} = w_t - η × v_t
其中β通常设为0.9。但实际工程中，β的选择远比教科书说的复杂。我们测试了β=0.8, 0.9, 0.95, 0.99在ResNet-50/ImageNet上的表现：

β=0.8：训练初期loss下降极快（前10 epoch斜率最陡），但后期易震荡，最终acc低0.4%
β=0.9：平衡性最好，工业界事实标准
β=0.95：验证loss曲线更平滑，但收敛速度慢15%，对learning rate warmup更敏感
β=0.99：等效于“记忆”过去100步梯度，导致模型对新数据分布适应变慢，在domain shift场景（如从自然图像切到卫星图像）下泛化性下降明显

更关键的是动量缓冲区（momentum buffer）的显存开销。每个参数都需要一个同尺寸的v_t存储，这意味着ResNet-50（25M参数）额外增加100MB显存。当你的模型含大量BN层（每个BN有4个可训练参数）时，这部分开销会放大。我们曾遇到一个案例：客户用A100训练ConvNeXt，显存报错OOM，排查发现是momentum=0.99导致缓冲区过大，将β降至0.9后，显存峰值从38GB降到32GB，顺利跑通。所以β不仅是收敛性参数，更是显存预算的调节旋钮。另外提醒一个硬核细节：PyTorch的torch.optim.SGD默认使用nesterov=False，但Nesterov Momentum（nesterov=True）在理论上能加速收敛，其更新式为：
v_t = β × v_{t-1} + g_t
w_{t+1} = w_t - η × (g_t + β × v_t)
即先按动量走一步，再算该位置的梯度。实测在ResNet上Nesterov比普通Momentum快3–5个epoch收敛，但对超参更敏感——β必须严格≥0.9，否则易发散。因此除非你有充足算力做超参搜索，否则建议坚持β=0.9, nesterov=False这一黄金组合。

3.2 Adam及其变体：自适应学习率的代价与红利

Adam的核心创新在于为每个参数分配独立学习率：
m_t = β1 × m_{t-1} + (1-β1) × g_t
v_t = β2 × v_{t-1} + (1-β2) × g_t²
m̂_t = m_t / (1-β1^t)
v̂_t = v_t / (1-β2^t)
w_{t+1} = w_t - η × m̂_t / (√v̂_t + ε)
其中β1=0.9, β2=0.999, ε=1e-8是默认值。但这些数字绝非随意设定。β2=0.999意味着v_t的衰减时间常数为1/(1-β2)≈1000步，即它近似跟踪过去1000步梯度的平方均值。这在小批量（batch=32）下很合理，但当batch=512时，单步梯度方差大幅降低，v_t更新过慢会导致学习率缩放失效。我们实测：ViT-B/16在batch=512时，将β2从0.999调至0.99，验证acc提升0.2%，且训练更稳定。另一个常被忽略的点是ε的作用——它不只是防除零，更是控制学习率下限的阀门。当v̂_t极小时（如训练后期某些稀疏层），√v̂_t + ε主要由ε主导，此时学习率被强制抬高。ε=1e-8对应的学习率下限约为η × 1e4，这对微调任务可能是灾难性的（导致最后几轮参数乱跳）。Hugging Face的ViT微调脚本中ε=1e-6，就是为了给微调留出更宽松的收敛空间。至于AdamW，如前所述，它修正了weight decay的实现方式，但还有一个隐藏优势：AdamW的梯度更新方向与SGD更一致。我们可视化了ResNet-50最后三层的梯度角（gradient angle）分布：AdamW的梯度角集中在[-0.1, 0.1]弧度，而原始Adam在[-0.3, 0.3]，说明AdamW的更新更“聚焦”于损失下降主方向。这解释了为何在细粒度分类（如鸟类子类识别）中，AdamW比Adam更鲁棒。

3.3 RMSProp：被低估的“动态学习率调节器”

RMSProp常被当作Adam的简化版而被忽视，但它在特定场景下有不可替代的优势。其更新式为：
v_t = β × v_{t-1} + (1-β) × g_t²
w_{t+1} = w_t - η × g_t / √(v_t + ε)
注意：它没有动量项m_t，只依赖梯度二阶矩。这带来两个关键特性：

对梯度突变更敏感：当某步梯度g_t异常大（如数据噪声或标签错误），v_t会快速上升，从而自动降低后续几步的学习率，起到“紧急制动”作用。我们在一个含10%噪声标签的皮肤癌数据集上测试：RMSProp最终acc=89.2%，Adam为87.6%，SGD为86.1%。
显存开销最低：仅需一个v_t缓冲区，比Adam少50%，比SGD+Momentum少33%。在边缘设备（如Jetson AGX Orin）部署时，这直接决定了你能否把模型塞进8GB内存。
但RMSProp的致命弱点是缺乏长期记忆。β=0.99时，它只记住约100步历史，当遇到长周期模式（如医学影像中器官的周期性纹理），容易丢失全局趋势。我们的解决方案是：用RMSProp做warmup（前10 epoch），再切到AdamW。实测在CheXNet肺部X光分类任务中，这种混合策略比纯AdamW快8个epoch收敛，且最终AUC高0.003。这提示我们：优化器不必全程固定，可根据训练阶段动态切换——warmup期需要快速响应，main training期需要稳定收敛，fine-tuning期需要精细调节。

3.4 LARS与LAMB：大规模分布式训练的“交通管制员”

LARS（Layer-wise Adaptive Rate Scaling）的公式为：
η_layer = η_global × min(η_max, ||w|| / (||g|| + λ × ||w||))
其中η_max通常设为10。这个公式精妙之处在于：

当||g||很大（如浅层卷积梯度爆炸），η_layer被压低，防止参数突变
当||g||很小（如深层fc梯度消失），η_layer被拉高，激活沉睡参数
λ × ||w||项引入了隐式正则，使η_layer不会无限增大

我们在ViT-L/16（307M参数）上对比：

优化器	单卡batch	所需卡数	总训练时间	最终acc
AdamW	16	128	72h	85.1%
LARS	128	32	48h	85.4%
LAMB	256	16	36h	85.7%

LAMB胜出的关键在于其信任比率（trust ratio）机制。它计算cosine_similarity(Δw, -g)，若小于阈值（默认0.001），则将Δw投影到-g方向：Δw ← (Δw · (-g)/||g||²) × (-g)。这确保了每一步更新都严格朝向损失下降方向，极大减少了无效更新。但代价是计算开销：LAMB比AdamW多23%的GPU时间。因此我们总结出LAMB的适用铁律：仅当batch size ≥ 4096且模型参数量 ≥ 200M时，LAMB的收益才超过其计算成本。低于此阈值，老老实实用AdamW更省心。

4. 实操全流程：从代码实现到性能陷阱排查

4.1 PyTorch标准实现与关键参数注释

以下是我们在生产环境中使用的优化器初始化模板，已通过PEP8和PyTorch 2.0+验证：

import torch import torch.nn as nn from torch.optim import SGD, AdamW, Adam, RMSprop from torch.optim.lr_scheduler import CosineAnnealingLR, LinearLR def get_optimizer(model: nn.Module, optimizer_name: str, lr: float, weight_decay: float, **kwargs) -> torch.optim.Optimizer: """ 工业级优化器工厂函数 :param model: 待优化模型 :param optimizer_name: 'sgd', 'adamw', 'adam', 'rmsprop' :param lr: 基础学习率（global learning rate） :param weight_decay: 权重衰减系数（注意：AdamW中此值直接生效，Adam中需谨慎） :param kwargs: 其他参数，如 'momentum', 'betas', 'eps' """ # 分离BN层参数（BN不参与weight_decay） decay_params = [] no_decay_params = [] for name, param in model.named_parameters(): if "bn" in name or "norm" in name or "bias" in name: no_decay_params.append(param) else: decay_params.append(param) param_groups = [ {'params': decay_params, 'weight_decay': weight_decay}, {'params': no_decay_params, 'weight_decay': 0.0} ] if optimizer_name == "sgd": return SGD( param_groups, lr=lr, momentum=kwargs.get("momentum", 0.9), nesterov=kwargs.get("nesterov", False), weight_decay=0.0 # weight_decay已由param_groups处理 ) elif optimizer_name == "adamw": return AdamW( param_groups, lr=lr, betas=kwargs.get("betas", (0.9, 0.999)), eps=kwargs.get("eps", 1e-8), weight_decay=0.0 # 同上 ) elif optimizer_name == "adam": return Adam( param_groups, lr=lr, betas=kwargs.get("betas", (0.9, 0.999)), eps=kwargs.get("eps", 1e-8), weight_decay=0.0 ) elif optimizer_name == "rmsprop": return RMSprop( param_groups, lr=lr, alpha=kwargs.get("alpha", 0.99), eps=kwargs.get("eps", 1e-8), momentum=kwargs.get("momentum", 0.0), # RMSProp默认无动量 weight_decay=0.0 ) else: raise ValueError(f"Unsupported optimizer: {optimizer_name}") # 使用示例 model = torchvision.models.resnet50(pretrained=True) optimizer = get_optimizer( model=model, optimizer_name="adamw", lr=1e-3, weight_decay=0.05, betas=(0.9, 0.999), eps=1e-6 )

注意：param_groups中显式分离BN/bias参数并设weight_decay=0，这是工业实践的黄金准则。因为BN的gamma和beta、全连接层的bias若施加L2正则，会破坏其统计意义，导致训练不稳定。PyTorch Lightning等高级封装会自动处理这点，但手写训练循环时必须手动实现。

4.2 学习率调度器的协同设计：为什么CosineAnnealing比StepLR更适合现代分类器

学习率调度器不是优化器的附属品，而是其收敛行为的“节拍器”。我们对比了三种主流调度器在ResNet-50/ImageNet上的表现：

调度器	warmup策略	主调度	最终acc	训练稳定性（loss std）
StepLR	5 epoch linear	每30 epoch ×0.1	75.8%	0.042
OneCycleLR	5 epoch linear	1 cycle, pct_start=0.3	76.5%	0.028
CosineAnnealingLR	5 epoch linear	cos(π×t/T)	77.2%	0.019

CosineAnnealing胜出的原因在于其频率特性匹配图像分类的损失曲面。图像分类的损失曲面并非光滑凸函数，而是充满尖锐峡谷（sharp minima）和宽缓盆地（flat minima）。Cosine调度在前期（t/T < 0.5）缓慢下降，允许模型探索宽缓区域；后期（t/T > 0.5）加速下降，帮助模型落入尖锐谷底——这恰好对应“先找大致方向，再精细定位”的认知逻辑。而StepLR的阶梯式下降会在每个step点引发loss震荡，OneCycleLR虽有理论优势，但其pct_start参数对warmup长度极度敏感（±1 epoch误差导致acc波动0.3%）。因此我们推荐：所有图像分类任务默认用CosineAnnealingLR，warmup固定5 epoch，T_total=epochs。代码实现如下：

from torch.optim.lr_scheduler import CosineAnnealingLR, LinearLR from torch.optim.lr_scheduler import SequentialLR # Warmup + Cosine 组合调度器 warmup_scheduler = LinearLR( optimizer, start_factor=1e-3, end_factor=1.0, total_iters=5 ) cosine_scheduler = CosineAnnealingLR( optimizer, T_max=100-5, # 总epoch减去warmup eta_min=1e-6 ) scheduler = SequentialLR( optimizer, schedulers=[warmup_scheduler, cosine_scheduler], milestones=[5] )

4.3 GPU显存与吞吐量的实测数据表

优化器选择直接影响硬件效率，这是很多论文忽略的硬指标。我们在A100 80GB上实测ResNet-50（batch=256）的硬件表现：

优化器	显存峰值(GB)	吞吐量(samples/sec)	梯度更新耗时(ms)	每epoch耗时(min)
SGD	12.3	1850	1.2	3.2
SGD+M	13.1	1780	1.3	3.4
Adam	15.8	1420	1.8	4.3
AdamW	15.8	1420	1.8	4.3
RMSProp	14.2	1560	1.5	3.9

关键发现：

Adam/AdamW显存最高（多存m_t和v_t两个缓冲区），但吞吐量最低——因为GPU需要频繁在权重、动量、二阶矩之间搬运数据，带宽成为瓶颈。
RMSProp显存低于Adam，吞吐量更高，是资源受限场景的优选。
SGD+M比纯SGD显存高0.8GB，但吞吐量降4%，说明动量计算本身有计算开销。
因此，当你的集群显存紧张时，优先降batch_size，其次换RMSProp，最后才考虑降模型大小——因为前者对精度影响最小。

4.4 验证集监控的黄金指标清单

不要只盯着val_acc！以下6个指标能提前3–5个epoch预警问题：

梯度范数比（Gradient Norm Ratio）：||g_t||_layer_i / ||g_t||_layer_j，若某层比值持续>10，说明该层梯度爆炸，需检查初始化或添加梯度裁剪。
BN统计量漂移率（BN Drift Rate）：|running_var_t - running_var_{t-1}| / running_var_{t-1}，若连续5 epoch >0.1，预示BN失效，需降低momentum或换SyncBN。
学习率缩放因子（LR Scale Factor）：对AdamW，计算η_eff = η × m̂_t / √v̂_t，若某层η_eff持续<1e-6，说明该层已饱和，可冻结。
损失曲率（Loss Curvature）：用loss[t] - 2*loss[t-1] + loss[t-2]近似二阶导，若连续为正，说明进入局部极小，应增大学习率。
权重更新幅度比（Update Ratio）：||w_{t+1} - w_t|| / ||w_t||，若<1e-5，说明训练停滞，需重启warmup。
类别混淆熵（Class Confusion Entropy）：在验证集上计算预测概率的类别熵，若熵值持续升高，表明模型信心下降，可能过拟合。

我们开发了一个轻量级回调函数，每epoch自动计算并记录这些指标：

class OptimizerMonitor: def __init__(self, model): self.model = model self.metrics = {} def on_epoch_end(self, epoch, optimizer): # 计算各层梯度范数 grad_norms = [] for name, param in self.model.named_parameters(): if param.grad is not None: grad_norms.append(param.grad.norm().item()) # BN漂移率 bn_drift = 0 bn_count = 0 for module in self.model.modules(): if isinstance(module, nn.BatchNorm2d): if hasattr(module, 'running_var') and module.running_var is not None: drift = torch.abs(module.running_var - module._buffers.get('running_var_prev', module.running_var)).mean().item() bn_drift += drift bn_count += 1 module._buffers['running_var_prev'] = module.running_var.clone() self.metrics[epoch] = { 'grad_norm_mean': np.mean(grad_norms), 'grad_norm_std': np.std(grad_norms), 'bn_drift_rate': bn_drift / max(bn_count, 1), 'lr_scale_min': min([group['lr'] for group in optimizer.param_groups]) }

5. 常见问题与实战排障：那些文档里不会写的血泪教训

5.1 “Adam收敛快但最终精度低”——真相是weight_decay没设对

现象：用Adam训练ResNet-50，在ImageNet上50 epoch就达到76%，但100 epoch后卡在76.2%，而SGD能到77.5%。
根因分析：原始Adam实现中，weight_decay被错误地加在了缩放后的梯度上（见2.3节），导致正则强度随学习率动态变化。当学习率在warmup后从0.1降到0.01时，weight_decay的实际强度也衰减10倍，后期正则失效，模型过拟合。
解决方案：

立即切换到AdamW，并设置weight_decay=0.05（比SGD的1e-4高5倍，以补偿AdamW更温和的正则效应）
若必须用Adam，将weight_decay设为0，改用torch.nn.utils.weight_norm对特定层显式正则
在训练日志中添加weight_decay_effectiveness监控：计算||w_t - w_{t-1}|| / ||w_t||与weight_decay × ||w_t||的比值，若<0.5，说明正则未生效

实操验证：在相同实验条件下，AdamW+wd=0.05将最终acc从76.2%提升至77.4%，与SGD持平。

5.2 “LAMB训练时GPU利用率忽高忽低”——信任比率触发了动态投影

现象：用LAMB训练ViT，nvidia-smi显示GPU利用率在30%–95%间剧烈波动，吞吐量不稳定。
根因分析：LAMB的信任比率（trust ratio）计算涉及向量点积和模长，当cosine_similarity(Δw, -g) < 0.001时，需执行投影运算，该操作在CUDA kernel中是非分支友好型（branch-unfriendly），导致GPU warp divergence，利用率骤降。
解决方案：

将信任比率阈值从默认0.001提高到0.01（trust_coefficient=0.01），减少投影触发频率
改用torch.compile编译模型（PyTorch 2.0+），它能自动优化此类条件分支
监控trust_ratio_violation_count：每epoch统计投影发生次数，若>100次，说明模型处于病态训练状态，应检查数据增强强度或学习率

实操验证：trust_coefficient=0.01后，GPU利用率稳定在85%±5%，吞吐量提升22%。

5.3 “RMSProp在小数据集上震荡严重”——α参数与数据规模的隐性关系

现象：在Stanford Dogs（200类，12k图像）上用RMSProp，验证loss在0.8–1.5间大幅震荡。
根因分析：RMSProp的α控制v_t的衰减速度。α=0.99意味着v_t记忆约100步，但在小数据集上，一个epoch仅30–50步，v_t无法形成稳定统计，导致学习率缩放失真。
解决方案：

将α从0.99降至0.9（衰减时间常数10步），使其匹配小数据集的epoch长度
改用α=0.99但增加v_t的初始值：v_0 = 1e-4（而非默认0），提供更稳定的起始缩放
启用centered=True选项（RMSProp变体），它用E[g²] - E[g]²代替E[g²]，对小样本更鲁棒

实操验证：α=0.9 + centered=True使Stanford Dogs的loss震荡幅度从0.7降到0.15，最终acc提升1.8%。

5.4 “混合精度训练下AdamW梯度溢出”——eps参数的精度陷阱

现象：启用torch.cuda.amp.autocast后，AdamW训练在第3 epoch崩溃，报错RuntimeError: expected scalar type Half but found Float。
根因分析：混合精度中，权重和梯度为float16，但AdamW的eps=1e-8是float32，√v̂_t + eps运算时发生类型不匹配。更危险的是，v̂_t在float16下极易下溢为0，√0 + eps仍为eps，导致学习率被错误抬高。
解决方案：