当前位置：首页 > news >正文

PyTorch训练避坑实录：在AMD平台（DirectML）上跑代码，为什么我的优化器不工作了？

news 2026/6/14 20:24:32

PyTorch在AMD DirectML平台的优化器陷阱：原理剖析与实战解决方案

当开发者第一次将PyTorch代码从NVIDIA CUDA平台迁移到AMD DirectML环境时，往往会遇到一个令人困惑的现象：明明已经正确地将.cuda()替换为.to(dml)，模型训练却陷入停滞——损失函数不再下降，优化过程完全失效。这个看似简单的兼容性问题背后，隐藏着DirectML与CUDA在计算图管理和梯度更新机制上的根本差异。

1. 问题现象：为什么优化器在DirectML上失效？

在标准的PyTorch CUDA训练流程中，我们通常会这样编写训练循环：

# CUDA环境的标准写法 optimizer = torch.optim.SGD(model.parameters(), lr=0.01) for epoch in range(epochs): optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, targets) loss.backward() optimizer.step()

但当这段代码迁移到DirectML环境后，开发者会发现loss值几乎不发生变化。通过对比实验可以观察到以下现象：

行为指标	CUDA环境	DirectML环境（错误写法）
Loss下降趋势	正常收敛	几乎不变
梯度值	正常更新	接近于零
显存占用	稳定	稳定
计算速度	正常	正常

问题的关键就在于原始代码中的那条注释："对于使用AMD显卡做DML的要把optimizer放在循环内"。这不仅仅是一个性能优化建议，而是DirectML工作机制下的必要调整。

2. 原理深度解析：DirectML与CUDA的梯度管理差异

2.1 CUDA的计算图持久化机制

在CUDA后端，PyTorch会维护一个持久化的计算图，这个计算图在多次前向-反向传播过程中保持稳定。优化器通过持有参数的引用，能够在多个训练步骤中持续跟踪和更新这些参数。具体来说：

前向传播构建计算图
反向传播计算梯度
优化器保存参数状态（如动量）
参数更新基于持久化的计算图

2.2 DirectML的即时计算图策略

DirectML采用了不同的设计哲学，每次前向传播都会创建一个新的计算图。这种设计带来了两个重要影响：

计算图不持久化：每次迭代后计算图会被释放
优化器状态丢失：优化器内部状态（如动量缓冲区）与计算图绑定

当优化器定义在循环外部时，DirectML环境下会出现以下问题链：

新计算图创建 → 前向传播 → 反向传播 → 优化器尝试更新 → 状态引用失效 → 更新失败

2.3 关键差异对比

特性	CUDA	DirectML
计算图生命周期	跨多个训练步骤	单次迭代有效
优化器状态存储	持久化	需要重新初始化
内存管理策略	静态分配	动态释放
适合的场景	大规模持续训练	迭代间独立性强的任务

3. 正确实践：DirectML适配的完整训练模板

基于上述理解，我们给出一个经过验证的DirectML适配方案：

import torch import torch_directml # 初始化设备 dml = torch_directml.device() # 模型定义 model = YourModel().to(dml) criterion = nn.MSELoss() for epoch in range(epochs): # 关键：在循环内初始化优化器 optimizer = torch.optim.Adam(model.parameters(), lr=0.001) # 训练步骤 optimizer.zero_grad() outputs = model(inputs.to(dml)) loss = criterion(outputs, targets.to(dml)) loss.backward() optimizer.step() # 可选的验证步骤 with torch.no_grad(): val_outputs = model(val_inputs.to(dml)) val_loss = criterion(val_outputs, val_targets.to(dml))

3.1 性能优化技巧

虽然每次迭代都创建新优化器看起来有开销，但实际上：

实际开销很小：优化器初始化主要是创建一些缓冲区
内存更高效：与DirectML的计算图释放策略匹配
可采用的优化手段：
- 使用lr_scheduler时，将学习率调整也放在循环内
- 对于大模型，可以复用优化器实例但需要手动重置状态

# 优化器复用的高级用法 optimizer = None for epoch in range(epochs): if optimizer is None: optimizer = torch.optim.Adam(model.parameters(), lr=0.001) else: # 手动重置优化器状态 for param_group in optimizer.param_groups: for param in param_group['params']: optimizer.state[param] = {}

4. 深入DirectML：其他你可能遇到的兼容性问题

除了优化器问题，DirectML平台还有几个需要注意的特性差异：

4.1 操作支持差异

并非所有PyTorch操作都在DirectML上有优化实现。常见限制包括：

某些高级索引操作可能回退到CPU
自定义autograd Function需要额外测试
分布式训练支持有限

4.2 性能调优建议

批量大小选择：
- DirectML可能对特定批量大小更友好
- 建议尝试16的倍数（64, 128等）

数据类型选择：

# 显式指定数据类型往往能获得更好性能 tensor = tensor.to(dml).float() # 优先使用float32

内存管理：
- 定期手动清空缓存：
```
torch_directml.empty_cache()
```

4.3 调试技巧

当遇到问题时，可以：

检查操作是否真的运行在DirectML设备上：
```
print(tensor.device) # 应该显示'dml:0'
```

对比CPU结果验证正确性：

cpu_result = model(inputs.cpu()) dml_result = model(inputs.to(dml)).cpu() torch.testing.assert_close(cpu_result, dml_result)

启用详细日志：

torch.backends.directml.set_debug_mode(True)

5. 实际案例：图像分类任务的完整迁移

让我们看一个ResNet迁移的实际例子。原始CUDA代码：

model = resnet18().cuda() optimizer = torch.optim.SGD(model.parameters(), lr=0.1) for epoch in range(100): for inputs, targets in train_loader: inputs, targets = inputs.cuda(), targets.cuda() optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, targets) loss.backward() optimizer.step()

DirectML适配版本：

model = resnet18().to(dml) for epoch in range(100): # 优化器在epoch循环内 optimizer = torch.optim.SGD(model.parameters(), lr=0.1) for inputs, targets in train_loader: inputs, targets = inputs.to(dml), targets.to(dml) optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, targets) loss.backward() optimizer.step() # 学习率调整也在循环内 lr_scheduler.step()