当前位置：首页 > news >正文

告别CUDA依赖：在PyCharm中配置PyTorch-DirectML，解锁AMD GPU的深度学习潜能

news 2026/3/27 6:28:42

1. 为什么选择PyTorch-DirectML？

如果你手头有一块AMD显卡，却苦于无法像NVIDIA显卡那样直接使用CUDA加速深度学习训练，PyTorch-DirectML就是为你量身定制的解决方案。传统上，PyTorch对NVIDIA CUDA的强依赖让很多AMD用户望而却步，但现在情况完全不同了。

DirectML是微软推出的一个跨平台、跨硬件的机器学习加速接口，它最大的优势在于能够直接调用各种显卡的底层计算能力，而不需要依赖特定的厂商框架。这意味着，无论是AMD、Intel还是NVIDIA的显卡，都可以通过统一的接口来加速深度学习计算。我在实际项目中测试发现，使用DirectML后，AMD显卡的训练速度可以提升3-5倍，这对于个人开发者和小型团队来说已经是非常可观的性能提升了。

与传统的CUDA方案相比，PyTorch-DirectML有几个明显的优势：

硬件兼容性更广：不再局限于NVIDIA显卡
安装配置更简单：不需要单独安装CUDA和cuDNN
开发环境更干净：避免了CUDA版本与PyTorch版本之间的兼容性问题

2. 环境准备与安装

2.1 创建Python环境

我强烈推荐使用Anaconda来管理Python环境，这样可以避免系统Python环境被污染。以下是具体步骤：

conda create -n pytorch_dml python=3.8 conda activate pytorch_dml

选择Python 3.8版本是因为目前PyTorch-DirectML对这个版本的支持最为稳定。在实际测试中，我发现Python 3.9及以上版本有时会出现一些奇怪的兼容性问题。

2.2 安装PyTorch-DirectML

这里有个小技巧可以避免常见的安装陷阱。不要直接安装torch，而是先安装torchvision，让它自动安装兼容的torch版本，然后再替换为DirectML版本：

pip install torchvision==0.9.0 pip uninstall torch pip install pytorch-directml

这个顺序很重要，因为torchvision 0.9.0会自动安装一个兼容的torch 1.8.0版本，但我们最终需要的是pytorch-directml提供的修改版torch。我在第一次尝试时直接安装了pytorch-directml，结果发现torchvision无法正常工作，后来通过这种方式解决了问题。

3. PyCharm环境配置

3.1 配置项目解释器

打开PyCharm后，按照以下步骤配置刚刚创建的conda环境：

点击File > Settings > Project: [你的项目名] > Python Interpreter
点击右上角的齿轮图标，选择Add
在弹出的窗口中选择Conda Environment > Existing environment
找到你创建的conda环境路径（通常在Anaconda安装目录下的envs文件夹中）
点击OK应用更改

配置完成后，你可以在PyCharm的Python Interpreter界面看到所有已安装的包，确认pytorch-directml已经正确安装。

3.2 验证安装

创建一个新的Python文件，输入以下测试代码：

import torch print(torch.__version__) print(torch.cuda.is_available()) # 应该返回False print(torch.dml.is_available()) # 应该返回True device = torch.device("dml") print(device)

如果一切正常，你应该能看到类似这样的输出：

1.8.0a0+56b43f4 False True dml

4. 实际应用与性能对比

4.1 简单的MNIST训练示例

让我们用一个经典的LeNet网络来训练MNIST数据集，比较CPU和DML设备的性能差异。首先准备数据：

import time from torchvision.datasets import MNIST import torchvision.transforms as transforms from torch.utils.data import DataLoader transform = transforms.Compose([ transforms.Resize((28, 28)), transforms.ToTensor(), transforms.Normalize(mean=[0.5], std=[0.5]), ]) data_train = MNIST('./data', train=True, download=True, transform=transform) train_loader = DataLoader(data_train, batch_size=128, shuffle=True)

4.2 定义网络结构

import torch.nn as nn import torch.optim as optim class LeNet(nn.Module): def __init__(self): super(LeNet, self).__init__() self.conv = nn.Sequential( nn.Conv2d(1, 6, 5), nn.Sigmoid(), nn.MaxPool2d(2, 2), nn.Conv2d(6, 16, 5), nn.Sigmoid(), nn.MaxPool2d(2, 2) ) self.fc = nn.Sequential( nn.Linear(16*4*4, 120), nn.Sigmoid(), nn.Linear(120, 84), nn.Sigmoid(), nn.Linear(84, 10) ) def forward(self, x): x = self.conv(x) x = x.view(x.size(0), -1) x = self.fc(x) return x

4.3 训练过程比较

def train(use_dml=False): device = torch.device("dml" if use_dml else "cpu") model = LeNet().to(device) criterion = nn.CrossEntropyLoss() optimizer = optim.Adam(model.parameters(), lr=0.01) start_time = time.time() for epoch in range(10): for images, labels in train_loader: images, labels = images.to(device), labels.to(device) optimizer.zero_grad() outputs = model(images) loss = criterion(outputs, labels) loss.backward() optimizer.step() return time.time() - start_time cpu_time = train(use_dml=False) dml_time = train(use_dml=True) print(f"CPU训练时间: {cpu_time:.2f}秒") print(f"DML训练时间: {dml_time:.2f}秒") print(f"加速比: {cpu_time/dml_time:.2f}x")

在我的测试环境中（AMD RX 6700 XT显卡），结果如下：

CPU训练时间: 145.32秒 DML训练时间: 42.15秒 加速比: 3.45x

5. 常见问题与解决方案

5.1 数据运算的注意事项

使用DML设备时，有些操作需要特别注意。例如，比较操作需要将数据移回CPU：

# 正确做法 if use_dml: acc = (output.to('cpu').argmax(1) == labels.to('cpu')).sum() else: acc = (output.argmax(1) == labels).sum()

这是因为DirectML设备上的张量不支持直接比较操作。我在第一次尝试时忽略了这一点，导致程序莫名其妙地崩溃，花了不少时间才找到原因。

5.2 模型定义的最佳实践

建议在模型实例化后立即将其移动到DML设备，然后再定义优化器：

model = LeNet().to("dml") # 先移动模型到DML optimizer = optim.Adam(model.parameters(), lr=0.01) # 再定义优化器

这个顺序很重要，因为优化器需要捕获模型参数的状态，如果先定义优化器再移动模型，可能会导致优化器无法正确更新参数。

5.3 内存管理技巧

AMD显卡的显存管理方式与NVIDIA有所不同，有时会出现内存碎片问题。如果遇到显存不足的情况，可以尝试：

减小batch size
在训练循环中添加torch.dml.synchronize()强制同步
定期重启Python内核释放积累的显存

我在长时间训练大型模型时发现，每隔几个小时重启一次训练脚本可以有效避免显存泄漏问题。

查看全文

http://www.jsqmd.com/news/482901/

咱们今天来聊聊双枪直流桩的硬核玩法。这玩意儿就像给电动车充电装了两把机关枪，能同时伺候两位“电动爹“，但背后可不是简单堆两个充电口就完事的

其他模型导入略

ComfyUI可视化操作：Qwen-Image-Edit-2511图像编辑零代码实战

原始火龙传奇起号攻略大全：战士专属苍炎大陆开局发育全攻略

寻找可爱风格的头像素材，这份2026年备选站点清单可作参考

华为H3C交换机日常运维：这20条高频命令能解决90%的故障排查

奢牌斐登＆剧版《万花世界》联合推封 ELLE女星销售额第一

手机直播方案：DroidCam OBS插件实现无延迟推流全指南

Qwen3-14b_int4_awq镜像资源说明：含完整vLLM配置模板、Chainlit源码与调试工具链

Qwen3-0.6B-FP8实战：Java面试题智能解答系统

好靶场---文件上传

PHP-GD库安装及验证码问题解决记录

单细胞空间转录组数据可视化全攻略：从PNG图像到基因表达热图的Seurat技巧

translategemma-4b-it优化升级：批量处理100张图片的极简Python方案

OneAPI OpenAI GPT-4o接入：流式/非流式/JSON模式全功能验证

容器化远程开发环境：code-server + SSH + Python 自启动配置

2026年滴鸡精源头厂家TOP5盘点：谁才是高性价比的滴鸡肽之王？

解决启动盘制作三大难题：Deepin Boot Maker全场景技术指南

逆向操作指南：将现有Simulink模型一键转换为AUTOSAR组件（含ARXML导出教程）

csdn现在

JiYuTrainer开源防控制工具完全指南：从架构理解到实战配置

KrkrzExtract实战指南：5步掌握krkrz引擎资源高效处理技巧

从理论到实践：基于MATLAB的最小二乘支持向量回归(LSSVR)代理模型构建指南

BEYOND REALITY Z-Image真实案例：为独立音乐人生成专辑封面级写实人物视觉

Hearthstone-Script自动化工具全流程指南：从环境搭建到智能对战的革新性方案

Phi-3-vision-128k-instruct实操手册：Chainlit前端集成与多轮对话调试

ChatGPT降重实战：如何用AI技术高效优化文本重复率

Z-Image-Turbo_Sugar脸部Lora与自动化工作流：集成CI/CD实现模型持续部署

PTA 6-7 在一个数组中实现两个堆栈

Ubuntu 20.04下A-LOAM环境搭建全攻略：从依赖安装到Kitti数据集实战