当前位置：首页 > news >正文

别再只用CUDA_VISIBLE_DEVICES了！MMDetection 3.x多GPU训练的正确姿势（附torchrun迁移指南）

news 2026/4/28 3:25:07

MMDetection 3.x多GPU训练实战：从误区到高效配置

如果你正在使用MMDetection 3.x进行目标检测任务，可能会发现以前在2.x版本中习以为常的多GPU训练方式突然失效了。那种简单设置CUDA_VISIBLE_DEVICES就能让所有GPU运转的日子已经一去不复返。本文将带你深入理解MMDetection 3.x的多GPU训练机制，避开常见陷阱，并掌握最新的torchrun迁移方法。

1. 为什么你的多GPU训练不工作了？

许多从MMDetection 2.x升级到3.x的用户都会遇到一个令人困惑的现象：明明通过CUDA_VISIBLE_DEVICES=0,1,2,3指定了多块GPU，但实际运行时只有第一块GPU在工作。这不是bug，而是框架设计理念的转变。

在MMDetection 2.x时代，框架内部封装了许多分布式训练的细节，提供了--gpus和--gpu-ids这样的便捷参数。但在3.x版本中，开发团队决定将这些控制权交还给PyTorch原生的分布式训练机制，让用户能够更灵活地配置训练过程。

关键区别：

MMDetection 2.x：框架自动处理多GPU分配
MMDetection 3.x：需要显式使用PyTorch分布式训练工具

# MMDetection 2.x的多GPU训练方式（已过时） python tools/train.py configs/yolox/yolox_s_8xb8-300e_coco.py --gpus 4

2. 理解dist_train.sh的工作原理

虽然直接使用CUDA_VISIBLE_DEVICES不再有效，但MMDetection 3.x仍然保留了tools/dist_train.sh脚本来简化多GPU训练。让我们拆解这个脚本的核心逻辑：

#!/usr/bin/env bash CONFIG=$1 GPUS=$2 PYTHONPATH="$(dirname $0)/..":$PYTHONPATH \ python -m torch.distributed.launch \ --nproc_per_node=$GPUS \ $(dirname "$0")/train.py \ $CONFIG \ --launcher pytorch ${@:3}

这个脚本实际上做了三件事：

设置Python路径确保能正确导入MMDetection模块
使用torch.distributed.launch启动分布式训练
将GPU数量和其他参数传递给训练脚本

典型用法：

CUDA_VISIBLE_DEVICES=0,1,2,3 ./tools/dist_train.sh configs/yolox/yolox_s_8xb8-300e_coco.py 4

3. 从torch.distributed.launch迁移到torchrun

PyTorch官方已经宣布torch.distributed.launch将被弃用，推荐使用更现代的torchrun命令。下面是迁移指南：

参数/特性	torch.distributed.launch	torchrun
启动方式	python -m torch.distributed.launch	直接使用torchrun
GPU指定	需要CUDA_VISIBLE_DEVICES	内置支持
自动重启	不支持	支持训练中断后恢复
参数传递	需要--nproc_per_node等显式参数	更简洁的语法

迁移示例：

# 旧方式（将被弃用） CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node=4 tools/train.py config.py --launcher pytorch # 新方式（推荐） torchrun --nproc_per_node=4 --nnodes=1 --node_rank=0 --master_addr=127.0.0.1 --master_port=29500 tools/train.py config.py --launcher pytorch

关键参数说明：

--nproc_per_node：每个节点使用的GPU数量
--nnodes：总节点数（单机为1）
--node_rank：当前节点序号（主节点为0）
--master_addr和--master_port：分布式训练的主节点地址和端口

4. 多机多卡训练配置

对于需要跨多台机器进行大规模训练的场景，MMDetection 3.x同样支持。假设你有2台机器，每台8块GPU：

主节点（机器1）：

torchrun --nnodes=2 --node_rank=0 --master_addr="机器1IP" --master_port=29500 --nproc_per_node=8 tools/train.py config.py --launcher pytorch

从节点（机器2）：

torchrun --nnodes=2 --node_rank=1 --master_addr="机器1IP" --master_port=29500 --nproc_per_node=8 tools/train.py config.py --launcher pytorch

SLURM集群配置：如果你在使用SLURM管理的HPC集群，可以这样配置：

srun -p mm_dev --job-name=mmdet_train --gres=gpu:8 --ntasks=16 --ntasks-per-node=8 --cpus-per-task=5 python tools/train.py config.py --launcher="slurm"

5. 验证与调试技巧

确保你的多GPU训练真正生效，可以尝试以下方法：

nvidia-smi监控：在另一个终端运行：
```
watch -n 1 nvidia-smi
```
应该看到所有指定GPU的显存和计算利用率都有变化。

日志检查：训练开始时，日志中应该显示类似信息：

***************************************** Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. *****************************************

性能对比：记录单GPU和多GPU训练每个epoch的时间，理想情况下，4GPU应该有3-3.5倍的加速。

常见问题排查：

如果只有一块GPU工作，检查是否遗漏--launcher pytorch参数
遇到端口冲突，尝试更改--master_port（29500-29599）
NCCL错误可以尝试设置NCCL_DEBUG=INFO环境变量获取更多信息

6. 高级配置与优化

掌握了基本的多GPU训练后，还可以进一步优化：

梯度累积：当GPU显存不足时，可以使用梯度累积模拟更大的batch size：

# 在config文件中添加 optim_wrapper = dict( type='OptimWrapper', optimizer=dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0001), clip_grad=None, accumulative_counts=4 # 每4个step更新一次权重 )

混合精度训练：启用FP16训练可以显著减少显存占用并提高速度：

# 在config文件中添加 fp16 = dict(loss_scale=512.)

自定义分布式策略：通过修改dist_params可以调整分布式训练参数：

# 在config文件中添加 env_cfg = dict( cudnn_benchmark=False, mp_cfg=dict(mp_start_method='fork', opencv_num_threads=0), dist_cfg=dict(backend='nccl', timeout=1800) )

在实际项目中，我发现合理配置这些参数可以使8GPU训练的效率提升40%以上，特别是对于大模型如Cascade R-CNN或Swin Transformer。

查看全文

http://www.jsqmd.com/news/711813/