当前位置：首页 > news >正文

保姆级教程：用MMAction2训练你的第一个自定义动作识别模型（从数据集准备到模型训练）

news 2026/4/30 13:55:07

从零开始构建自定义动作识别模型：MMAction2实战指南

动作识别技术正在重塑多个行业的交互方式——从健身应用的实时动作纠正到工业质检中的异常行为检测。作为OpenMMLab生态中的重要成员，MMAction2以其模块化设计和丰富的预训练模型，成为开发者进入这一领域的高效入口。本文将带你完整走通自定义数据训练的全流程，涵盖从原始视频处理到模型调优的每个技术细节。

1. 环境配置与数据准备

1.1 开发环境搭建

推荐使用conda创建隔离的Python环境（3.7+版本），这是避免依赖冲突的最佳实践：

conda create -n mmaction python=3.8 -y conda activate mmaction pip install torch torchvision torchaudio pip install openmim mim install mmengine mmcv git clone https://github.com/open-mmlab/mmaction2.git cd mmaction2 pip install -v -e .

关键组件说明：

PyTorch：基础深度学习框架
MMCV：计算机视觉基础库
MMEngine：训练流程管理
OpenMPI（可选）：多节点训练支持

1.2 数据集结构设计

规范的目录结构是后续流程的基础，建议采用如下组织形式：

mmaction2 └── data └── custom_dataset ├── videos │ ├── class1 │ │ ├── video1.mp4 │ │ └── video2.mp4 │ └── class2 │ ├── video1.mp4 │ └── video2.mp4 ├── rawframes └── annotations ├── classInd.txt ├── trainlist.txt └── testlist.txt

标签文件规范：

classInd.txt：类别索引映射
```
1 jumping_jacks 2 squats
```
trainlist.txt：训练样本路径与标签
```
class1/video1.mp4 1 class2/video1.mp4 2
```

2. 视频数据处理流水线

2.1 视频帧提取实战

MMAction2提供多种帧提取方式，OpenCV方案兼顾效率与兼容性：

python tools/data/build_rawframes.py \ data/custom_dataset/videos/ \ data/custom_dataset/rawframes/ \ --task rgb \ --level 2 \ --ext mp4 \ --use-opencv \ --new-width 340 \ --new-height 256

参数解析：

--level 2：保留二级目录结构
--new-width/height：统一帧尺寸
--num-worker：多进程加速（建议设为CPU核心数）

常见问题排查：

若遇到"Could not open codec"错误，尝试：
检查ffmpeg安装：ffmpeg -version
转换视频编码：ffmpeg -i input.mp4 -c:v libx264 output.mp4

2.2 数据集清单生成

自定义数据集需要适配MMAction2的数据加载逻辑。修改tools/data/build_file_list.py：

# 注册新数据集类型 DATASET_CONFIGS = { 'custom': { 'ann_file': 'data/custom_dataset/annotations/trainlist.txt', 'data_prefix': 'data/custom_dataset/rawframes', 'filename_tmpl': 'img_{:05d}.jpg', 'with_offset': False } } # 添加解析逻辑 def parse_custom_splits(): video_items = [] with open(ann_file) as fin: for line in fin: filename, label = line.strip().split() video_items.append( dict(filename=filename, label=int(label))) return video_items

执行生成命令：

python tools/data/build_file_list.py custom \ data/custom_dataset/annotations/ \ --format rawframes \ --out-root data/custom_dataset/ \ --shuffle

3. 模型训练与调优

3.1 配置文件深度定制

以TSM模型为例，关键配置项需要针对性调整：

# configs/recognition/tsm/custom_config.py # 数据集配置 dataset_type = 'RawframeDataset' data_root = 'data/custom_dataset/rawframes/' ann_file_train = 'data/custom_dataset/custom_train_list.txt' # 训练参数优化 train_cfg = dict( type='EpochBasedTrainLoop', max_epochs=100, # 小数据集需更多epoch val_begin=5, # 前5个epoch不验证 val_interval=2) # 每2个epoch验证一次 # 学习率策略调整 param_scheduler = [ dict( type='LinearLR', start_factor=0.1, by_epoch=True, begin=0, end=5), dict( type='MultiStepLR', milestones=[30, 60, 90], # 调整衰减点 gamma=0.1) ]

3.2 分布式训练启动

4卡GPU训练启动命令：

CUDA_VISIBLE_DEVICES=0,1,2,3 \ bash tools/dist_train.sh \ configs/recognition/tsm/custom_config.py \ 4 \ --cfg-options \ model.backbone.pretrained='https://download.pytorch.org/models/resnet50-0676ba61.pth' \ data.videos_per_gpu=16 # 根据显存调整

性能优化技巧：

使用--amp开启混合精度训练
设置data.workers_per_gpu=4加速数据加载
添加--validate参数启用定期验证

3.3 训练监控与可视化

MMAction2集成多种监控工具：

日志解析：

python tools/analysis_tools/analyze_logs.py \ plot_curve work_dirs/exp1/20230601_123456.log.json \ --keys acc_top1 \ --out acc_curve.png

结果可视化：

from mmaction.apis import inference_recognizer, init_recognizer model = init_recognizer('configs/recognition/tsm/custom_config.py', 'latest.pth') results = inference_recognizer(model, 'demo.mp4') print(results.pred_score)

4. 模型部署与性能优化

4.1 模型导出与压缩

将训练好的模型转换为部署格式：

python tools/deployment/pytorch2onnx.py \ configs/recognition/tsm/custom_config.py \ checkpoints/epoch_100.pth \ --shape 1 8 3 224 224 \ --verify \ --dynamic-export

模型压缩方案对比：

方法	压缩率	精度损失	硬件支持
量化 (INT8)	4x	<2%	TensorRT, OpenVINO
知识蒸馏	-	1-3%	所有平台
通道剪枝	2-4x	3-5%	需要重新训练

4.2 实时推理优化

针对边缘设备的优化策略：

# 使用TensorRT加速 from mmdeploy.apis import create_calib_input_data calib_data = create_calib_input_data( 'configs/recognition/tsm/custom_config.py', 'data/custom_dataset/', img_shape=(224, 224)) !python tools/deployment/tensorrt.py \ configs/recognition/tsm/custom_config.py \ checkpoints/epoch_100.pth \ --calib-file calib_data.pkl \ --enable-fp16

延迟测试结果（NVIDIA Jetson Xavier）：