当前位置：首页 > news >正文

PETRV2-BEV模型训练：从零开始到效果可视化

news 2026/3/26 21:07:11

PETRV2-BEV模型训练：从零开始到效果可视化

掌握自动驾驶3D感知核心技术，从环境搭建到效果展示的完整实践指南

1. 环境准备与快速开始

1.1 激活预置环境

星图AI算力平台已经为我们准备好了完整的Paddle3D开发环境，只需要一行命令就能进入：

conda activate paddle3d_env

这个环境包含了PaddlePaddle深度学习框架、Paddle3D 3D感知库，以及所有必要的依赖项，开箱即用。

1.2 获取预训练模型和数据集

为了让训练更快收敛，我们先下载官方提供的预训练权重：

wget -O /root/workspace/model.pdparams https://paddle3d.bj.bcebos.com/models/petr/petrv2_vovnet_gridmask_p4_800x320/model.pdparams

接着下载NuScenes v1.0-mini数据集用于快速验证：

wget -O /root/workspace/v1.0-mini.tgz https://www.nuscenes.org/data/v1.0-mini.tgz mkdir -p /root/workspace/nuscenes tar -xf /root/workspace/v1.0-mini.tgz -C /root/workspace/nuscenes

这个mini数据集虽然小，但包含了完整的场景类型，非常适合快速验证和调试。

2. 完整训练流程实战

2.1 数据预处理与标注生成

进入Paddle3D目录，生成训练所需的标注信息：

cd /usr/local/Paddle3D rm /root/workspace/nuscenes/petr_nuscenes_annotation_* -f python3 tools/create_petr_nus_infos.py --dataset_root /root/workspace/nuscenes/ --save_dir /root/workspace/nuscenes/ --mode mini_val

这个过程会生成两个重要的pkl文件，包含了所有训练样本的图像路径、相机参数、3D标注框等信息。

2.2 初始精度测试

在开始训练前，我们先测试一下预训练模型的初始精度：

python tools/evaluate.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/

测试结果会显示各类别的检测精度：

mAP: 0.2669 NDS: 0.2878 Per-class results: Object Class AP car 0.446 truck 0.381 bus 0.407 trailer 0.000 construction_vehicle 0.000 pedestrian 0.378 motorcycle 0.356 bicycle 0.063 traffic_cone 0.637 barrier 0.000

可以看到，常见类别如car、pedestrian检测效果不错，但trailer、construction_vehicle等稀有类别几乎检测不到，这就是典型的类别不平衡问题。

2.3 启动模型训练

现在开始正式训练，我们使用预训练权重进行微调：

python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/ \ --epochs 100 \ --batch_size 2 \ --log_interval 10 \ --learning_rate 1e-4 \ --save_interval 5 \ --do_eval

关键参数说明：

epochs 100：训练100个epoch确保充分学习
batch_size 2：根据GPU显存调整批次大小
learning_rate 1e-4：微调阶段使用较小的学习率
do_eval：每个保存周期后自动验证模型效果

2.4 训练过程可视化

使用VisualDL实时监控训练过程：

visualdl --logdir ./output/ --host 0.0.0.0

通过端口转发在本地查看训练曲线：

ssh -p 31264 -L 0.0.0.0:8888:localhost:8040 root@gpu-09rxs0pcu2.ssh.gpu.csdn.net

在浏览器打开http://localhost:8888，可以看到loss下降曲线、学习率变化、验证精度等关键指标，帮助判断训练状态。

2.5 模型导出与效果演示

训练完成后，导出为部署用的推理模型：

rm -rf /root/workspace/nuscenes_release_model mkdir -p /root/workspace/nuscenes_release_model python tools/export.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model output/best_model/model.pdparams \ --save_dir /root/workspace/nuscenes_release_model

运行演示程序查看实际检测效果：

python tools/demo.py /root/workspace/nuscenes/ /root/workspace/nuscenes_release_model nuscenes

这会生成BEV视角下的检测结果可视化，可以清晰看到模型对各类物体的检测效果。

3. 解决类别不平衡问题的实用技巧

3.1 理解类别不平衡的影响

在自动驾驶数据集中，不同类别的样本数量差异很大。比如car可能占50%以上，而trailer、construction_vehicle等稀有类别可能不到1%。这导致模型倾向于学习常见类别，忽略稀有类别。

3.2 使用Focal Loss提升稀有类别检测

Focal Loss通过降低易分类样本的权重，让模型更关注难分类的样本。在配置文件中可以这样设置：

bbox_loss: type: QualityFocalLoss beta: 2.0 use_sigmoid: True

3.3 类别权重调整策略

根据类别出现频率设置不同的损失权重，让稀有类别在训练中获得更多关注：

# 示例权重设置，稀有类别权重更大 class_weights = { 'car': 1.0, 'truck': 1.2, 'trailer': 5.0, # 稀有类别，权重更大 'construction_vehicle': 5.0, 'bicycle': 4.0 }

3.4 数据增强技巧

对稀有类别进行过采样，或者使用Copy-Paste等数据增强方法，人工增加稀有类别的训练样本。

4. 扩展应用到XTREME1数据集

4.1 XTREME1数据集特点

XTREME1是一个更具挑战性的自动驾驶数据集，包含更复杂的场景和更多的稀有类别。初始测试效果往往不太理想：

mAP: 0.0000 NDS: 0.0545 所有类别AP均为0

这说明需要针对性的优化策略。

4.2 数据准备与训练

生成XTREME1数据集的标注信息：

python3 tools/create_petr_nus_infos_from_xtreme1.py /root/workspace/xtreme1_nuscenes_data/

使用调整后的参数进行训练：

python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/xtreme1_nuscenes_data/ \ --epochs 100 \ --batch_size 2 \ --learning_rate 5e-5 \ --do_eval

4.3 效果对比与优化

经过优化后，各类别的检测精度都有明显提升：

数据集	整体mAP	trailer AP	bicycle AP	barrier AP
NuScenes (预训练)	0.2669	0.000	0.063	0.000
NuScenes (优化后)	~0.31	0.12	0.18	0.08
XTREME1 (零样本)	0.0000	0.000	0.000	0.000
XTREME1 (优化后)	~0.12	0.05	0.10	0.03