当前位置：首页 > news >正文

新手友好：PETRV2-BEV模型训练入门与实践

news 2026/4/5 2:35:23

新手友好：PETRV2-BEV模型训练入门与实践

1. 从零开始了解PETRV2-BEV模型

如果你对自动驾驶技术感兴趣，一定听说过BEV（鸟瞰图）感知这个概念。简单来说，BEV就是让汽车像鸟一样从空中看路况，把周围环境变成一个俯视图，这样更容易判断车辆、行人、障碍物的位置和距离。

PETRV2是当前比较先进的BEV模型之一，它能够处理多个摄像头拍摄的画面，然后把它们融合成一个完整的俯视图。这个模型特别适合用在复杂的城市道路环境中，可以准确识别各种交通参与者。

今天我们要学习的就是如何在星图AI算力平台上训练这个模型。不用担心，即使你是新手，跟着步骤一步步来，也能顺利完成整个训练过程。

2. 环境准备与快速开始

2.1 进入训练环境

首先，我们需要进入已经配置好的训练环境。这个环境就像是一个专门的工作间，里面所有需要的工具都已经准备好了：

conda activate paddle3d_env

执行这个命令后，你就进入了Paddle3D的专用环境。这个环境已经安装好了所有必要的软件和库，包括PaddlePaddle深度学习框架和Paddle3D工具包。

2.2 准备模型权重和数据

接下来我们要下载两个重要的东西：预训练模型和训练数据。

预训练模型就像是已经学过很多知识的学生，我们在这个基础上继续训练，效果会更好也更快：

wget -O /root/workspace/model.pdparams https://paddle3d.bj.bcebos.com/models/petr/petrv2_vovnet_gridmask_p4_800x320/model.pdparams

然后下载训练用的数据集，这里我们先用一个小型的数据集来练手：

wget -O /root/workspace/v1.0-mini.tgz https://www.nuscenes.org/data/v1.0-mini.tgz mkdir -p /root/workspace/nuscenes tar -xf /root/workspace/v1.0-mini.tgz -C /root/workspace/nuscenes

这个小数据集包含了城市道路的各种场景，有车辆、行人、交通标志等，足够我们进行初步的训练和测试。

3. 开始训练模型

3.1 准备训练数据

在开始训练之前，我们需要先处理一下数据：

cd /usr/local/Paddle3D rm /root/workspace/nuscenes/petr_nuscenes_annotation_* -f python3 tools/create_petr_nus_infos.py --dataset_root /root/workspace/nuscenes/ --save_dir /root/workspace/nuscenes/ --mode mini_val

这个过程就像是把原材料加工成可以直接使用的半成品，模型训练时直接读取这些处理好的数据就行了。

3.2 测试模型效果

在正式训练之前，我们先看看预训练模型的效果怎么样：

python tools/evaluate.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/

你会看到类似这样的结果：

mAP: 0.2669 NDS: 0.2878 Per-class results: Object Class AP car 0.446 truck 0.381 bus 0.407 pedestrian 0.378

这些数字表示模型识别不同物体的准确率。比如car的0.446表示识别汽车的准确率是44.6%，对于没有训练过的模型来说，这个效果还算不错。

3.3 开始训练模型

现在开始正式训练：

python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/ \ --epochs 100 \ --batch_size 2 \ --log_interval 10 \ --learning_rate 1e-4 \ --save_interval 5 \ --do_eval

这里有几个重要的参数需要了解：

epochs 100：整个数据集要训练100遍
batch_size 2：每次训练用2张图片（这个数字取决于你的显卡内存大小）
learning_rate 1e-4：学习速度，就像读书时每次学多少内容
save_interval 5：每训练5遍保存一次模型

3.4 查看训练过程

训练过程中，我们可以实时查看训练效果：

visualdl --logdir ./output/ --host 0.0.0.0

然后在本地电脑上设置端口转发：

ssh -p 31264 -L 0.0.0.0:8888:localhost:8040 root@gpu-09rxs0pcu2.ssh.gpu.csdn.net

在浏览器打开http://localhost:8888，你就能看到训练过程中的各种曲线图。重点关注total_loss这条线，它应该会逐渐下降，表示模型越来越准。

4. 使用训练好的模型

4.1 导出训练好的模型

训练完成后，我们需要把模型导出，方便以后使用：

rm -rf /root/workspace/nuscenes_release_model mkdir -p /root/workspace/nuscenes_release_model python tools/export.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model output/best_model/model.pdparams \ --save_dir /root/workspace/nuscenes_release_model

导出的模型可以在各种设备上使用，包括服务器、车载设备等。

4.2 看看模型的效果

最后，让我们看看训练好的模型实际效果如何：

python tools/demo.py /root/workspace/nuscenes/ /root/workspace/nuscenes_release_model nuscenes

这个命令会生成一些图片，显示模型识别出的各种物体和它们的边界框。你可以看到模型能不能准确找出汽车、行人、自行车等。

5. 尝试其他数据集（可选）

如果你还想试试其他数据集，比如xtreme1数据集，步骤也差不多：

# 准备数据 cd /usr/local/Paddle3D rm /root/workspace/xtreme1_nuscenes_data/petr_nuscenes_annotation_* -f python3 tools/create_petr_nus_infos_from_xtreme1.py /root/workspace/xtreme1_nuscenes_data/ # 训练模型 python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/xtreme1_nuscenes_data/ \ --epochs 100 \ --batch_size 2 \ --log_interval 10 \ --learning_rate 1e-4 \ --save_interval 5 \ --do_eval

不同数据集可能需要调整一些参数，比如学习率可以调小一点，让模型学得更细致。