当前位置：首页 > news >正文

快速上手：基于星图AI算力，30分钟完成PETRV2-BEV模型训练部署

news 2026/3/26 21:01:06

快速上手：基于星图AI算力，30分钟完成PETRV2-BEV模型训练部署

想体验自动驾驶的“上帝视角”吗？PETRV2-BEV模型能帮你实现。它就像一个聪明的眼睛，能把汽车周围多个摄像头的画面，瞬间拼成一张完整的鸟瞰图，让车辆“看清”周围所有的车辆、行人和障碍物。

听起来很酷，但部署训练是不是很复杂？需要自己配环境、下数据、调参数，想想就头疼。别担心，今天我就带你用星图AI算力平台，30分钟搞定从零开始的PETRV2-BEV模型训练和部署。整个过程就像搭积木，照着步骤来，小白也能轻松上手。

1. 准备工作：环境与数据一键获取

在开始之前，我们先明确一下目标：我们要在一个叫NuScenes的自动驾驶数据集上，训练一个PETRV2模型。这个数据集包含了大量城市街道的驾驶场景，是训练自动驾驶感知模型的黄金标准。

1.1 激活预置环境

星图AI算力平台已经为我们准备好了所有需要的软件环境。你只需要激活它，就像打开一个已经装好所有工具的“工作间”。

conda activate paddle3d_env

激活后，你可以检查一下环境是否正常：

python -c "import paddle; print('PaddlePaddle版本:', paddle.__version__)"

如果看到版本号输出，说明环境已经就绪。这个环境里包含了PaddlePaddle深度学习框架、Paddle3D 3D感知库，以及所有必要的依赖包。

1.2 下载模型权重和数据集

接下来，我们需要两样东西：一个已经在大数据集上预训练好的模型（这样训练起来更快），和一个用于训练的小型数据集。

下载预训练模型权重：

wget -O /root/workspace/model.pdparams https://paddle3d.bj.bcebos.com/models/petr/petrv2_vovnet_gridmask_p4_800x320/model.pdparams

这个命令会从百度云下载一个已经训练好的PETRV2模型文件。你可以把它理解为一个“已经学会了很多驾驶知识”的模型，我们接下来要做的，就是让它在我们自己的数据上“复习”和“微调”。

下载NuScenes v1.0-mini数据集：

wget -O /root/workspace/v1.0-mini.tgz https://www.nuscenes.org/data/v1.0-mini.tgz mkdir -p /root/workspace/nuscenes tar -xf /root/workspace/v1.0-mini.tgz -C /root/workspace/nuscenes

这里下载的是NuScenes数据集的迷你版本（v1.0-mini），它包含了完整的场景，但数据量小很多，非常适合我们快速实验和验证。解压后，你会在/root/workspace/nuscenes目录下看到各种传感器数据文件和标注信息。

2. 第一步：在NuScenes数据集上训练与测试

环境数据都准备好了，现在开始真正的模型训练。我们先在迷你数据集上跑一遍完整的流程，看看模型的基础表现。

2.1 准备数据集标注

原始的数据集文件不能直接给模型用，需要转换成模型能理解的格式。运行下面的命令来生成训练所需的标注文件：

cd /usr/local/Paddle3D rm /root/workspace/nuscenes/petr_nuscenes_annotation_* -f python3 tools/create_petr_nus_infos.py --dataset_root /root/workspace/nuscenes/ --save_dir /root/workspace/nuscenes/ --mode mini_val

这个过程会读取原始的JSON标注，提取关键帧信息，并生成PETR模型专用的.pkl文件。完成后，数据集就真正准备好了。

2.2 测试预训练模型的初始精度

在开始训练之前，我们先看看这个“预训练学生”在迷你测试集上能考多少分。这能让我们对模型的起点有个清晰的认识。

python tools/evaluate.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/

运行后，你会看到类似下面的输出：

mAP: 0.2669 mATE: 0.7448 mASE: 0.4621 mAOE: 1.4553 mAVE: 0.2500 mAAE: 1.0000 NDS: 0.2878 Eval time: 5.8s Per-class results: Object Class AP ATE ASE AOE AVE AAE car 0.446 0.626 0.168 1.735 0.000 1.000 truck 0.381 0.500 0.199 1.113 0.000 1.000 bus 0.407 0.659 0.064 2.719 0.000 1.000 ...

看不懂这些指标？没关系，我帮你翻译一下：

mAP (平均精度)：0.2669，可以理解为模型“找对东西”的平均能力分数，越高越好。
NDS (NuScenes检测分数)：0.2878，是综合了位置、大小、方向等多个误差的综合评分，是核心指标。
mATE/mASE/mAOE：分别代表位置误差、尺寸误差、方向误差，数值越小越好。

从分类结果看，小汽车（car）、卡车（truck）、行人（pedestrian）这些常见物体检测得还不错，但拖车（trailer）、自行车（bicycle）就比较差。这就是我们接下来训练要重点提升的地方。

2.3 启动模型训练

现在，让我们开始正式的“教学”过程。我们将基于预训练模型，在迷你数据集上训练100轮。

python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/ \ --epochs 100 \ --batch_size 2 \ --log_interval 10 \ --learning_rate 1e-4 \ --save_interval 5 \ --do_eval

我来解释一下这几个关键参数：

--epochs 100：把整个训练集数据反复学习100遍。
--batch_size 2：每次训练看2个样本。如果你的GPU显存更大，可以调高这个值，训练会更快。
--learning_rate 1e-4：学习率，相当于“学习步伐”。步子太大容易学歪，太小学得慢，1e-4是个不错的起点。
--do_eval：每训练一段时间，就自动在验证集上测试一下，看看学得怎么样。
--save_interval 5：每训练5轮，就保存一次模型，防止中途出错白练了。

训练开始后，你会在终端看到损失（loss）值在不断下降，这说明模型正在“学会”如何检测物体。

2.4 可视化训练过程

光看数字不够直观？我们可以用VisualDL工具把训练过程画成图表，一目了然。

首先启动VisualDL服务：

visualdl --logdir ./output/ --host 0.0.0.0

然后，如果你是在远程服务器上训练，需要把服务器的端口映射到你的本地电脑。假设你的服务器连接信息是root@gpu-09rxs0pcu2.ssh.gpu.csdn.net，端口是31264，VisualDL服务跑在服务器的8040端口，那么映射命令如下（请替换成你的实际信息）：

ssh -p 31264 -L 0.0.0.0:8888:localhost:8040 root@gpu-09rxs0pcu2.ssh.gpu.csdn.net

最后，在你自己的电脑浏览器里打开http://localhost:8888，就能看到一个漂亮的图表界面。在这里，你可以看到总损失、分类损失、回归损失三条曲线是否在平稳下降。如果曲线震荡得很厉害，可能就需要调整学习率了。

2.5 导出训练好的模型

训练完成后，我们得到了一个更聪明的模型。但训练时用的模型格式（动态图）不适合直接部署，需要转换成推理格式（静态图）。

rm -rf /root/workspace/nuscenes_release_model mkdir -p /root/workspace/nuscenes_release_model python tools/export.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model output/best_model/model.pdparams \ --save_dir /root/workspace/nuscenes_release_model

转换后，在/root/workspace/nuscenes_release_model目录下，你会得到三个核心文件：inference.pdmodel（模型结构）、inference.pdiparams（模型参数）和inference.yaml（配置文件）。这个模型就可以被Paddle Inference引擎快速加载和运行了。

2.6 运行演示，看看效果

是骡子是马，拉出来遛遛。让我们用刚训练好的模型，实际检测一段数据，看看视觉效果。

python tools/demo.py /root/workspace/nuscenes/ /root/workspace/nuscenes_release_model nuscenes

运行这个命令后，程序会读取数据集中的样本，用你的模型进行推理，并生成可视化结果。你应该能看到图片上画出了一个个3D的立方体框，准确地框出了车辆、行人等物体，并且还有一个从天空往下看的鸟瞰图，展示了物体在真实世界中的位置。这就是BEV（鸟瞰图）视角的魅力。

3. 第二步：挑战更难的Xtreme1数据集（可选）

如果你觉得NuScenes数据集还不够有挑战性，或者你的应用场景包含雨、雪、雾等恶劣天气，那么可以试试Xtreme1数据集。这个数据集专门包含了大量极端天气和光照条件下的驾驶场景。

3.1 准备Xtreme1数据集

假设你已经有了Xtreme1数据集（格式与NuScenes兼容），存放在/root/workspace/xtreme1_nuscenes_data/目录下。同样，我们需要先为它生成PETR格式的标注：

cd /usr/local/Paddle3D rm /root/workspace/xtreme1_nuscenes_data/petr_nuscenes_annotation_* -f python3 tools/create_petr_nus_infos_from_xtreme1.py /root/workspace/xtreme1_nuscenes_data/

3.2 测试模型在极端场景下的表现

直接用之前在正常数据上预训练的模型，在Xtreme1上测试一下：

python tools/evaluate.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/xtreme1_nuscenes_data/

输出结果可能会让你大吃一惊：

mAP: 0.0000 NDS: 0.0545 ...

几乎所有类别的检测精度（AP）都接近0。这说明，一个在晴朗天气下训练得很好的模型，直接拿去处理大雨、大雾的图像，基本是“睁眼瞎”。这正体现了在多样化的真实场景中训练和微调模型的重要性。

3.3 在Xtreme1上微调模型

为了让模型学会在极端天气下“看路”，我们需要在Xtreme1数据上重新训练（微调）它。

python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/xtreme1_nuscenes_data/ \ --epochs 100 \ --batch_size 2 \ --log_interval 10 \ --learning_rate 1e-4 \ --save_interval 5 \ --do_eval

这个过程和之前在NuScenes上训练完全一样。经过微调后，模型会逐渐适应模糊、低对比度的图像，在Xtreme1上的检测精度会有显著提升。

3.4 导出并可视化Xtreme1模型

训练完成后，同样导出模型并运行演示：

rm -rf /root/workspace/xtreme1_release_model mkdir /root/workspace/xtreme1_release_model python tools/export.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model output/best_model/model.pdparams \ --save_dir /root/workspace/xtreme1_release_model python tools/demo.py /root/workspace/xtreme1_nuscenes_data/ /root/workspace/xtreme1_release_model xtreme1

现在，你再看看可视化结果，模型应该能在雨雾图像中也能勉强识别出一些物体了。这证明了迁移学习和领域自适应的重要性。