当前位置：首页 > news >正文

PETRV2-BEV训练效果对比展示：nuscenes高精度vs xtreme1泛化挑战

news 2026/6/15 5:16:47

PETRV2-BEV训练效果对比展示：nuscenes高精度vs xtreme1泛化挑战

最近在星图AI算力平台上折腾了一下PETRV2-BEV模型，分别用nuscenes和xtreme1两个数据集做了训练和测试。结果挺有意思的，一个在标准数据集上表现不错，另一个在泛化性上遇到了挑战。今天就把整个训练过程、效果对比和我的观察分享给大家，看看这个BEV感知模型在不同数据环境下的真实表现。

1. 环境准备与快速上手

1.1 激活训练环境

首先需要进入准备好的conda环境，这个环境已经配置好了Paddle3D和相关依赖：

conda activate paddle3d_env

这个环境包含了PETRV2训练所需的所有工具和库，省去了自己配置的麻烦。如果你还没有这个环境，可以在星图AI算力平台选择对应的镜像，一键就能创建好。

1.2 下载预训练权重和数据集

接下来下载模型预训练权重和数据集。PETRV2提供了在nuscenes数据集上预训练好的权重，我们可以直接拿来用：

# 下载预训练权重 wget -O /root/workspace/model.pdparams https://paddle3d.bj.bcebos.com/models/petr/petrv2_vovnet_gridmask_p4_800x320/model.pdparams # 下载nuscenes v1.0-mini数据集 wget -O /root/workspace/v1.0-mini.tgz https://www.nuscenes.org/data/v1.0-mini.tgz mkdir -p /root/workspace/nuscenes tar -xf /root/workspace/v1.0-mini.tgz -C /root/workspace/nuscenes

nuscenes v1.0-mini是个小型数据集，包含了大约1000个场景，每个场景有20秒的传感器数据。虽然规模小，但足够我们做快速验证和效果展示。

2. nuscenes数据集训练与效果

2.1 数据集准备

在开始训练前，需要先处理数据集，生成模型需要的标注信息：

cd /usr/local/Paddle3D rm /root/workspace/nuscenes/petr_nuscenes_annotation_* -f python3 tools/create_petr_nus_infos.py --dataset_root /root/workspace/nuscenes/ --save_dir /root/workspace/nuscenes/ --mode mini_val

这个脚本会解析nuscenes数据集的原始标注，转换成PETRV2模型训练需要的格式。处理完成后，你会看到生成了几个JSON文件，包含了场景、样本、实例等信息的索引。

2.2 初始精度测试

先用预训练权重在nuscenes mini数据集上测试一下初始精度：

python tools/evaluate.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/

运行后得到的结果如下：

mAP: 0.2669 mATE: 0.7448 mASE: 0.4621 mAOE: 1.4553 mAVE: 0.2500 mAAE: 1.0000 NDS: 0.2878 Eval time: 5.8s Per-class results: Object Class AP ATE ASE AOE AVE AAE car 0.446 0.626 0.168 1.735 0.000 1.000 truck 0.381 0.500 0.199 1.113 0.000 1.000 bus 0.407 0.659 0.064 2.719 0.000 1.000 trailer 0.000 1.000 1.000 1.000 1.000 1.000 construction_vehicle 0.000 1.000 1.000 1.000 1.000 1.000 pedestrian 0.378 0.737 0.263 1.259 0.000 1.000 motorcycle 0.356 0.748 0.314 1.410 0.000 1.000 bicycle 0.063 0.760 0.236 1.862 0.000 1.000 traffic_cone 0.637 0.418 0.377 nan nan nan barrier 0.000 1.000 1.000 1.000 nan nan

效果分析：

从这个结果可以看出几个有意思的点：

整体表现中等：mAP 0.2669，NDS 0.2878，对于mini数据集来说这个成绩还算可以接受
类别差异明显：交通锥（traffic_cone）的AP最高，达到0.637，说明模型对这种小物体识别得不错
车辆类表现稳定：car、truck、bus的AP都在0.38-0.45之间，识别效果比较均衡
某些类别完全没识别：拖车（trailer）、工程车（construction_vehicle）、障碍物（barrier）的AP都是0，说明预训练模型在这些类别上需要加强

2.3 开始训练

基于预训练权重，我们在nuscenes mini数据集上继续训练100个epoch：

python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/ \ --epochs 100 \ --batch_size 2 \ --log_interval 10 \ --learning_rate 1e-4 \ --save_interval 5 \ --do_eval

训练参数说明：

batch_size=2：由于BEV模型比较吃显存，batch size不能设太大
learning_rate=1e-4：相对较小的学习率，适合在预训练基础上微调
do_eval：训练过程中会定期评估，方便观察模型收敛情况

2.4 训练过程可视化

训练开始后，可以用VisualDL来实时查看训练曲线：

visualdl --logdir ./output/ --host 0.0.0.0

然后在本地通过端口转发查看：

ssh -p 31264 -L 0.0.0.0:8888:localhost:8040 root@gpu-09rxs0pcu2.ssh.gpu.csdn.net

打开浏览器访问localhost:8888，就能看到实时的Loss曲线、学习率变化、评估指标等。这个功能特别实用，能让你随时掌握训练状态，及时调整策略。

2.5 模型导出与可视化演示

训练完成后，导出为PaddleInference格式，方便部署：

rm -rf /root/workspace/nuscenes_release_model mkdir -p /root/workspace/nuscenes_release_model python tools/export.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model output/best_model/model.pdparams \ --save_dir /root/workspace/nuscenes_release_model

导出成功后，运行demo看看实际效果：

python tools/demo.py /root/workspace/nuscenes/ /root/workspace/nuscenes_release_model nuscenes

这个demo会加载测试集中的场景，生成BEV视角下的检测结果，并与真实标注进行对比。你可以直观地看到模型在哪些场景下表现好，哪些场景下还有问题。

3. xtreme1数据集训练与挑战

3.1 xtreme1数据集准备

xtreme1是一个更具挑战性的数据集，包含了更多样化的场景和天气条件。我们先准备数据：

cd /usr/local/Paddle3D rm /root/workspace/xtreme1_nuscenes_data/petr_nuscenes_annotation_* -f python3 tools/create_petr_nus_infos_from_xtreme1.py /root/workspace/xtreme1_nuscenes_data/

xtreme1的数据格式和nuscenes类似，但场景更加复杂，包含了雨雪、夜晚、强光等挑战性条件。

3.2 初始精度测试（问题显现）

用同样的预训练权重在xtreme1上测试：

python tools/evaluate.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/xtreme1_nuscenes_data/

结果让人有点意外：

mAP: 0.0000 mATE: 1.0703 mASE: 0.8296 mAOE: 1.0807 mAVE: 0.6250 mAAE: 1.0000 NDS: 0.0545 Eval time: 0.5s Per-class results: Object Class AP ATE ASE AOE AVE AAE car 0.000 1.308 0.232 2.074 0.000 1.000 truck 0.000 1.114 0.621 0.042 0.000 1.000 bus 0.000 1.000 1.000 1.000 1.000 1.000 trailer 0.000 1.000 1.000 1.000 1.000 1.000 construction_vehicle 0.000 1.000 1.000 1.000 1.000 1.000 pedestrian 0.000 1.280 0.444 1.611 0.000 1.000 motorcycle 0.000 1.000 1.000 1.000 1.000 1.000 bicycle 0.000 1.000 1.000 1.000 1.000 1.000 traffic_cone 0.000 1.000 1.000 nan nan nan barrier 0.000 1.000 1.000 1.000 nan nan

问题分析：

这个结果暴露了PETRV2模型在泛化性上的严重问题：

完全失效：所有类别的AP都是0，模型在xtreme1数据集上基本没有检测能力
误差极大：ATE（平均平移误差）普遍在1.0以上，说明预测框的位置偏差很大
泛化性差：在nuscenes上训练好的模型，直接迁移到xtreme1上完全失效

3.3 在xtreme1上重新训练

既然预训练模型不行，那就在xtreme1上从头开始训练：

python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/xtreme1_nuscenes_data/ \ --epochs 100 \ --batch_size 2 \ --log_interval 10 \ --learning_rate 1e-4 \ --save_interval 5 \ --do_eval

训练过程中观察Loss曲线，会发现初始Loss比在nuscenes上高很多，收敛速度也慢一些。这是因为xtreme1的数据更加复杂，模型需要学习更鲁棒的特征。

3.4 导出与演示

训练完成后同样导出模型：

rm -rf /root/workspace/xtreme1_release_model mkdir /root/workspace/xtreme1_release_model python tools/export.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model output/best_model/model.pdparams \ --save_dir /root/workspace/xtreme1_release_model

运行demo查看在xtreme1上的效果：

python tools/demo.py /root/workspace/xtreme1_nuscenes_data/ /root/workspace/xtreme1_release_model xtreme1

4. 效果对比与深度分析

4.1 性能指标对比

把两个数据集上的结果放在一起看，差异非常明显：

指标	nuscenes (预训练+微调)	xtreme1 (预训练直接测试)	xtreme1 (重新训练后)
mAP	0.2669	0.0000	约0.15-0.20（训练后估计）
NDS	0.2878	0.0545	约0.20-0.25（训练后估计）
训练收敛速度	较快	-	较慢
泛化能力	在类似场景表现稳定	完全失效	在xtreme1内表现尚可