当前位置：首页 > news >正文

在Ubuntu上从零部署BEVFormer：避开Windows的坑，用50x50网格跑通NuScenes mini数据集

news 2026/4/15 10:01:16

在Ubuntu上从零部署BEVFormer：小显存友好配置与NuScenes Mini实战指南

为什么选择Ubuntu环境部署BEVFormer？

当我在Windows系统上第三次遇到CUDA版本冲突导致的环境配置失败时，终于意识到——是时候切换到Ubuntu了。作为计算机视觉领域的前沿模型，BEVFormer对Linux环境的友好程度远超Windows，这不仅是由于社区支持更完善，更因为其依赖的MMDetection3D框架在Linux下的稳定性显著优于Windows平台。

对于显存有限的开发者（比如我使用的RTX 3060 12GB显卡），Ubuntu系统能更高效地管理显存资源。经过实测，在Windows+WSL2环境下运行BEVFormer时，显存占用会比原生Ubuntu高出15%-20%，这对本就紧张的显存资源无疑是雪上加霜。

环境配置：避开版本地狱的实用方案

Conda环境搭建

首先创建独立的Python环境（建议使用Python 3.8）：

conda create -n bevformer python=3.8 -y conda activate bevformer

关键依赖版本选择

经过多次测试，以下版本组合在小显存设备上表现最稳定：

软件包	推荐版本	备注
PyTorch	1.9.1	CUDA 11.1兼容性最佳
TorchVision	0.10.1	必须与PyTorch版本匹配
MMDetection	2.25.0	新版可能不兼容BEVFormer原始代码
MMCV	1.4.0	需编译安装

安装命令示例：

pip install torch==1.9.1+cu111 torchvision==0.10.1+cu111 -f https://download.pytorch.org/whl/torch_stable.html pip install mmdet==2.25.0 pip install mmcv-full==1.4.0 -f https://download.openmmlab.com/mmcv/dist/cu111/torch1.9.0/index.html

注意：MMCV必须使用与CUDA、PyTorch匹配的预编译版本，直接pip install mmcv会导致运行时错误

BEVFormer专属依赖处理

克隆官方仓库并安装依赖：

git clone https://github.com/fundamentalvision/BEVFormer.git cd BEVFormer pip install -r requirements.txt pip install -v -e . # 可编辑模式安装，方便修改代码

常见问题解决：

遇到numpy兼容性问题时，尝试pip install numpy==1.20.3
安装pycocotools失败时，使用pip install pycocotools-windows(Windows)或conda install pycocotools(Linux)

数据集准备：NuScenes Mini实战技巧

高效下载与预处理

完整版NuScenes数据集约300GB，对于学习和调试而言过于庞大。推荐使用NuScenes Mini版本（约4GB）：

mkdir -p data/nuscenes wget https://www.nuscenes.org/data/v1.0-mini.tgz -P data/nuscenes tar -xzvf data/nuscenes/v1.0-mini.tgz -C data/nuscenes

数据集目录结构应如下：

data/nuscenes ├── v1.0-mini │ ├── samples │ ├── sweeps │ ├── maps │ └── v1.0-mini.json

配置文件修改关键点

修改projects/configs/bevformer/bevformer_tiny.py中的核心参数：

data_root = 'data/nuscenes/' # 数据集路径 load_from = None # 小显存设备建议从零训练 bev_h = 50 # BEV网格高度 bev_w = 50 # BEV网格宽度 img_norm_cfg = dict( mean=[103.530, 116.280, 123.675], # 与预训练模型一致 std=[1.0, 1.0, 1.0], # 重要！不要修改 to_rgb=False) # BEVFormer使用BGR输入

对于16GB显存设备，还需调整训练参数：

optimizer_config = dict(grad_clip=dict(max_norm=5, norm_type=2)) batch_size = 1 # 关键！batch_size>1会导致OOM lr_config = dict(policy='step', step=[8, 11]) total_epochs = 12 # Mini数据集可适当减少epoch

模型训练：显存优化技巧

启动训练的正确姿势

使用分布式训练即使单卡也能提升效率：

./tools/dist_train.sh projects/configs/bevformer/bevformer_tiny.py 1 --work-dir work_dirs/bevformer_tiny

关键参数说明：

最后一个参数1表示使用1块GPU
--work-dir指定日志和模型保存路径
添加--resume-from可继续中断的训练

小显存生存指南

当遇到CUDA out of memory错误时，按优先级尝试以下方案：

降低BEV网格分辨率：修改bev_h和bev_w为更小值（如30x30）

启用梯度检查点：在配置中添加

model = dict( use_checkpoint=True, # 激活梯度检查点 ... )

减少Encoder层数：修改num_encoder_layers=3
使用混合精度训练：添加fp16=dict(loss_scale=512.)到配置

我在RTX 3060 12GB上的实测：50x50网格+梯度检查点+混合精度，显存占用约10.5GB

常见错误与解决方案

环境配置类问题

问题1：ImportError: libGL.so.1: cannot open shared object file

sudo apt install libgl1-mesa-glx

问题2：ModuleNotFoundError: No module named 'mmcv._ext'

pip uninstall mmcv mmcv-full -y pip install mmcv-full==1.4.0 -f https://download.openmmlab.com/mmcv/dist/cu111/torch1.9.0/index.html

训练过程问题

问题3：KeyError: 'lidar2img' not found in img_metas

这是因为数据预处理不完整，需要重新生成数据信息：

python tools/create_data.py nuscenes --root-path data/nuscenes --out-dir data/nuscenes --extra-tag nuscenes

问题4：训练初期loss为NaN

调整学习率和优化器设置：

optimizer = dict( type='AdamW', lr=2e-4, # 初始学习率降低 weight_decay=0.01) optimizer_config = dict(grad_clip=dict(max_norm=5, norm_type=2))

模型测试与可视化

测试脚本适配小显存

修改tools/test.py中的测试配置：

model = dict( test_cfg=dict( use_checkpoint=True, # 测试时也使用梯度检查点 max_per_img=100)) # 减少预测框数量

运行测试：

./tools/dist_test.sh projects/configs/bevformer/bevformer_tiny.py work_dirs/bevformer_tiny/latest.pth 1 --eval bbox

结果可视化技巧

安装可视化依赖：

pip install nuscenes-devkit==1.1.9

修改tools/analysis_tools/visual.py中的路径后运行：

nusc = NuScenes(version='v1.0-mini', dataroot='data/nuscenes', verbose=True) bevformer_results = mmcv.load('work_dirs/bevformer_tiny/results_nusc.json') sample_token_list = list(bevformer_results['results'].keys())[:5] # 只可视化前5个样本 for token in sample_token_list: render_sample_data(token, pred_data=bevformer_results, out_path=f'vis/{token}')

可视化效果可通过调整以下参数优化：

render_scale：控制渲染分辨率
view_size：调整视角范围
pred_score_thr：过滤低置信度预测

性能优化进阶技巧

自定义BEV网格参数

在bevformer_head.py中修改网格生成逻辑：

self.bev_embedding = nn.Embedding( bev_h * bev_w, embed_dims) # 原始实现 # 改为可学习的位置编码 self.bev_pos_encoder = nn.Sequential( nn.Linear(2, 128), nn.ReLU(), nn.Linear(128, embed_dims))

时序注意力轻量化

对于小显存设备，可简化时序注意力机制：

# 在temporal_self_attention.py中 self.num_bev_queue = 2 # 原版使用2帧历史 # 改为单帧历史 self.num_bev_queue = 1

数据加载优化

修改datasets/pipelines/loading.py提升IO效率：

@mmcv.register_after_load_init def __after_load_init__(self): self._enable_shared_memory = True # 启用共享内存 self._prefetch_size = 2 # 预取2个batch

这些修改需要重新编译MMCV：

MMCV_WITH_OPS=1 pip install -e .

模型部署实用建议

导出ONNX模型

添加导出脚本tools/export_onnx.py：

def export_onnx(model, config, output_file): model.eval() dummy_input = torch.randn(1, 6, 3, 480, 800).cuda() torch.onnx.export( model, dummy_input, output_file, input_names=['input'], output_names=['output'], dynamic_axes={'input': {0: 'batch'}}, opset_version=11)

TensorRT加速

使用MMDeploy工具链转换：

python -m mmdeploy.tools.deploy \ --config mmdeploy/configs/mmdet3d/voxel-detection_tensorrt_dynamic.py \ --model work_dirs/bevformer_tiny/latest.pth \ --work-dir trt_models \ --device cuda:0 \ --dump-info

转换后推理速度可提升3-5倍，但需注意：