当前位置：首页 > news >正文

使用TensorRT加速PETRV2-BEV模型推理的完整指南

news 2026/5/12 17:56:46

使用TensorRT加速PETRV2-BEV模型推理的完整指南

1. 引言

如果你正在处理自动驾驶或3D感知任务，很可能已经接触过PETRV2-BEV模型。这个基于Transformer的架构在多摄像头3D目标检测和BEV分割方面表现出色，但在实际部署中，你可能会遇到推理速度不够快的问题。

这就是TensorRT的用武之地。通过将PETRV2-BEV模型转换为TensorRT格式，我们可以显著提升推理性能，实现低延迟和高吞吐量的部署。本教程将手把手带你完成整个加速过程，从环境准备到最终的性能测试。

无论你是刚接触模型加速的新手，还是有一定经验的开发者，这篇指南都会提供实用的步骤和代码示例，帮助你快速上手。

2. 环境准备与TensorRT安装

开始之前，我们需要确保环境配置正确。以下是推荐的环境配置：

# 创建conda环境 conda create -n petrv2_trt python=3.8 conda activate petrv2_trt # 安装PyTorch pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 -f https://download.pytorch.org/whl/torch_stable.html # 安装TensorRT pip install nvidia-pyindex pip install nvidia-tensorrt==8.5.3.1 # 安装其他依赖 pip install opencv-python pillow numpy scipy

验证TensorRT安装是否成功：

import tensorrt as trt print(f"TensorRT version: {trt.__version__}")

如果能够正常输出版本号，说明安装成功。

3. PETRV2模型转换基础

在开始TensorRT转换之前，我们需要先了解PETRV2模型的基本结构。这个模型主要由三部分组成：

Backbone网络：通常是ResNet或VoVNet，用于提取2D图像特征
3D位置编码器：将2D特征转换为3D空间感知特征
Transformer解码器：处理目标查询和分割查询

为了成功转换到TensorRT，我们需要确保模型中的所有操作都被TensorRT支持。PETRV2中使用的大多数操作都是标准的卷积、全连接和注意力机制，这些都能很好地被TensorRT支持。

4. 模型导出为ONNX格式

TensorRT通常通过ONNX格式作为中间表示来转换模型。首先我们需要将PyTorch模型导出为ONNX：

import torch import onnx from models import PETRv2 # 假设这是你的模型定义 # 加载预训练权重 model = PETRv2() checkpoint = torch.load('petrv2_model.pth') model.load_state_dict(checkpoint['model']) model.eval() # 准备示例输入 dummy_input = torch.randn(1, 6, 3, 256, 704) # batch, cameras, channels, height, width # 导出ONNX模型 torch.onnx.export( model, dummy_input, "petrv2.onnx", export_params=True, opset_version=13, do_constant_folding=True, input_names=['input'], output_names=['output'], dynamic_axes={'input': {0: 'batch_size'}, 'output': {0: 'batch_size'}} ) print("ONNX模型导出成功")

导出后，建议使用ONNX Runtime验证导出的模型是否正确：

import onnxruntime as ort import numpy as np # 验证ONNX模型 onnx_model = onnx.load("petrv2.onnx") onnx.checker.check_model(onnx_model) # 使用ONNX Runtime进行推理测试 ort_session = ort.InferenceSession("petrv2.onnx") outputs = ort_session.run(None, {'input': dummy_input.numpy()}) print("ONNX模型验证成功")

5. TensorRT转换与优化

现在我们可以将ONNX模型转换为TensorRT引擎：

import tensorrt as trt import os logger = trt.Logger(trt.Logger.WARNING) builder = trt.Builder(logger) network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)) parser = trt.OnnxParser(network, logger) # 解析ONNX模型 with open("petrv2.onnx", "rb") as model: if not parser.parse(model.read()): for error in range(parser.num_errors): print(parser.get_error(error)) # 构建配置 config = builder.create_builder_config() config.set_memory_pool_limit(trt.MemoryPoolType.WORKSPACE, 1 << 30) # 1GB工作空间 # 设置优化配置文件（如果使用动态形状） profile = builder.create_optimization_profile() profile.set_shape("input", (1, 6, 3, 256, 704), (1, 6, 3, 256, 704), (1, 6, 3, 256, 704)) config.add_optimization_profile(profile) # 构建引擎 serialized_engine = builder.build_serialized_network(network, config) # 保存引擎 with open("petrv2.engine", "wb") as f: f.write(serialized_engine) print("TensorRT引擎构建成功")

6. TensorRT推理实现

有了TensorRT引擎后，我们可以实现高效的推理：

import pycuda.driver as cuda import pycuda.autoinit import numpy as np class PETRv2TRT: def __init__(self, engine_path): self.logger = trt.Logger(trt.Logger.WARNING) with open(engine_path, "rb") as f, trt.Runtime(self.logger) as runtime: self.engine = runtime.deserialize_cuda_engine(f.read()) self.context = self.engine.create_execution_context() # 分配输入输出内存 self.inputs = [] self.outputs = [] self.bindings = [] for binding in self.engine: size = trt.volume(self.engine.get_binding_shape(binding)) dtype = trt.nptype(self.engine.get_binding_dtype(binding)) host_mem = cuda.pagelocked_empty(size, dtype) device_mem = cuda.mem_alloc(host_mem.nbytes) self.bindings.append(int(device_mem)) if self.engine.binding_is_input(binding): self.inputs.append({'host': host_mem, 'device': device_mem}) else: self.outputs.append({'host': host_mem, 'device': device_mem}) def infer(self, input_data): # 拷贝输入数据 np.copyto(self.inputs[0]['host'], input_data.ravel()) cuda.memcpy_htod(self.inputs[0]['device'], self.inputs[0]['host']) # 执行推理 self.context.execute_v2(bindings=self.bindings) # 拷贝输出数据 for out in self.outputs: cuda.memcpy_dtoh(out['host'], out['device']) return [out['host'] for out in self.outputs] # 使用示例 trt_model = PETRv2TRT("petrv2.engine") input_data = np.random.randn(1, 6, 3, 256, 704).astype(np.float32) output = trt_model.infer(input_data) print("推理完成，输出形状:", [o.shape for o in output])

7. 性能测试与优化建议

为了验证加速效果，我们可以进行详细的性能测试：

import time def benchmark_model(trt_model, input_shape, warmup=100, runs=1000): # 准备测试数据 dummy_input = np.random.randn(*input_shape).astype(np.float32) # Warmup for _ in range(warmup): trt_model.infer(dummy_input) # 性能测试 start_time = time.time() for _ in range(runs): trt_model.infer(dummy_input) end_time = time.time() # 计算平均推理时间 avg_time = (end_time - start_time) * 1000 / runs fps = 1000 / avg_time return avg_time, fps # 运行性能测试 avg_time, fps = benchmark_model(trt_model, (1, 6, 3, 256, 704)) print(f"平均推理时间: {avg_time:.2f}ms") print(f"FPS: {fps:.2f}")

根据测试结果，这里有一些优化建议：