当前位置：首页 > news >正文

Jetson Nano上编译onnxruntime-gpu踩坑实录：从内存不足到成功运行Python/C++推理

news 2026/7/30 13:59:00

Jetson Nano上编译onnxruntime-gpu的实战指南：从内存优化到多语言推理

引言

在边缘计算领域，Jetson Nano凭借其紧凑的尺寸和强大的AI推理能力，成为众多开发者的首选平台。然而，当我们需要在这块仅有4GB内存的小型设备上编译复杂的机器学习推理框架如onnxruntime-gpu时，往往会遇到一系列令人头疼的问题。本文将分享我在Jetson Nano上成功编译onnxruntime-gpu的完整过程，包括解决内存不足、依赖项配置、编译参数优化等关键挑战。

不同于普通的安装教程，本文更侧重于问题解决的实际经验。你会看到如何通过调整swap空间来克服内存限制，如何正确配置CUDA和cuDNN环境变量，以及如何针对ARM架构优化编译参数。无论你是想在Python还是C++环境中使用onnxruntime-gpu，这篇文章都将提供详细的指导。

1. 环境准备与基础配置

1.1 系统与硬件检查

在开始之前，确保你的Jetson Nano运行的是最新的JetPack系统。可以通过以下命令检查系统信息：

cat /etc/nv_tegra_release

典型的输出应该是类似R32 (release), REVISION: 7.2这样的信息，表示你使用的是JetPack 4.6.2版本。同时，确认你的设备有足够的存储空间（至少10GB可用空间）。

1.2 依赖项安装

onnxruntime-gpu编译需要一系列基础依赖库。执行以下命令安装必要组件：

sudo apt-get update sudo apt-get install -y \ build-essential \ cmake \ git \ libprotobuf-dev \ protobuf-compiler \ python3-dev \ python3-pip \ libopenblas-dev \ libatlas-base-dev

特别注意，在ARM架构上编译时，某些依赖项可能需要额外处理。例如，protobuf的版本必须与onnxruntime要求的版本严格匹配。

1.3 CUDA环境配置

正确配置CUDA环境变量是成功编译的关键。编辑你的~/.bashrc文件，添加以下内容：

export PATH=/usr/local/cuda/bin:${PATH} export CUDA_PATH=/usr/local/cuda export CUDNN_PATH=/usr/lib/aarch64-linux-gnu export LD_LIBRARY_PATH=/usr/local/cuda/lib64:${LD_LIBRARY_PATH}

保存后执行source ~/.bashrc使配置生效。验证CUDA是否正常工作：

nvcc --version

2. 解决内存不足问题

2.1 交换空间(swap)扩展

Jetson Nano的4GB内存在编译大型项目时往往不够用。我们可以通过增加swap空间来解决这个问题。以下是创建8GB swap文件的具体步骤：

sudo fallocate -l 8G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile

为了使swap文件在重启后依然有效，需要在/etc/fstab中添加以下行：

/swapfile none swap sw 0 0

2.2 编译参数优化

为了减少内存使用，我们可以调整编译参数。在编译onnxruntime时，使用--parallel参数限制并行编译的线程数：

./build.sh --config Release --update --build --parallel 2 \ --build_wheel --use_tensorrt \ --cuda_home /usr/local/cuda \ --cudnn_home /usr/lib/aarch64-linux-gnu \ --tensorrt_home /usr/lib/aarch64-linux-gnu

这里的--parallel 2表示只使用2个CPU核心进行编译，显著降低内存需求但会增加编译时间。

3. 源码获取与编译

3.1 获取onnxruntime源码

建议选择稳定的发布版本进行编译，而不是直接使用主分支。以下是获取v1.16.0版本源码的步骤：

mkdir ~/onnxruntime && cd ~/onnxruntime git clone --recursive https://github.com/microsoft/onnxruntime.git cd onnxruntime git checkout v1.16.0 git submodule update --init --recursive --progress

3.2 编译过程详解

完整的编译命令包含多个关键参数：

./build.sh \ --config Release \ --update \ --build \ --parallel 2 \ --build_wheel \ --use_tensorrt \ --cuda_home /usr/local/cuda \ --cudnn_home /usr/lib/aarch64-linux-gnu \ --tensorrt_home /usr/lib/aarch64-linux-gnu

各参数含义如下表：

参数	作用
`--config Release`	生成Release版本的二进制文件
`--update`	更新子模块
`--build`	执行编译
`--parallel 2`	使用2个CPU核心
`--build_wheel`	生成Python wheel包
`--use_tensorrt`	启用TensorRT支持
`--cuda_home`	指定CUDA安装路径
`--cudnn_home`	指定cuDNN库路径

编译过程可能需要2-4小时，取决于你的网络速度和设备性能。如果中途失败，可以尝试清理后重新开始：

./build.sh --clean

4. 安装与验证

4.1 安装编译结果

编译完成后，安装生成的库文件：

cd build/Linux/Release sudo make install

对于Python用户，可以直接安装生成的wheel包：

pip3 install build/Linux/Release/dist/onnxruntime_gpu-1.16.0-cp38-cp38-linux_aarch64.whl

4.2 验证安装

Python环境下验证：

import onnxruntime as ort print("Available providers:", ort.get_available_providers())

成功安装后应该看到类似输出：

Available providers: ['TensorrtExecutionProvider', 'CUDAExecutionProvider', 'CPUExecutionProvider']

C++环境下验证：

#include <onnxruntime_cxx_api.h> #include <iostream> int main() { Ort::Env env(ORT_LOGGING_LEVEL_WARNING, "test"); auto providers = Ort::GetAvailableProviders(); std::cout << "ONNX Runtime version: " << Ort::GetVersionString() << std::endl; for (const auto& provider : providers) { std::cout << "Provider: " << provider << std::endl; } return 0; }

编译并运行上述代码，确认能够正确输出ONNX Runtime版本和支持的提供程序。

4.3 静态库编译选项

如果需要静态链接库，可以在编译时添加--build_shared_lib参数：

./build.sh --config Release --update --build --parallel 2 \ --build_shared_lib OFF \ --use_tensorrt \ --cuda_home /usr/local/cuda \ --cudnn_home /usr/lib/aarch64-linux-gnu \ --tensorrt_home /usr/lib/aarch64-linux-gnu

5. 性能优化与实用技巧

5.1 TensorRT加速配置

为了最大化推理性能，建议优先使用TensorRT执行提供程序。在Python中可以通过以下方式指定：

import onnxruntime as ort sess_options = ort.SessionOptions() sess_options.graph_optimization_level = ort.GraphOptimizationLevel.ORT_ENABLE_ALL sess_options.execution_mode = ort.ExecutionMode.ORT_SEQUENTIAL providers = [ ('TensorrtExecutionProvider', { 'device_id': 0, 'trt_max_workspace_size': 1 << 30, 'trt_fp16_enable': True }), ('CUDAExecutionProvider', { 'device_id': 0, 'arena_extend_strategy': 'kSameAsRequested', 'cudnn_conv_algo_search': 'EXHAUSTIVE', 'do_copy_in_default_stream': True, }), 'CPUExecutionProvider' ] session = ort.InferenceSession("model.onnx", sess_options, providers=providers)

5.2 内存管理技巧

在资源受限的Jetson Nano上，合理管理内存至关重要。以下是一些实用建议：

批量处理限制：减小推理时的批量大小(batch size)
模型优化：使用ONNX Runtime的图优化功能
混合精度：启用FP16模式减少内存占用
内存监控：定期检查内存使用情况：

watch -n 1 free -h

5.3 常见问题解决

问题1：编译过程中出现"internal compiler error: Killed (program cc1plus)"

解决方案：这通常是由于内存不足导致的。增加swap空间或减少并行编译线程数。

问题2：Python导入时出现"undefined symbol"错误

解决方案：确保LD_LIBRARY_PATH包含CUDA和cuDNN库路径，并检查Python wheel是否与Python版本匹配。

问题3：TensorRT提供程序不可用

解决方案：确认编译时启用了--use_tensorrt选项，并且TensorRT库路径正确。

6. 实际应用案例

6.1 图像分类模型部署

以ResNet50为例，展示如何在Jetson Nano上部署ONNX模型：

import onnxruntime as ort import numpy as np from PIL import Image # 创建会话 session = ort.InferenceSession("resnet50.onnx", providers=['TensorrtExecutionProvider']) # 预处理输入图像 image = Image.open("test.jpg").resize((224, 224)) input_data = np.array(image).transpose(2, 0, 1).astype(np.float32) input_data = (input_data / 255.0 - [0.485, 0.456, 0.406]) / [0.229, 0.224, 0.225] input_data = np.expand_dims(input_data, axis=0) # 执行推理 outputs = session.run(None, {"input": input_data}) print("Predicted class:", np.argmax(outputs[0]))

6.2 C++高性能推理

对于需要更低延迟的应用，可以使用C++接口：

#include <onnxruntime_cxx_api.h> #include <vector> #include <chrono> int main() { Ort::Env env(ORT_LOGGING_LEVEL_WARNING, "example"); Ort::SessionOptions session_options; // 配置TensorRT提供程序 OrtTensorRTProviderOptionsV2* trt_options = nullptr; Ort::GetApi().CreateTensorRTProviderOptions(&trt_options); Ort::GetApi().UpdateTensorRTProviderOptions( trt_options, {{"device_id", "0"}, {"trt_fp16_enable", "1"}, {"trt_engine_cache_enable", "1"}}); session_options.AppendExecutionProvider_TensorRT_V2(*trt_options); // 加载模型 Ort::Session session(env, "model.onnx", session_options); // 准备输入数据 std::vector<int64_t> input_shape = {1, 3, 224, 224}; std::vector<float> input_data(1*3*224*224, 0.5f); // 示例数据 // 创建输入Tensor auto memory_info = Ort::MemoryInfo::CreateCpu( OrtAllocatorType::OrtArenaAllocator, OrtMemType::OrtMemTypeDefault); Ort::Value input_tensor = Ort::Value::CreateTensor<float>( memory_info, input_data.data(), input_data.size(), input_shape.data(), input_shape.size()); // 执行推理 const char* input_names[] = {"input"}; const char* output_names[] = {"output"}; auto start = std::chrono::high_resolution_clock::now(); auto outputs = session.Run( Ort::RunOptions{nullptr}, input_names, &input_tensor, 1, output_names, 1); auto end = std::chrono::high_resolution_clock::now(); std::cout << "Inference time: " << std::chrono::duration_cast<std::chrono::milliseconds>(end - start).count() << "ms" << std::endl; return 0; }

查看全文

http://www.jsqmd.com/news/933345/