当前位置：首页 > news >正文

在i.MX6UL嵌入式Linux上部署ncnn：轻量级AI推理实践与优化

news 2026/7/14 14:44:47

1. 项目概述：当嵌入式Linux遇上轻量级AI推理

在嵌入式开发领域，i.MX6UL这颗芯片大家应该都不陌生。作为恩智浦（NXP）经典的Cortex-A7单核应用处理器，它以极低的功耗和丰富的接口，在工业控制、物联网网关、HMI人机界面等领域占据了大量份额。米尔（MYiR）基于此芯片推出的开发板，更是成为了许多工程师进入嵌入式Linux世界的“启蒙老师”。板子资源够用，社区资料丰富，价格也相对亲民，是进行产品原型验证和学习的绝佳平台。

然而，长久以来，这类主打低功耗和成本控制的入门级板卡，似乎与“人工智能”、“神经网络”这些听起来就很高大上的词汇绝缘。大家普遍认为，跑AI至少得是四核A53起步，配上个GPU或者NPU才像样。但实际的产品需求往往很“骨感”：一个简单的视觉分类、一个轻量的音频关键词识别，或者一个基于传感器数据的异常检测模型，真的需要那么强大的算力吗？很多时候，我们只是需要一个能在资源受限的环境下，稳定、高效完成推理任务的方案。

这就是我这次折腾的背景：在一块内存只有512MB的米尔i.MX6UL开发板上，移植并测试腾讯开源的神经网络推理框架ncnn。ncnn以其极致轻量、无第三方依赖、跨平台和针对移动端优化的特性而闻名。我的目标很明确——验证在这类典型的入门级嵌入式Linux平台上，部署和运行轻量级神经网络模型的可行性，并摸清其中的性能瓶颈和优化门道。这不仅仅是技术上的“炫技”，更是为那些需要在低成本、低功耗设备上增加智能感知功能的产品，探索一条切实可行的技术路径。

2. 核心需求与方案选型背后的考量

2.1 为什么是i.MX6UL和ncnn？

选择米尔i.MX6UL开发板作为实验平台，是基于其典型的“入门级”配置：单核Cortex-A7 @ 696MHz，512MB DDR3 RAM，无GPU/NPU加速单元。这个配置在嵌入式Linux产品中极具代表性。如果能在它上面跑通并优化AI推理，那么迁移到性能稍强的平台（如双核A7、A35等）将会更加顺畅。它的价值在于划定了一个性能基线。

而选择ncnn框架，则是经过多方对比后的决定。在嵌入式AI推理框架领域，除了ncnn，还有TFLite Micro、MNN、Paddle Lite等选项。我的决策逻辑如下：

无外部依赖：ncnn从设计之初就强调“框架零依赖”，编译后就是一个纯粹的C++库。这对于嵌入式Linux环境至关重要，意味着我们不需要在目标板上费力地部署复杂的运行时环境（如Python、Protobuf等），减少了系统复杂度，也提升了部署的可靠性。
体积与内存占用：ncnn核心库编译后，静态库大小可以控制在1MB以内，运行时内存占用也极为节俭。这对于内存仅512MB的i.MX6UL来说是生死攸关的优势。
CPU优化极致：既然i.MX6UL没有专用加速器，那么CPU就是唯一的算力来源。ncnn使用了大量手写汇编（如ARM NEON）对卷积、池化等核心算子进行优化，能够最大限度地榨干CPU的每一分性能。这对于纯CPU推理的场景是核心优势。
模型支持与工具链：ncnn支持主流的模型格式转换（如ONNX、TensorFlow、PyTorch via ONNX），并提供了param和bin的简洁模型文件格式。配套的模型优化工具ncnnoptimize和模型加密工具，也考虑到了实际产品化的需求。

相比之下，TFLite Micro更偏向于MCU级的超轻量部署，其算子库和功能在Linux上可能不如ncnn丰富；MNN同样优秀，但当时其社区活跃度和在纯ARM A系列上的优化案例，让我更倾向于选择ncnn作为首次探索。因此，“极致轻量”与“纯CPU高效”这两个特性，让ncnn与i.MX6UL的组合显得格外匹配。

2.2 项目目标拆解

这个项目并非简单地把库编译过去就完事。我将其分解为几个层次清晰的目标：

基础移植：在i.MX6UL的嵌入式Linux系统（以Buildroot构建为例）上，成功交叉编译ncnn库及其基础工具（如ncnnoptimize）。
功能验证：编写一个最简单的测试程序，能够调用ncnn库，加载一个微型模型（例如用于分类的SqueezeNet或MobileNet），并对一张静态图片进行推理，输出结果。
性能基准测试：定量评估推理性能。包括单次推理耗时、内存占用峰值。这是衡量可行性的关键数据。
优化探索：尝试ncnn提供的几种优化手段，如使用ncnnoptimize进行模型优化、尝试不同的线程数设置、测试FP16推理（如果CPU支持）等，观察性能提升效果。
稳定性与资源监控：长时间运行测试，监控CPU占用率、内存泄漏情况，确保在资源受限环境下的长期稳定性。

通过达成这五个目标，我们不仅能回答“能不能跑”的问题，更能回答“跑得怎么样”以及“怎么跑更好”的问题，形成一份完整的入门级嵌入式AI部署参考指南。

3. 开发环境搭建与交叉编译实战

3.1 宿主机构建与工具链确认

我的实验在Ubuntu 20.04 LTS的PC上进行。首先需要准备的是与米尔开发板配套的交叉编译工具链。通常，板卡供应商会提供SDK，其中就包含了工具链。以米尔为例，其提供的工具链可能是gcc-linaro-arm-linux-gnueabihf之类的。你需要确认工具链的路径，并将其加入环境变量。

# 假设工具链解压在了 /opt/toolchain/ 目录下 export TOOLCHAIN_PATH=/opt/toolchain/gcc-linaro-arm-linux-gnueabihf/bin export PATH=$TOOLCHAIN_PATH:$PATH export CC=arm-linux-gnueabihf-gcc export CXX=arm-linux-gnueabihf-g++

接下来，需要安装一些在PC端编译时可能用到的依赖，主要是为了编译ncnn的转换工具和示例。这些依赖（如Protobuf, OpenCV）只需要在x86_64的PC上安装，不需要安装到ARM工具链中，因为最终板子上运行的ncnn库是无依赖的。

sudo apt-get update sudo apt-get install build-essential cmake git libprotobuf-dev protobuf-compiler libopencv-dev

3.2 ncnn源码获取与交叉编译配置

从GitHub上克隆ncnn的源码。建议使用稳定发布版本，而非开发中的master分支，以获得更好的稳定性。

git clone https://github.com/Tencent/ncnn.git cd ncnn git checkout <某个稳定版本tag，如20230223>

创建用于交叉编译的构建目录并进入：

mkdir build-arm cd build-arm

关键的步骤在于CMake的配置。我们需要指定工具链文件（Toolchain File），这是交叉编译的标准做法。你可以创建一个简单的工具链文件，例如arm-linux-gnueabihf.toolchain.cmake：

# arm-linux-gnueabihf.toolchain.cmake set(CMAKE_SYSTEM_NAME Linux) set(CMAKE_SYSTEM_PROCESSOR arm) # 指定交叉编译器 set(CMAKE_C_COMPILER arm-linux-gnueabihf-gcc) set(CMAKE_CXX_COMPILER arm-linux-gnueabihf-g++) # 指定目标环境根目录（如果有的话，用于查找依赖） # set(CMAKE_FIND_ROOT_PATH /path/to/arm/sysroot) # 只在目标系统中查找库和头文件 set(CMAKE_FIND_ROOT_PATH_MODE_PROGRAM NEVER) set(CMAKE_FIND_ROOT_PATH_MODE_LIBRARY ONLY) set(CMAKE_FIND_ROOT_PATH_MODE_INCLUDE ONLY) set(CMAKE_FIND_ROOT_PATH_MODE_PACKAGE ONLY)

然后使用CMake进行配置，关闭一些在嵌入式环境不需要的选项以减小体积：

cmake -DCMAKE_TOOLCHAIN_FILE=../arm-linux-gnueabihf.toolchain.cmake \ -DCMAKE_BUILD_TYPE=Release \ -DNCNN_BUILD_EXAMPLES=OFF \ # 示例程序通常不需要 -DNCNN_BUILD_TOOLS=ON \ # 生成pc端的模型转换工具 -DNCNN_VULKAN=OFF \ # i.MX6UL无Vulkan，必须关闭 -DNCNN_AVX2=OFF \ # 非x86架构，关闭 -DNCNN_AVX=OFF \ -DNCNN_SSE2=OFF \ -DNCNN_RUNTIME_CPU=OFF \ -DNCNN_OPENMP=OFF \ # 嵌入式GCC可能不支持OpenMP，先关闭 -DNCNN_PIXEL=OFF \ -DNCNN_PIXEL_ROTATE=OFF \ ..

注意：-DNCNN_OPENMP=OFF是一个重要选择。虽然OpenMP可以利用多核，但i.MX6UL是单核，开启OpenMP反而会引入线程创建和管理的开销。对于多核CPU，可以尝试开启。另外，确保-DNCNN_VULKAN=OFF，否则编译会去寻找Vulkan SDK，导致失败。

配置完成后，开始编译：

make -j$(nproc)

编译成功后，在build-arm目录下的install文件夹中，你会找到编译好的库文件（libncnn.a静态库或.so动态库）和头文件。我们主要需要的是静态库libncnn.a和include目录下的头文件。

3.3 模型准备与转换

在PC上，我们需要将一个训练好的模型转换为ncnn格式。这里以经典的图像分类模型SqueezeNet 1.1为例。首先，你需要有模型的原始格式（如ONNX）。ncnn项目提供了预编译的模型转换工具，也可以从源码编译tools目录下的转换工具。

假设我们已经有了squeezenet1.1.onnx模型文件。使用ncnn提供的onnx2ncnn工具进行转换：

# 在ncnn源码的tools目录下，编译出 onnx2ncnn 工具（x86_64版本） cd /path/to/ncnn/tools mkdir build && cd build cmake .. && make -j$(nproc) # 转换模型 ./onnx2ncnn ../squeezenet1.1.onnx squeezenet1.1.param squeezenet1.1.bin

得到param（网络结构描述文件）和bin（模型权重文件）后，可以使用ncnnoptimize工具进行模型优化，这个步骤能融合一些操作，提升推理速度：

./ncnnoptimize squeezenet1.1.param squeezenet1.1.bin squeezenet1.1-opt.param squeezenet1.1-opt.bin 0

最后，将优化后的模型文件（squeezenet1.1-opt.param,squeezenet1.1-opt.bin）和一张用于测试的图片（如test.jpg）一起，准备好后续上传到开发板。

4. 嵌入式端部署与基础测试程序编写

4.1 开发板环境准备

将编译好的libncnn.a、头文件、模型文件、测试图片通过SD卡、U盘或网络（如scp）传输到米尔i.MX6UL开发板上。开发板上的Linux系统需要具备基本的C++运行时库（libstdc++），这通常由Buildroot或Yocto构建的系统默认提供。

登录开发板，创建一个工作目录，例如/home/root/ncnn_test，将上述文件放入。

4.2 编写最简单的测试程序

在开发板上，或者更常见的，在PC上交叉编译测试程序，然后拷贝到板子上。这里展示在PC上交叉编译的方法。

创建一个简单的C++源文件test_squeezenet.cpp：

#include <stdio.h> #include <algorithm> #include <vector> #include <opencv2/core/core.hpp> #include <opencv2/highgui/highgui.hpp> #include <opencv2/imgproc/imgproc.hpp> #include "net.h" // ncnn的头文件 static int detect_squeezenet(const cv::Mat& bgr, std::vector<float>& cls_scores) { ncnn::Net squeezenet; // 加载优化后的模型 if (squeezenet.load_param("squeezenet1.1-opt.param") != 0 || squeezenet.load_model("squeezenet1.1-opt.bin") != 0) { fprintf(stderr, "Load model failed.\n"); return -1; } // 将OpenCV的BGR图像转换为ncnn的输入格式 Mat // SqueezeNet输入要求为 227x227， BGR， 均值减 [104, 117, 123] ncnn::Mat in = ncnn::Mat::from_pixels_resize(bgr.data, ncnn::Mat::PIXEL_BGR, bgr.cols, bgr.rows, 227, 227); const float mean_vals[3] = {104.f, 117.f, 123.f}; in.substract_mean_normalize(mean_vals, 0); ncnn::Extractor ex = squeezenet.create_extractor(); ex.set_light_mode(true); // 启用轻量模式，节省内存 ex.set_num_threads(1); // 单核CPU，设置为1个线程 ex.input("data", in); // 输入blob名称为"data"，需与param文件对应 ncnn::Mat out; ex.extract("prob", out); // 输出blob名称为"prob" // 将输出结果拷贝到vector中 cls_scores.resize(out.w); for (int j=0; j<out.w; j++) { cls_scores[j] = out[j]; } return 0; } int main(int argc, char** argv) { if (argc != 2) { fprintf(stderr, "Usage: %s [imagepath]\n", argv[0]); return -1; } const char* imagepath = argv[1]; cv::Mat m = cv::imread(imagepath, 1); // 读取彩色图 if (m.empty()) { fprintf(stderr, "cv::imread %s failed\n", imagepath); return -1; } std::vector<float> cls_scores; detect_squeezenet(m, cls_scores); // 打印得分最高的前5个类别 std::vector<std::pair<float, int> > vec; vec.resize(cls_scores.size()); for (size_t i=0; i<cls_scores.size(); i++) { vec[i] = std::make_pair(cls_scores[i], i); } std::partial_sort(vec.begin(), vec.begin() + 5, vec.end(), std::greater<std::pair<float, int> >()); for (size_t i=0; i<5; i++) { fprintf(stdout, "%.4f - %d\n", vec[i].first, vec[i].second); } return 0; }

注意：这个示例为了简化，直接包含了OpenCV头文件并使用了cv::imread。在实际嵌入式部署中，为了极致精简，可以避免使用OpenCV，改用ncnn自带的图像加载函数（如load_image）或更轻量的stb_image库。这里使用OpenCV是为了演示的直观性。交叉编译时需要链接OpenCV的ARM版本库，这又是一项复杂的工作。对于产品化，推荐去除OpenCV依赖。

4.3 交叉编译测试程序

在PC上，使用同样的交叉编译工具链来编译这个测试程序。你需要指定ncnn的头文件路径、库文件路径以及OpenCV（如果用了）的ARM版本路径。

arm-linux-gnueabihf-g++ -std=c++11 test_squeezenet.cpp \ -I/path/to/ncnn/install/include/ncnn \ -I/path/to/arm-opencv/include \ -L/path/to/ncnn/install/lib \ -L/path/to/arm-opencv/lib \ -lncnn -lopencv_core -lopencv_imgproc -lopencv_highgui -lopencv_imgcodecs \ -lpthread -lstdc++ -lm -lz \ -o test_squeezenet_arm

将生成的可执行文件test_squeezenet_arm、模型文件、测试图片一起拷贝到开发板。

5. 性能测试、优化与深度调优实录

5.1 基础性能测试

在开发板上，运行测试程序，并使用time命令测量单次推理时间：

cd /home/root/ncnn_test time ./test_squeezenet_arm test.jpg

在我的米尔i.MX6UL开发板（单核A7 @ 696MHz，无NEON? 不对，Cortex-A7是支持NEON的）上，运行SqueezeNet 1.1对一张227x227图片进行推理，首次运行（涉及模型加载）耗时大约在1.8秒到2.5秒之间。后续推理（模型已加载）的耗时稳定在450毫秒到600毫秒左右。

这个数据如何解读？对于实时性要求不高的离线图片分类应用（例如，每分钟处理几张图片的设备状态识别），这个速度是可以接受的。但对于需要实时视频流分析（例如每秒25帧）的场景，单帧600ms的速度远远不够。这清晰地划定了此类入门级板卡运行“稍大”模型的性能边界。

使用top或htop命令观察运行时的CPU占用率，会发现单核CPU几乎被跑满（接近100%）。内存方面，使用free -m观察，运行程序后内存占用增加约50-80MB（包括模型权重、中间特征图等），这对于512MB总内存的系统来说，压力不大，但需注意如果系统还有其他服务在运行。

5.2 关键优化手段实践

仅仅跑通不是终点，优化才是嵌入式开发的精髓。以下是针对此平台尝试的几种优化方法及其效果：

使用ncnnoptimize优化模型：如前所述，这一步是基础。实测能使推理时间减少约5%-10%。它主要进行了算子融合和常量折叠，减少了计算量和内存访问。
调整ex.set_num_threads()：虽然i.MX6UL是单核，但ncnn内部可能有一些并行计算逻辑。将其设置为1是最合理的。尝试设置为2或4，反而会因为线程调度开销导致性能轻微下降。
启用ex.set_light_mode(true)：轻量模式会尝试更激进地复用内存，减少动态内存分配。在内存紧张的嵌入式环境，强烈建议开启。它对速度提升可能不明显，但对稳定性和减少内存碎片有帮助。
尝试FP16推理：ncnn支持将FP32模型权重转换为FP16进行推理，理论上可以提升速度并减少内存占用。但前提是CPU支持半精度计算指令。Cortex-A7的NEON单元支持半精度转换，但效率提升需要编译器生成特定代码。通过编译ncnn时开启-DNCNN_ARM82=OFF（默认）并调用ex.set_fp16_storage(true);，实测在i.MX6UL上性能提升微乎其微（<5%），有时甚至因转换开销而变慢。结论：对于A7这类老架构，FP16优化收益不大，可以暂时忽略。
最有效的优化：选择更轻量的模型：这是性能提升的“王道”。将模型从SqueezeNet 1.1（~4.8MB， 1.0 GFLOPs）换成更极致的模型，例如谷歌的MobileNetV1 0.25（~1.6MB， ~0.1 GFLOPs）或清华的ShuffleNetV2 0.5x。更换为MobileNetV1 0.25后，单次推理时间从~550ms骤降至120ms-150ms！这个速度已经可以应对一些低帧率（如5-8 FPS）的简单视频分析任务了。
输入分辨率调整：如果任务允许，降低模型的输入分辨率。将输入从224x224降到112x112，MobileNetV1的推理时间可以进一步降低到40ms-60ms（约15-25 FPS），这已经进入了“准实时”的范畴。当然，精度损失需要根据具体应用评估。

5.3 内存与稳定性压测

嵌入式设备需要长时间稳定运行。我编写了一个简单的循环推理脚本，让程序连续运行数小时甚至过夜。

#!/bin/sh while true; do ./test_squeezenet_arm test.jpg > /dev/null sleep 1 # 模拟每秒处理一帧的任务节奏 done

同时，使用vmstat或valgrind（如果板子能装）的简化版工具监控内存变化。在正确管理ncnn的Extractor和Mat对象（避免在循环内频繁创建销毁网络对象）的前提下，ncnn表现出良好的稳定性，内存占用在长时间运行后保持平稳，未观察到明显的内存泄漏。这得益于其谨慎的内部内存管理策略。

实操心得：在嵌入式环境，避免在推理循环内部调用load_param和load_model。应该在程序初始化时加载一次模型，创建好ncnn::Net对象和ncnn::Extractor对象（或每次循环复用Extractor）。频繁加载模型会引发大量的I/O和内存分配释放，是性能杀手和潜在的内存碎片来源。

6. 常见问题排查与避坑指南

在移植和测试过程中，我遇到了不少坑，这里总结出来，希望能帮你节省时间。

6.1 编译与链接问题

问题：交叉编译时，链接阶段报错，提示找不到-lopencv_highgui等库。
- 排查：嵌入式板卡的文件系统很可能没有安装完整的OpenCV。即使你在主机上交叉编译了OpenCV，其依赖的GUI库（如GTK）在板子上也可能没有。
- 解决：彻底避免在嵌入式程序中使用OpenCV的高层GUI和图片编解码功能。改用ncnn自带的load_image函数或轻量级库（如stb_image.h）读取图片。对于图像预处理（缩放、裁剪、色域转换），可以自己写简单代码或使用ncnn的Mat::from_pixels_*系列函数。
问题：板子上运行程序时，提示Illegal instruction或Floating point exception。
- 排查：最可能的原因是编译时使用的编译器优化指令集（如-march=armv7-a -mfpu=neon -mfloat-abi=hard）与板子CPU的实际能力不匹配。例如，你的工具链默认可能生成了VFPv4或NEON-FMA指令，但板子的内核或运行时库不支持。
- 解决：检查板子Linux内核的配置（/proc/cpuinfo看Features），确认支持的浮点和SIMD单元。在CMake配置ncnn时，显式指定正确的编译选项。对于i.MX6UL的Cortex-A7，安全的配置是：-DCMAKE_CXX_FLAGS="-march=armv7-a -mfpu=neon-vfpv4 -mfloat-abi=hard"。最保守的做法是使用板厂提供的工具链，它通常已经配置好了正确的目标架构。

6.2 运行时问题

问题：程序运行缓慢，远高于预期的推理时间。
- 排查1：首先确认是否在循环中重复加载模型。使用time命令区分首次运行和后续运行时间。
- 排查2：使用top查看CPU频率是否被限制。有些开发板为了省电，默认运行在低频率。可以尝试执行echo performance > /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor（需要root权限）将CPU频率锁定在最高。
- 排查3：检查系统负载。是否有其他进程占用了大量CPU？使用htop查看。
- 解决：优化代码逻辑，确保模型只加载一次；将CPU调控器设为performance；关闭不必要的后台服务。
问题：推理结果不正确或全是零。
- 排查1：输入数据预处理错误。这是最常见的原因。仔细核对模型训练时采用的预处理方式：是RGB还是BGR？均值减去了多少？是否做了归一化（如除以255）？ncnn的substract_mean_normalize函数参数顺序是mean_vals, norm_vals。
- 排查2：输入Blob名称不对。使用net.load_param("xx.param")后，可以用net.input_names()和net.output_names()打印出所有输入输出blob的名称，确保ex.input()和ex.extract()使用的名称完全一致。
- 排查3：模型转换出错。用ncnn提供的ncnn2mem工具或直接查看param文件，检查网络结构是否完整，特别是第一层输入和最后一层输出的名称。

6.3 性能优化瓶颈

瓶颈：CPU占用100%，但推理速度仍不满足要求。
- 分析：对于单核A7，这通常是算力到达瓶颈的标志。
- 行动路径：
  1. 换模型：毫不犹豫地选择更小、更高效的模型架构（MobileNet, ShuffleNet, GhostNet等）和更小的宽度乘数（Width Multiplier）。
  2. 降分辨率：降低模型输入尺寸，这是提升速度最有效的方法之一，但需权衡精度。
  3. 量化：尝试将模型从FP32量化到INT8。ncnn支持INT8推理，但需要校准数据并可能带来精度损失。对于A7，INT8推理能带来显著的加速（理论上2-4倍），但需要评估精度是否可接受。
  4. 升级硬件：如果上述方法都无法满足需求，那么就需要考虑更换性能更强的硬件平台，如搭载多核A53或带NPU的芯片（如i.MX8M Plus）。

这次在米尔i.MX6UL开发板上移植测试ncnn的经历，让我对嵌入式边缘AI的落地有了更实在的体会。它绝不是简单地把云端的模型搬过来就能跑，而是一场从模型选型、工程部署到性能调优的全面权衡。对于这类入门级板卡，我们的目标不是运行最先进的Transformer大模型，而是为具体的、细分的应用场景（如设备状态指示灯识别、简单的声音分类、传感器模式识别）寻找一个“刚刚好”的智能解决方案。ncnn框架的轻量与高效，为这个“刚刚好”提供了坚实的技术基础。当你成功将推理时间从秒级优化到百毫秒级，让一个低成本设备“睁开眼”、“听懂话”时，那种成就感正是嵌入式开发的乐趣所在。

查看全文

http://www.jsqmd.com/news/855319/