当前位置：首页 > news >正文

AIGlasses OS Pro 模型优化实战：针对STM32F103C8T6的轻量化模型部署

news 2026/3/26 5:59:03

AIGlasses OS Pro 模型优化实战：针对STM32F103C8T6的轻量化模型部署

最近有不少朋友在问，像AIGlasses OS Pro里那些能看懂世界的视觉模型，能不能塞进一个成本几十块钱、资源极其有限的单片机里跑起来？比如大家手头都有的那块“蓝色小药丸”——STM32F103C8T6最小系统板。

这想法听起来有点疯狂，毕竟这类模型动辄几十上百兆，而STM32F103C8T6只有64KB的RAM和512KB的Flash。但说实话，这事儿还真有得搞。我花了些时间，把AIGlasses OS Pro里的一个目标检测模型，成功优化并部署到了这块板子上，让它在资源捉襟见肘的环境下，也能实现实时的视觉感知。整个过程就像给一个胖子做极限减肥和体能训练，让他能穿上紧身衣跑马拉松。

这篇文章，我就来聊聊这趟“瘦身之旅”的完整经过。咱们不聊空泛的理论，就聚焦在怎么一步步把一个“大模型”变成“小模型”，最终在STM32上跑起来。如果你手头正好有块STM32F103C8T6，或者对边缘AI部署感兴趣，那这篇实战记录应该能给你一些直接的参考。

1. 为什么要在STM32上跑视觉模型？

你可能觉得，现在算力这么便宜，干嘛非跟单片机过不去？这里面的门道，其实在于“场景”二字。

想象一下这些情况：一个智能门锁需要识别门口的人是不是家庭成员；一个工业传感器需要实时检测流水线上的产品瑕疵；一个农业设备要判断作物生长状态。这些场景的共同点是，它们往往部署在网络条件不好、或者对响应延迟要求极高的地方。如果每个画面都要上传到云端处理，先不说网络延迟，单是隐私和安全性就是个大问题。

这时候，让设备自己“看懂”眼前的东西，就变得非常关键。STM32F103C8T6这类MCU，成本低、功耗小、可靠性高，是嵌入式领域的“国民级”芯片。如果能让它直接运行轻量化的AI模型，实现本地的智能决策，那很多边缘设备的智能化门槛和成本都会大幅下降。

当然，挑战也是显而易见的。核心矛盾就一个：模型的需求无限，而芯片的资源有限。AIGlasses OS Pro原生的模型是为算力更充裕的平台设计的，直接搬过来肯定跑不动。我们的核心任务，就是通过一系列技术手段，在模型精度和资源消耗之间，找到一个完美的平衡点。

2. 模型“瘦身”三板斧：剪枝、量化与转换

要把一个模型塞进STM32，光靠压缩软件是不行的，得从模型结构本身动手术。我主要用了三招：剪枝、量化和格式转换。

2.1 第一板斧：结构化剪枝

剪枝，顾名思义，就是给模型“剪枝去叶”。神经网络里有很多连接（权重），有些连接重要性很高，有些则可有可无。剪枝的目标就是找出那些不重要的连接并把它们去掉。

我用的是一种叫“结构化剪枝”的方法。它不像非结构化剪枝那样随机剪掉单个权重，而是剪掉整个滤波器（Filter）或者通道（Channel）。这样做的好处是，剪枝后的模型结构仍然是规则的，更容易被后续的编译器和硬件高效执行。

# 这是一个简化的剪枝流程示意代码，使用PyTorch和torch-pruning库 import torch import torch.nn as nn import torch_pruning as tp # 1. 加载预训练的AIGlasses OS Pro模型（假设是一个简单的CNN） model = load_pretrained_model('aiglasses_model.pth') model.eval() # 2. 定义要剪枝的层（例如，所有Conv2d层） example_input = torch.randn(1, 3, 96, 96) # 假设输入是96x96的RGB图 DG = tp.DependencyGraph().build_dependency(model, example_input=example_input) # 3. 选择剪枝策略：基于L1范数，剪掉每个卷积层中50%的通道 pruning_idxs = {} for module in model.modules(): if isinstance(module, nn.Conv2d): # 计算每个滤波器的L1范数作为重要性指标 importance = module.weight.abs().sum(dim=(1,2,3)) # 找出重要性最低的50%的索引 num_prune = int(module.out_channels * 0.5) prune_idx = importance.argsort()[:num_prune].tolist() pruning_idxs[module] = prune_idx # 4. 执行剪枝 for module, idxs in pruning_idxs.items(): plan = DG.get_pruning_plan(module, tp.prune_conv_out_channel, idxs) plan.exec() # 5. 微调（Fine-tune）剪枝后的模型，恢复精度 # ... 这里需要在自己的数据集上训练几个epoch

剪枝之后，模型的参数量和计算量（FLOPs）通常会下降30%-50%，但精度也会有些损失。所以剪枝后一定要用一个小的数据集再训练（微调）一下，让模型适应新的“瘦身”结构。

2.2 第二板斧：训练后量化

模型里的权重和激活值，通常是用32位的浮点数（float32）表示的。量化，就是把这些高精度的数，用更低比特位的数来表示，比如8位整数（int8）。

float32在内存中占4个字节，而int8只占1个字节。光是把权重从float32量化到int8，模型大小就能直接缩小4倍。同时，整数运算在像Cortex-M这样的CPU上，速度也比浮点运算快得多。

我采用的是训练后动态量化。这种方法不需要重新训练模型，而是在模型训练完成后，统计运行时激活值的范围，动态地确定量化参数。它特别适合在资源有限的设备上快速部署。

# PyTorch训练后动态量化示例 import torch.quantization # 1. 加载剪枝并微调后的模型 model = load_pruned_and_finetuned_model() model.eval() # 2. 量化模型配置 model.qconfig = torch.quantization.get_default_qconfig('qnnpack') # 针对ARM CPU的配置 # 3. 准备模型进行量化（插入观察器，用于收集数据范围） torch.quantization.prepare(model, inplace=True) # 4. 校准（用少量校准数据跑一遍模型，收集激活值的统计信息） with torch.no_grad(): for calibration_data in calibration_dataset: model(calibration_data) # 5. 转换模型为量化版本 quantized_model = torch.quantization.convert(model, inplace=False) # 保存量化后的模型 torch.jit.save(torch.jit.script(quantized_model), 'quantized_model.pt')

经过量化，模型从浮点模型变成了整数模型，体积大幅减小，为嵌入到Flash中扫清了障碍。

2.3 第三板斧：格式转换与优化

STM32上不能直接运行PyTorch的模型。我们需要把它转换成嵌入式设备友好的格式。主流有两个选择：TensorFlow Lite for Microcontrollers和ONNX Runtime for Microcontrollers。

我这次选择了TensorFlow Lite Micro，因为它对Cortex-M系列的支持非常成熟，社区资源也多。转换流程可以概括为：PyTorch -> ONNX -> TensorFlow -> TensorFlow Lite。

# 转换流程示意 (可能需要结合多种工具) # 1. PyTorch 转 ONNX torch.onnx.export(quantized_model, dummy_input, "model.onnx") # 2. 使用 onnx-tf 将ONNX转换为TensorFlow SavedModel格式 (命令行) # pip install onnx-tf # onnx-tf convert -i model.onnx -o model_savedmodel # 3. 使用TensorFlow的TFLiteConverter转换为TFLite格式 import tensorflow as tf converter = tf.lite.TFLiteConverter.from_saved_model('model_savedmodel') converter.optimizations = [tf.lite.Optimize.DEFAULT] # 启用默认优化 converter.target_spec.supported_ops = [tf.lite.OpsSet.TFLITE_BUILTINS_INT8] # 指定int8算子 converter.inference_input_type = tf.int8 # 设置输入输出类型 converter.inference_output_type = tf.int8 tflite_quant_model = converter.convert() # 4. 保存最终的.tflite文件 with open('model_int8.tflite', 'wb') as f: f.write(tflite_quant_model)

最终得到的这个.tflite文件，就是可以被TensorFlow Lite Micro解释器加载和运行的模型了。你还可以用xxd或类似工具把它转换成C语言数组，直接编译进你的固件里。

3. 在STM32F103C8T6上安家落户

模型准备好了，接下来就是把它“烧录”到STM32里，并让它跑起来。这里的关键是使用TensorFlow Lite Micro库。

3.1 工程搭建与模型集成

首先，你需要一个STM32的开发环境，比如STM32CubeIDE或者PlatformIO。然后，将TensorFlow Lite Micro的库集成到你的工程中。由于STM32F103资源紧张，我们通常只编译需要用到的算子，而不是整个库。

获取TFLite Micro库：从TensorFlow官方GitHub仓库获取源码。
模型转换为C数组：使用xxd命令将.tflite文件转换为C源文件。
```
xxd -i model_int8.tflite > model_data.cc
```
这会在model_data.cc里生成一个unsigned char数组，里面就是你的模型数据。
配置工程：将TFLite Micro源码、模型数据文件、以及必要的依赖（如CMSIS-NN加速库，如果可用）添加到你的IDE工程中。在编译选项中，务必开启C++11支持，并优化编译选项（如-Os优化尺寸）。

3.2 编写推理代码

在MCU的主循环中，你需要初始化解释器，分配张量（Tensor），然后运行推理。

// 简化的STM32推理代码框架 #include "tensorflow/lite/micro/all_ops_resolver.h" #include "tensorflow/lite/micro/micro_interpreter.h" #include "tensorflow/lite/schema/schema_generated.h" #include "model_data.h" // 由xxd生成的模型数据头文件 // 1. 定义Tensor Arena（非常重要！） // 这是模型运行时的工作内存，大小需要精心估算，通常通过实验确定。 const int kTensorArenaSize = 10 * 1024; // 例如10KB alignas(16) uint8_t tensor_arena[kTensorArenaSize]; void run_inference() { // 2. 加载模型 const tflite::Model* model = ::tflite::GetModel(g_model_data); // g_model_data来自model_data.h // 3. 注册模型用到的所有操作（算子） static tflite::AllOpsResolver resolver; // 4. 构建解释器 static tflite::MicroInterpreter interpreter( model, resolver, tensor_arena, kTensorArenaSize); // 5. 分配内存 interpreter.AllocateTensors(); // 6. 获取输入输出张量指针 TfLiteTensor* input = interpreter.input(0); TfLiteTensor* output = interpreter.output(0); // 7. 准备输入数据（例如，从摄像头读取一帧96x96的图像，并预处理为int8） // ... 你的图像采集和预处理代码 ... // 假设已经将图像数据存入了 input->data.int8 数组 // 8. 运行推理 TfLiteStatus invoke_status = interpreter.Invoke(); if (invoke_status != kTfLiteOk) { // 处理错误 return; } // 9. 处理输出结果 // output->data.int8 中就是推理结果，例如目标框和类别置信度 // ... 你的后处理代码 ... } int main() { // 硬件初始化（时钟、GPIO、摄像头等） // ... while(1) { if (new_image_available()) { run_inference(); } } }

这里最关键的环节是kTensorArenaSize的确定。它必须足够大以容纳所有的中间张量，但又不能太大以免耗尽RAM。一个实用的方法是先设一个大值，运行成功后通过打印interpreter.arena_used_bytes()来查看实际使用量，再逐步调整到最优值。

3.3 性能实测与调优

在我的实测中，针对一个简化后的目标检测任务（输入96x96 RGB图像，输出几个目标框），优化后的模型在STM32F103C8T6（72MHz主频）上的表现如下：

指标	原始模型 (FP32)	优化后模型 (INT8)	说明
模型大小	~2.5 MB	~65 KB	主要得益于剪枝和量化，可直接存入Flash
推理速度	无法运行	~450 ms	单次推理时间，基本满足某些实时性要求不高的场景
内存占用	远大于64KB	~28 KB (Tensor Arena)	在64KB RAM限制内
精度损失	基准 (mAP 0.75)	mAP 0.68	牺牲了约9%的精度，换取可部署性

这个速度对于实时视频流来说可能还有点吃力，但对于一些周期性抓拍分析的场景（比如每2秒分析一张图片），已经完全可以胜任。如果你用的是更高主频的STM32系列（如F4/F7/H7），速度会有数量级的提升。

4. 踩坑经验与实用建议

这条路走下来并不平坦，我总结了几条血泪教训，希望能帮你避坑：

从最简单的模型开始：别一上来就想部署YOLO。先从MNIST手写数字识别，或者一个极简的CNN分类模型开始，打通整个“训练-优化-转换-部署”的流程。流程通了，再换复杂的模型。
量化是收益最高的步骤：对于MCU部署，训练后INT8量化是性价比最高的优化手段，它能直接带来4倍的存储和内存带宽收益，以及显著的加速。应优先确保量化成功。
警惕内存这个“隐形杀手”：除了模型权重和Tensor Arena，别忘了你还需要内存来存放输入图像、中间预处理的结果、以及最终输出的解析数据。仔细计算你的内存预算，必要时使用内存池或动态管理技巧。
利用好硬件加速：STM32F103没有专门的AI加速器，但像STM32F4/F7系列有FPU，H7系列甚至有更强的算力。对于更复杂的模型，考虑升级硬件可能是更经济的选择。此外，可以尝试使用CMSIS-NN库，它针对ARM Cortex-M处理器高度优化了神经网络算子，能进一步提升INT8推理速度。
精度与资源的权衡是艺术：没有标准答案。你需要根据你的具体应用来回答：最低可接受的精度是多少？最大能容忍的延迟是多少？答案会决定你剪枝和量化的激进程度。