STM32嵌入式视频监控及智能识别系统
基于STM32的视频监控及智能识别系统方案,要求集成本地视频分析、WiFi联网、大模型语言对话和语音播报功能。这与纯语音对话的方案不同,核心在于增加了视频采集和本地推理能力。
为了覆盖方案所需的各个关键环节,从芯片选型、摄像头模组、AI推理框架、大模型对接和开发工具等几个方面同时入手,更高效地收集构建方案所需的技术信息。
STM32嵌入式视频监控及智能识别系统设计方案
一、系统概述与总体架构
1.1 项目定位
本项目设计一套基于STM32的嵌入式视频监控及智能识别系统。与纯语音交互设备不同,本系统的核心差异在于集成了摄像头视频采集与本地AI视觉推理能力——STM32主控通过DCMI接口驱动摄像头、运行目标检测模型,在边缘侧完成实时视频分析;同时通过WiFi联网连接LLM大模型,实现基于画面内容的智能对话与语音播报。
系统融合了“端侧视觉AI + 云端语义理解 + 语音交互”三类能力,可应用于智能安防、家庭监控、老人看护等场景。
1.2 总体架构图
┌──────────────────────────────────────────────────────────────────┐ │ 系统总体架构 │ ├─────────────┬───────────────────────┬─────────────────────────────┤ │ 视频采集层 │ 处理控制层 │ 输出/云端层 │ │ │ │ │ │ OV5640 │ STM32H743/H750 │ MAX98357A + 扬声器 │ │ 500万像素 │ (主控+AI推理核心) │ I2S音频放大器 │ │ DCMI接口 │ ↕ │ │ │ ↕ │ UART通信(3Mbps) │ ESP32-S3 │ │ DCMI+DMA │ FreeRTOS任务调度 │ WiFi联网 │ │ 图像采集 │ 本地目标检测推理 │ HTTP调用LLM API │ │ │ 外设管理与控制 │ 云端视觉理解(Qwen3-VL) │ │ │ │ 云端语音合成(TTS) │ └─────────────┴───────────────────────┴─────────────────────────────┘1.3 双核心设计说明
与纯语音方案类似,本系统也采用STM32 + ESP32-S3双核心协同架构:让STM32负责感知与控制,发挥高实时性、强外设驱动能力的优势;让ESP32-S3专注联网与上云,利用其原生WiFi和集成协议栈的强大网络功能。新增的视频处理职责由STM32主控承担(利用DCMI接口和AI推理能力),ESP32-S3仅负责网络通信和云端API调用,两者的职责边界清晰。
STM32侧职责:摄像头驱动与图像采集 → 图像预处理(缩放/归一化) → 本地目标检测/人脸识别推理 → 检测结果分析与告警判断 → 音频播放输出 → 按键/LED状态管理
ESP32-S3侧职责:WiFi连接管理 → 接收STM32发来的图像帧或检测结果 → 调用云端视觉理解API(Qwen3-VL) → 调用LLM对话API → 调用云端TTS → 音频数据回传STM32
二、硬件选型方案
2.1 详细物料清单(BOM)
| 序号 | 模块名称 | 推荐型号 | 核心参数 | 接口类型 | 估算价格(元) |
|---|---|---|---|---|---|
| 1 | 主控芯片 | STM32H743IIT6 | Cortex-M7, 480MHz, 2MB Flash, 1MB SRAM | — | |
| 2 | 摄像头模组 | OV5640 | 500万像素, DCMI并行接口, 支持JPEG压缩, 30fps@VGA | DCMI + I2C | |
| 3 | AI中枢/WiFi | ESP32-S3-WROOM-1 | 双核LX7, 240MHz, 8MB PSRAM, 16MB Flash | UART | |
| 4 | 扬声器功放 | MAX98357A | I2S输入, Class-D, 3.2W@4Ω | I2S | |
| 5 | 扬声器 | 3W/4Ω 小喇叭 | 直径28~36mm | 音频线 | |
| 6 | 电源模块 | AMS1117-3.3V + MP1584 5V | 5V→3.3V, 12V→5V | — | |
| 7 | OLED显示屏 | 0.96寸 SSD1306 | 128×64, 蓝/黄双色 | I2C | |
| 8 | Micro SD卡模块 | 标准SPI模块 | 8~32GB, 用于本地视频/图片存储 | SPI | |
| 9 | 红外补光灯 | 850nm LED灯板 | 夜视补光 | GPIO |
总BOM成本估算:约XXX元。若预算充足,推荐升级为STM32N6方案(见下文)。
2.2 关键器件选型详解
2.2.1 主控芯片:STM32H743/H750(基础方案)
STM32H743基于ARM Cortex-M7内核,主频480MHz,集成DCMI数字摄像头接口和DSP指令集,2MB Flash和1MB SRAM的存储配置足以运行轻量级目标检测模型。其DCMI外设可直连OV5640摄像头,最高支持54MB/s的数据吞吐,配合DMA可实现零CPU开销的图像采集。
更优方案:STM32N6——若预算允许,强烈推荐升级为STM32N6(Cortex-M55 @ 800MHz,集成0.6 TOPS算力的Neural-ART™ NPU加速器)。该芯片是ST推出的旗舰级边缘AI MCU,专为机器视觉设计,内置专用ISP图像处理器和H.264硬件编码器,支持1080p@15fps视频处理,可在MCU上直接运行Ultralytics YOLO模型实现实时目标检测,每次推理仅消耗9.4mJ能耗,全速运行无需额外散热。NPU能效高达3 TOPS/W。
2.2.2 摄像头模组:OV5640
OV5640基于豪威科技(OmniVision)方案,支持RGB565原始图像输出与JPEG压缩数据流两种核心工作模式,其原生集成JPEG硬件编码器,大幅降低主控MCU的图像处理负担。OV5640支持数字视频接口(DVP)和MIPI接口,STM32H743通过DCMI接口可直连DVP模式的OV5640模块。DCMI信号映射至特定GPIO引脚,需精确按照芯片数据手册的复用功能表进行连接。
关键信号连线:
- DCMI_HSYNC → GPIOA4(行同步)
- DCMI_VSYNC → GPIOA6(帧同步)
- DCMI_PCLK → GPIOA8(像素时钟)
- DCMI_D0-D7 → GPIOE0-PE7(8位并行数据总线)
工程约束:所有DCMI信号线必须等长布线,PCLK与D0-D7之间走线长度差应控制在50ps以内,否则高频下将导致图像出现随机雪花噪点或大面积错位。
2.2.3 扬声器方案:MAX98357A + I2S
音频播报通路沿用纯语音方案的成熟设计——STM32通过I2S外设驱动MAX98357A Class-D功放,驱动3W/4Ω扬声器。该芯片外围电路极简(只需少量电容电阻),I2S直连无需外部DAC。
2.2.4 备选摄像头方案对比
| 型号 | 分辨率 | 接口类型 | 帧率 | 特点 |
|---|---|---|---|---|
| OV5640 | 5MP | DVP / MIPI | 30fps | JPEG硬件编码,适配DCMI,性价比高 |
| OV2640 | 2MP | DVP | 30fps | 成本更低,JPEG压缩,适合低分辨率场景 |
| IMX219 | 8MP | CSI-2 | 30fps | 画质更优,差分信号抗干扰强 |
| GC032A | 0.3MP | DVP | 30fps | 极低成本方案,适合简单检测场景 |
三、软件架构与核心实现
3.1 软件总体架构
系统采用FreeRTOS实时操作系统管理多任务,在STM32侧运行视频采集、AI推理、音频播放和主控管理任务,在ESP32-S3侧运行WiFi管理和云端API交互任务。
┌────────────────────────────────────────────────────────┐ │ 系统软件架构 │ ├──────────────────────┬─────────────────────────────────┤ │ STM32侧任务 │ ESP32-S3侧任务 │ ├──────────────────────┼─────────────────────────────────┤ │ ① 摄像头采集任务 │ ① WiFi连接管理任务 │ │ (DCMI+DMA, 高优先级) │ (优先级: 高) │ │ │ │ │ ② AI推理任务 │ ② 云端视觉理解任务 │ │ (TFLM/NPU, 高优先级) │ (Qwen3-VL API, 优先级: 中) │ │ │ │ │ ③ 主控管理任务 │ ③ 云端TTS合成任务 │ │ (状态机, 优先级: 中) │ (优先级: 中) │ │ │ │ │ ④ 音频播放任务 │ ④ UART通信任务 │ │ (I2S+DMA, 高优先级) │ (优先级: 高) │ │ │ │ │ ⑤ UART通信任务 │ │ │ (优先级: 高) │ │ │ │ │ │ ⑥ 显示/存储任务 │ │ │ (优先级: 低) │ │ └──────────────────────┴─────────────────────────────────┘3.2 关键通信协议设计
交互流程(时序图):
摄像头 ──帧数据──▶ STM32 ──本地推理──▶ 检测结果(目标/人脸) │ ┌──────────┼──────────┐ ▼ ▼ ▼ 异常告警 主动查询 定时上报 │ │ │ └──────────┼──────────┘ ▼ ESP32-S3 (WiFi) │ ┌──────────┼──────────┐ ▼ ▼ ▼ Qwen3-VL LLM对话 TTS合成 (图像理解) (语义推理) (文字→语音) │ │ │ └──────────┴──────────┘ │ ▼ STM32 → MAX98357A → 扬声器播报“检测结果”数据帧结构:
| 字段 | 帧头 | 命令类型 | 检测目标数 | 目标信息数组 | 图像数据(可选) | 校验和 |
|---|---|---|---|---|---|---|
| 字节 | 2B (0xA5A5) | 1B | 1B | N×16B | 可变 | 1B (异或) |
每条目标信息包含:类别ID(2B)、置信度(float, 4B)、边界框坐标(x, y, w, h各2B)。
两种核心工作模式:
- 模式A(仅发检测结果):STM32本地推理后只发送结构化的检测文本信息(目标类别、位置、置信度),ESP32-S3基于文字描述生成语音播报。带宽需求低(~100B/帧),适合实时连续监控。
- 模式B(发图像帧):STM32将JPEG压缩的图像帧(含或不含检测标注)通过UART发送给ESP32-S3,由云端视觉理解API进行深度分析。单帧约10-50KB,适合按需触发的高层次语义分析。
3.3 本地AI推理实现
3.3.1 模型获取
意法半导体STM32 AI Model Zoo已收录超过140个预训练AI模型,涵盖视觉、音频和感知三大领域。Model Zoo不只是一个模型目录,还提供全流程开发方案,包括辅助训练脚本和应用软件库集成工具。模型可在GitHub官方仓库(github.com/STMicroelectronics/stm32ai-modelzoo)获取。
3.3.2 模型部署流程
使用STM32CubeMX工具安装X-CUBE-AI插件,该扩展包可评估、优化并编译边缘AI模型至STM32微控制器及Neural-ART加速器。完整部署流程:从官方渠道获取模型文件 → 在CubeMX中安装X-CUBE-AI插件 → 加载.tflite或.onnx模型 → 配置神经网络参数 → 自动生成推理代码 → 在应用层调用API进行推理。
3.3.3 推理代码示例(STM32H743 + TFLM)
在STM32上实现目标检测通常依赖TensorFlow Lite for Microcontrollers框架,结合CMSIS-NN优化库提升推理效率。典型模型性能如下:
| 模型名称 | 参数量 | 推理时间(STM32H743) | 准确率 |
|---|---|---|---|
| Tiny Face Detector | ~120K | 85ms | 89.2% |
| MobileNetV2-SSDLite | ~2.6M | 210ms | 93.5% |
核心推理代码框架:
#include"tensorflow/lite/micro/micro_interpreter.h"// 模型文件(已转换为C数组的.h文件)#include"person_detect_model.h"// 张量内存池staticuint8_ttensor_arena[128*1024];// 128KBvoidai_inference_task(void*pvParameters){// 初始化TFLM解释器statictflite::MicroInterpreterinterpreter(tflite::GetModel(person_detect_model_data),resolver,tensor_arena,sizeof(tensor_arena));interpreter.AllocateTensors();while(1){// 等待摄像头采集完成信号ulTaskNotifyTake(pdTRUE,portMAX_DELAY);// 获取输入张量指针uint8_t*input=interpreter.input(0)->data.uint8;// 图像预处理:RGB565 → 灰度图,缩放至模型输入尺寸PreprocessImage(camera_buffer,input,kModelInputSize);// 执行推理TfLiteStatus status=interpreter.Invoke();// 解析输出结果float*output=interpreter.output(0)->data.f;ParseDetectionResult(output);// 提取类别、置信度、边界框// 根据检测结果触发相应动作ProcessDetectionEvents();}}若使用STM32N6,推理性能将大幅提升。ST与Ultralytics合作,在STM32N6上成功部署YOLO模型,实现了仅9.4mJ/次推理的极低能耗实时目标检测,且保持高准确率,开启了MCU上嵌入式视觉AI的新可能。
3.3.4 DCMI摄像头驱动核心要点
OV5640通过SCCB(Serial Camera Control Bus,与I²C电气兼容)配置寄存器,通过DCMI并行接口传输图像数据。驱动需注意:
- 时钟域匹配:OV5640在VGA分辨率下的PCLK频率必须与DCMI外设时钟及DMA传输带宽严格匹配,PCLK过高会导致DCMI FIFO溢出产生不可逆丢帧,过低则浪费带宽
- 信号完整性:所有DCMI信号线等长布线,PCLK与D0-D7走线长度差控制在50ps以内
- JPEG模式:利用OV5640的硬件JPEG编码器输出压缩流,大幅减小图像数据量,适合WiFi传输场景
3.4 云端视觉理解API集成
3.4.1 API选型推荐
| API服务 | 模型 | 核心能力 | 特点 |
|---|---|---|---|
| 阿里云百炼 | Qwen3-VL-Plus | 图像理解、物体识别、场景描述 | 支持高分辨率图像,中文理解优秀 |
| 通义千问 | Qwen3-VL | 视觉Agent、空间感知、2D/3D定位 | 万物识别,支持对长视频进行理解和秒级事件定位 |
| 阿里云百炼 | Qwen3-Max | 多模态对话、深度推理 | 可免费体验,也可通过API调用 |
3.4.2 图像分析工作模式
定时分析模式:每5~30秒抓取一帧,由Qwen3-VL分析画面内容,生成场景描述(如“画面中有一位老人在客厅沙发上坐着”),适用于环境状态理解。
事件触发模式:当STM32本地推理检测到异常事件(如人员闯入、跌倒检测)时,自动抓取关键帧发送至云端进行深度分析,生成具体的告警描述和建议。
主动查询模式:用户通过语音提问(如“门口刚才有人吗?”),系统调取最近的关键帧发送至LLM进行分析并语音回复。
3.5 语音交互与播报实现
语音播报通路设计如下:
ESP32-S3云端TTS → 音频数据(UART) → STM32接收缓冲 → I2S DMA输出 → MAX98357A → 扬声器- 云端TTS:使用阿里云CosyVoice或火山引擎TTS,多音色可选,MOS评分>4.0,合成延迟目标<150ms
- I2S音频输出:采样率16kHz,16位深度,DMA双缓冲模式
- 播报内容:检测告警(“检测到有人进入监控区域”)、场景描述(“画面中有一人坐在沙发上”)、对话回复(LLM生成的对话内容)
备选方案:如需完全离线播报,可使用SYN6288中文语音合成模块(UART接口,支持GB2312编码,延迟<200ms),适合网络不稳定场景。
3.6 本地视频存储方案
系统通过SPI接口连接Micro SD卡(FatFS文件系统),在检测到关键事件时自动存储截图或短视频片段:
- 触发条件:本地推理检测到目标/人脸事件
- 存储格式:JPEG图片(每次触发存储13帧)或MJPEG短视频(35秒片段)
- 文件管理:按日期分目录,循环覆盖最旧文件(保留最近7天)
利用OV5640的JPEG硬件编码器输出压缩流,单帧仅10~50KB,32GB SD卡可存储数十万张截图或数万条短视频片段。
四、系统工作模式详解
4.1 持续监控模式(低功耗)
系统持续进行本地视频分析(每200~500ms推理一帧),当检测到异常事件(人员闯入、物品移动等)时触发以下动作:
- 自动抓拍关键帧存入SD卡
- 通过ESP32-S3将告警信息和图像发送至云端视觉理解API进行深度分析
- 扬声器播报告警内容(如“检测到门口区域有人移动”)
- 可选:通过WiFi推送告警通知至手机APP
4.2 语音对话模式(交互式)
用户通过按键触发或说出唤醒词“你好小智”,系统进入对话模式:
- 用户用自然语言提问(如“门口有没有人经过?”、“帮我看看客厅什么情况”)
- ESP32-S3将语音发送至云端ASR识别为文本
- STM32根据指令抓取当前画面帧,发送给ESP32-S3
- ESP32-S3将图像和用户问题一并提交至Qwen3-VL视觉理解模型
- LLM基于画面内容生成自然语言回复(如“门口目前没有人,走廊灯还亮着”)
- 云端TTS将回复文本转为语音
- 扬声器播报回复
4.3 定时巡检模式
系统按预设时间间隔(如每30分钟)自动抓取画面,通过Qwen3-VL生成场景摘要并存入日志,用户可随时通过语音查询“今天下午家里有什么异常吗?”获取汇总信息。
五、详细实施步骤
5.1 第一阶段:开发环境搭建(1~2天)
STM32侧:
- IDE:STM32CubeIDE(免费)
- AI工具链:STM32CubeMX + X-CUBE-AI扩展包
- 实时操作系统:FreeRTOS(CubeIDE内置)
- 推理框架:TensorFlow Lite for Microcontrollers + CMSIS-NN
ESP32-S3侧:
- 开发框架:ESP-IDF v5.x
- IDE:VS Code + ESP-IDF插件
云端准备:
- 注册阿里云账号,开通百炼平台API
- 获取AccessKey ID与AccessKey Secret用于API鉴权
5.2 第二阶段:硬件搭建与调试(2~3天)
- 焊接STM32H743最小系统,确保晶振和复位电路正常
- 连接OV5640摄像头模块(注意DCMI信号线等长布线)
- 焊接ESP32-S3模块和MAX98357A功放电路
- 焊接Micro SD卡槽和OLED显示屏
- 测试I2C通信,确认能读写OV5640寄存器
- 测试DCMI采集,确认能正常获取图像帧
5.3 第三阶段:基础驱动开发(3~5天)
- DCMI + DMA配置:完成OV5640初始化、图像采集(RGB565/JPEG模式)
- I2C配置:OV5640寄存器初始化序列(时钟、分辨率、帧率、白平衡等)
- I2S初始化:音频输出通路(16kHz, 16位, DMA双缓冲)
- UART初始化:STM32 ↔ ESP32-S3通信(3Mbps高速模式)
- SPI SD卡驱动:FatFS文件系统挂载
- I2C OLED驱动:状态和信息显示
5.4 第四阶段:AI模型部署(3~5天)
- 从STM32 AI Model Zoo获取预训练的人物检测模型(
.tflite格式) - 使用CubeMX的X-CUBE-AI插件加载模型,验证其在目标MCU上的推理性能和内存占用
- 生成推理代码并集成到STM32工程
- 编写图像预处理函数(缩放、格式转换、归一化)
- 编写后处理函数(解析检测框、类别、置信度)
- 端到端测试:摄像头采集→推理→结果输出
5.5 第五阶段:云端API集成(3~4天)
- 在ESP32-S3上实现WiFi STA模式连接
- 实现Qwen3-VL API调用(上传图像帧,获取场景描述)
- 实现LLM对话API调用(通义千问/文心一言)
- 实现云端TTS API调用(文本→语音)
- UART通信协议联调(STM32 ↔ ESP32-S3)
- 端到端测试:图像采集→本地推理→云端分析→语音播报
5.6 第六阶段:系统集成与优化(3~5天)
- 全链路延迟优化(目标:本地推理<300ms,云端分析<2s,语音播报<500ms)
- 多任务优先级调优
- WiFi断网重连和错误恢复机制
- 看门狗定时器防止系统卡死
- 功耗优化(摄像头休眠/唤醒策略)
- SD卡循环存储和文件管理
六、关键技术细节与注意事项
6.1 DCMI信号完整性
DCMI是一组高速并行数字信号,OV5640在VGA@30fps下PCLK约24MHz。所有DCMI信号线必须等长布线,尤其PCLK与D0-D7之间走线长度差应控制在50ps以内(约7.5mm FR4板材),否则在高频下将导致建立/保持时间违规,表现为图像出现随机雪花噪点或大面积错位。建议使用4层PCB,将DCMI信号线走在内层并包地处理。
6.2 SCCB寄存器配置注意事项
OV5640的SCCB虽与I²C电气兼容,但存在关键差异:不支持连续读写,每次寄存器访问必须以独立的START-STOP序列完成,否则传感器将忽略后续数据。此外,OV5640采用双寄存器组架构,通过特殊寄存器0xFF(SUBADDR)切换当前操作地址空间(DSP寄存器组 / 传感器寄存器组),这在初始化序列中必须严格按照数据手册顺序操作。
6.3 图像帧传输带宽管理
UART 3Mbps ≈ 实际有效吞吐约300KB/s。单帧VGA JPEG约1530KB,传输需50100ms,因此图像帧传输不适合每帧都发送,建议仅在本地推理触发事件时发送关键帧(截图模式)。
6.4 内存管理与DMA缓冲区
STM32H743可用SRAM约1MB,需合理分配:摄像头DMA双缓冲(约150KB×2)、AI推理张量内存池(128256KB)、TTS音频缓冲(64KB)、FreeRTOS任务堆栈(各416KB)。建议使用内存分区管理和静态分配策略避免碎片化。
6.5 NPU与STM32N6迁移注意事项
若从STM32H743升级到STM32N6,需注意NPU推理API与TFLM/CMSIS-NN存在接口差异。X-CUBE-AI可自动生成NPU加速代码,但模型需要专门针对Neural-ART™加速器优化(量化策略和算子支持范围有差异),不能直接复用H7系列上的模型文件。
七、系统工作流程示例
示例场景:家庭安防监控
时间线:系统持续运行中... T+0s: OV5640持续采集VGA@15fps图像帧 T+0.1s: STM32本地推理检测到"人员"目标 (置信度0.92) T+0.2s: 目标位于画面"门口区域" T+0.3s: STM32通过UART发送告警帧至ESP32-S3 (含检测结果 + JPEG截图) T+0.5s: ESP32-S3将截图发送至Qwen3-VL API T+1.2s: Qwen3-VL返回:"画面中一名穿红色外套的女性正推门进入,身后无其他人" T+1.3s: ESP32-S3调用LLM生成语音播报文本: "门口检测到一位穿红色外套的女士进入,未发现其他人跟随" T+1.5s: ESP32-S3调用TTS API合成语音 T+2.0s: 音频数据回传STM32 T+2.0~3.0s: 扬声器播报告警内容 T+3.0s: 系统恢复监控状态,继续下一轮检测用户主动查询场景:
用户: "小智,看看门口有没有快递?" ↓ ASR识别 → 文本:"看看门口有没有快递" ↓ STM32抓拍门口区域当前帧 ↓ Qwen3-VL分析:"画面中门口地垫上有一个棕色纸箱,尺寸约30×20cm" ↓ LLM生成回复:"门口有一个棕色纸箱快递,大约30乘20厘米大小" ↓ TTS合成 + 扬声器播报八、与其他方案对比
| 对比维度 | 本方案(STM32H7+ESP32-S3+云端) | 纯ESP32-S3方案 | 纯STM32N6方案 | 纯云端方案(树莓派) |
|---|---|---|---|---|
| 本地AI推理 | 支持(TFLM,~85-210ms/帧) | 有限(TFLM性能较低) | 强(NPU 0.6TOPS,YOLO实时) | 支持(GPU加速) |
| WiFi通信 | ESP32-S3专用 | 集成 | 需外挂WiFi模块 | 集成 |
| 功耗 | 中(双芯片) | 低(单芯片) | 中低(单芯片+NPU高效) | 高(Linux系统) |
| 硬件BOM | ~155元 | ~80元 | ~180元 | ~250元+ |
| 实时性 | 好(FreeRTOS) | 一般 | 优秀(NPU硬加速) | 一般(非实时OS) |
| 开发难度 | 中等 | 较低 | 中等 | 较低 |
| 适用场景 | 通用安防监控 | 简单图传 | 专业端侧AI相机 | 快速原型 |
九、总结
本方案基于STM32H7+ESP32-S3双核心架构,结合STM32 AI Model Zoo预训练模型和云端大模型API,实现了一套完整的嵌入式视频监控及智能识别系统。核心优势:
- 端侧+云端的混合智能:本地推理实现低延迟实时检测,云端视觉理解模型实现高层次语义分析,两者互补形成完整的智能感知链路
- 成本可控:硬件BOM约155元,云端API提供免费额度
- AI生态成熟:ST官方提供140+预训练模型和X-CUBE-AI部署工具,从模型获取到部署都有现成的全流程方案支持
- 可扩展性强:模块化架构设计,可根据需求灵活升级为STM32N6 NPU方案
推荐入门路径:先用STM32H743 + OV5640完成基础图像采集和本地推理,再接入ESP32-S3实现云端API调用和语音播报,最后根据性能需求决定是否升级至STM32N6 NPU方案。
