当前位置：首页 > news >正文

入门级项目应用：基于ESP32-CAM的人体检测演示

news 2026/3/28 19:09:20

从零开始做一个会“看人”的小摄像头：ESP32-CAM + 轻量AI实战手记

你有没有想过，花不到一杯奶茶的钱，就能做出一个能识别人、自动报警、还能联网发消息的智能摄像头？听起来像科幻片？其实，这在今天已经不是梦。而且，你不需要是算法专家，也不用买几千块的开发板——一块ESP32-CAM，加上一点代码，就能搞定。

这个项目不炫技，也不堆参数，它要解决的是一个最实际的问题：如何让一个小设备“看见”人，并做出反应？它适合刚入门嵌入式的朋友，也适合想动手试试边缘AI的开发者。接下来，我会带你一步步拆解整个流程，把那些看起来高深的技术术语，变成你能真正上手的东西。

为什么选 ESP32-CAM？

先别急着写代码，我们得搞清楚：为啥非要用这块板子？

市面上做视觉项目的硬件不少，树莓派、Jetson Nano、甚至手机都能跑AI模型。但它们要么贵，要么耗电，要么太重，不适合长期部署在角落里默默工作。而 ESP32-CAM 不一样：

便宜到离谱：淘宝上不到60元就能买到带OV2640摄像头的完整模块；
自带Wi-Fi：拍完照片直接传出去，不用额外加通信模块；
体积小巧：比一张银行卡的一角还小，藏哪儿都行；
支持Arduino：哪怕你是新手，也能快速上手编程；

更重要的是，它足够“聪明”——双核240MHz处理器 + 512KB内存，虽然不能跑大模型，但对付一个轻量级的人体检测任务，绰绰有余。

📌一句话总结：你要做一个低成本、低功耗、能联网、还会“看人”的小玩意儿？ESP32-CAM 就是最合适的起点。

它是怎么“看见”人的？图像采集与处理链路揭秘

我们常说“摄像头拍照”，但在机器眼里，“看”和“理解”是两回事。ESP32-CAM 的“视觉系统”其实分三步走：

第一步：拍照 —— OV2640 拍下原始画面

ESP32-CAM 默认搭载的是OV2640 图像传感器，支持最大200万像素（1600×1200），通过DVP并行接口传输数据。每次启动时，主控芯片会通过I²C配置它的分辨率、亮度、对比度等参数。

但注意：ESP32 内存有限，不可能处理原始RAW图。所以通常我们会让它直接输出JPEG压缩格式，这样一张QVGA（320×240）图片只有几KB，大大减轻负担。

第二步：缩放裁剪 —— 把大图喂给AI模型

AI模型可不管你拍得多清楚，它只认固定尺寸的输入。比如常见的轻量人体检测模型，输入一般是96×96 或 48×48 像素的灰度图。

所以我们得把摄像头拍下来的图裁出来一块，缩放到目标大小，再做归一化处理（比如减去128，映射到[-128, 127]区间）。这部分操作可以用 LVGL 库或自己写的图像处理函数完成。

第三步：推理判断 —— “这个人是真的吗？”

这才是真正的“智能”环节。我们不会把整张高清图上传到云端分析，而是让ESP32本地运行一个极小的神经网络模型，快速判断：“当前画面里有没有人？”

用的就是 Google 推出的TensorFlow Lite Micro（TFLM）—— 专为MCU设计的微型AI推理引擎。

在MCU上跑AI？TensorFlow Lite Micro 到底怎么玩

很多人一听“AI”就怕了，觉得必须会Python、懂反向传播、会调参。但在这个项目里，你只需要知道三件事：

模型是别人训练好的（开源可用）；
我们只是把它“塞进”ESP32；
然后调用几个API，让它干活。

就这么简单。

模型从哪来？

Google 官方提供了一个经典的person_detection示例模型，基于 MobileNetV1 改造，专门识别“有人”还是“没人”。这个模型经过量化压缩后，只有大约90KB，完全可以放进ESP32的Flash里。

你可以从 TensorFlow 的 GitHub 仓库下载.tflite文件，然后用工具（比如xxd）转成 C 语言数组：

xxd -i person_detect_quantized.tflite > model_data.cc

生成的结果长这样：

const unsigned char person_model_data[] = { 0x1c, 0x00, 0x00, 0x00, 0x54, 0x46, 0x4c, 0x33, ... }; const int person_model_data_len = 90876;

把这个数组复制进你的 Arduino 项目，就相当于把“大脑”装进设备了。

怎么让它动起来？核心代码解析

下面这段代码，就是让AI模型真正“工作”的关键部分。我已经加了详细注释，哪怕你是第一次接触TFLM，也能看懂每一步在干啥。

#include "tensorflow/lite/micro/all_ops_resolver.h" #include "tensorflow/lite/micro/micro_interpreter.h" #include "tensorflow/lite/schema/schema_generated.h" #include "tensorflow/lite/version.h" // 引入前面转换好的模型数据 extern const unsigned char person_model_data[]; extern const int person_model_data_len; // 定义临时内存池（tensor arena），至少16KB constexpr int tensor_arena_size = 16 * 1024; uint8_t tensor_arena[tensor_arena_size] __attribute__((aligned(16))); void setup() { // 1. 加载模型结构 const tflite::Model* model = tflite::GetModel(person_model_data); if (model->version() != TFLITE_SCHEMA_VERSION) { Serial.println("模型版本不匹配！"); return; } // 2. 注册所有需要用到的操作（卷积、激活函数等） static tflite::MicroAllOpsResolver resolver; // 3. 创建解释器，连接模型、操作集和内存区 static tflite::MicroInterpreter interpreter(model, resolver, tensor_arena, tensor_arena_size); // 4. 分配张量内存（输入/输出缓冲区） TfLiteStatus allocate_status = interpreter.AllocateTensors(); if (allocate_status != kTfLiteOk) { Serial.println("内存分配失败！"); return; } // 5. 获取输入张量指针，准备填入图像数据 TfLiteTensor* input = interpreter.input(0); // --- 这里省略图像预处理逻辑 --- // 实际中你需要： // - 从摄像头获取一帧 // - 裁剪缩放至96x96 // - 转为单通道灰度图 // - 归一化像素值：int8_val = pixel - 128 for (int i = 0; i < input->bytes; ++i) { input->data.int8[i] = camera_buffer_normalized[i]; } // 6. 执行推理！ TfLiteStatus invoke_status = interpreter.Invoke(); if (invoke_status != kTfLiteOk) { Serial.println("推理执行失败！"); return; } // 7. 读取输出结果 TfLiteTensor* output = interpreter.output(0); float no_person_score = output->data.f[0]; // 类别0：无人 float person_score = output->data.f[1]; // 类别1：有人 // 8. 判断是否检测到人（置信度 > 70%） if (person_score > 0.7) { digitalWrite(LED_BUILTIN, HIGH); // 点亮LED Serial.println("✅ 检测到人体！"); } else { digitalWrite(LED_BUILTIN, LOW); Serial.print("❌ 无人 | 置信度: "); Serial.println(person_score, 3); } }

✅重点提示：
-tensor_arena是一块静态内存池，用来存放中间计算结果；
- 输入张量通常是int8类型（INT8量化），所以输入值要调整到 [-128, 127]；
- 输出是两个浮点数，表示“无人”和“有人”的概率，总和为1；

把这个逻辑封装成一个函数，放在主循环里每隔1~2秒运行一次，你就有了一个持续“观察环境”的AI眼睛。

整体系统怎么搭？不只是检测，还要能用

光会“看”还不够，我们还得让设备“说话”和“行动”。

典型应用场景架构

[摄像头] → [ESP32-CAM] → Wi-Fi → [MQTT服务器 / Web服务] ↓ [手机APP / 网页面板]

具体可以实现这些功能：

功能	实现方式
本地响应	检测到人时点亮LED、触发蜂鸣器
远程通知	通过HTTP POST发送告警，或发布MQTT消息
查看快照	启动一个小型Web服务器，浏览器访问IP即可看图
节能运行	配合PIR红外传感器，只在有人移动时唤醒摄像头

如何降低功耗？实用技巧分享

ESP32-CAM 最大的问题之一就是待机电流偏高（约60mA），如果用电池供电，撑不过几天。怎么办？

✅ 方案一：使用深度睡眠 + PIR唤醒

让ESP32平时处于深度睡眠模式（电流<10μA），由外部HC-SR501 PIR人体红外传感器检测运动。一旦感应到动静，就通过GPIO中断唤醒ESP32，再启动摄像头进行AI确认。

这样平均功耗可以降到0.1mA以下，用两节AA电池能撑几个月。

✅ 方案二：降低推理频率

不要每秒都检测。设置间隔为2~3秒一次，既能保证响应性，又能减少CPU负载和发热。

常见坑点与避坑指南

我在调试过程中踩过不少坑，这里列几个你可能会遇到的问题：

❌ 问题1：模型加载失败，报“schema version mismatch”

原因：你用的新版TensorFlow训练的模型，和TFLM库版本不兼容。
解决办法：确保使用的TFLM库来自https://github.com/tensorflow/tflite-micro的官方分支，且模型是为micro环境导出的。

❌ 问题2：内存不足，AllocateTensors失败

原因：默认的tensor_arena太小，或者模型太大。
建议：将arena设为16KB或32KB；优先选用官方提供的person_detection_int8模型。

❌ 问题3：图像模糊、色彩异常

原因：OV2640初始化参数没配好，或者电源不稳定导致数据线干扰。
建议：
- 使用camera_config_t正确设置XCLK频率（通常设为10MHz）；
- 给模块单独供电（5V→3.3V LDO），避免USB供电压降；
- 数据线尽量短，远离高频信号源。

可以怎么扩展？不止于“检测人”

一旦你跑通了基础版本，后续玩法就多了：

加入人脸识别：换用更复杂的Face Detection模型，识别特定人脸；
行为判断：结合时间序列分析，判断“停留过久”或“频繁进出”；
联动智能家居：检测到人自动开灯、拉窗帘、启动空调；
边缘+云端协同：本地初筛，疑似情况上传云端复核；
OTA升级模型：远程更新AI模型，适应不同环境需求；

甚至可以把多个ESP32-CAM组成“监控网络”，通过WiFi Mesh自组网，覆盖更大区域。

写在最后：小实验，大意义

这个项目看似简单：一个摄像头，一段代码，一个LED灯。但它背后代表的是现代嵌入式系统的三个核心能力——感知、智能、联网。

它告诉我们：AI不再是实验室里的奢侈品，也不是必须依赖云服务器的重型应用。借助像 ESP32-CAM 这样的平台，普通人也能做出有“脑子”的设备。

更重要的是，这种项目打通了理论和实践之间的最后一公里。你看过的CNN原理、学过的C++语法、了解过的物联网协议，终于在一个真实的作品里交汇。

所以，如果你还在犹豫要不要动手，我的建议是：去买一块ESP32-CAM，今晚就点亮第一个LED。

当你看到那个小灯因为“看见”了你而亮起时，你会明白——这不是电路，这是创造。

🔗资源推荐：
- 官方案例： TensorFlow Lite Micro Person Detection
- Arduino库：ESP32 Camera Web Server示例
- 工具： Netron 查看.tflite模型结构
- 社区：Arduino论坛、ElectroDragon、Hackster.io 上有大量实战项目参考

如果你在实现过程中遇到了其他挑战，欢迎在评论区分享讨论。我们一起把这件小事，做得更聪明一点。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/124331/