当前位置：首页 > news >正文

从零构建自动驾驶小车：树莓派+CNN+PID控制全流程实践

news 2026/5/29 6:12:34

1. 项目概述：一年之约，从零到一造一辆机器学习驱动的自动驾驶小车

去年年初，我给自己定下了一个近乎疯狂的目标：用一年的业余时间，从零开始，打造一辆具备基础自动驾驶能力的实体小车。这不是一个纯软件仿真项目，而是涉及硬件选型、机械组装、传感器集成、算法开发与部署的全栈式挑战。我的初衷很简单，就是想亲手摸一摸自动驾驶技术从理论到落地的每一个环节，搞清楚那些在论文和新闻里看起来“高大上”的技术，在实际中到底会遇到哪些“接地气”的麻烦。一年下来，这台被我戏称为“蜗牛号”的小车，已经能在我的客厅里稳定地沿着预设的赛道（其实就是用黑色电工胶带贴的）巡航，并识别出几个简单的路标进行交互。整个过程充满了挫败感，也收获了无与伦比的成就感。如果你也对机器学习、嵌入式开发或者机器人学感兴趣，想亲手实现一个看得见摸得着的AI项目，那么我这一年踩过的坑、总结的经验，或许能为你省下不少时间。

这个项目的核心，是构建一个完整的“感知-决策-控制”闭环。感知层，我用一个普通的USB摄像头充当“眼睛”，用机器学习模型（主要是卷积神经网络CNN）来理解它看到的图像，识别车道线、停止线、交通锥桶等。决策层，则根据感知结果，决定小车是该直行、转弯还是停车。控制层，最终将决策转化为对电机和舵机的具体指令，让小车真正动起来。整个系统跑在一块树莓派上，所有算法都部署在边缘端，实现真正的“端上智能”。接下来，我将详细拆解这三大核心环节的实现过程、工具选型背后的思考，以及那些让我熬了好几个通宵的典型问题。

2. 整体架构设计与核心思路拆解

在项目启动前，我花了大量时间进行架构设计。一个常见的误区是直接扎进代码里，或者买来最贵的硬件。我的经验是，先想清楚“最小可行产品”是什么。对于自动驾驶小车，这个MVP就是：能在一条简单的直道+弯道组成的封闭赛道上，实现稳定循迹。基于这个目标，我确定了分层架构和迭代开发的核心思路。

2.1 硬件平台选型：在性能、成本与易用性间权衡

硬件是项目的物理基础，选型直接决定了后续开发的复杂度和天花板。

主控计算单元：树莓派4B 4GB版。这是整个项目最核心的决策。为什么不直接用笔记本电脑？因为我们需要一个能嵌入小车、功耗低、接口丰富、社区支持强大的计算平台。树莓派完美符合这些要求。4B版本的算力足以运行轻量级的CNN模型（如MobileNet, SqueezeNet），其USB 3.0接口能保证摄像头图像传输的低延迟，GPIO引脚可以方便地连接电机驱动板和传感器。对比NVIDIA Jetson系列，树莓派的成本（约300-400元）对于个人项目友好得多，且其Linux生态让软件部署异常便捷。

电机与底盘：直流减速电机+差速转向底盘。我选择了一个双电机驱动的四轮底盘。两个后轮分别由独立的直流减速电机驱动，前轮是万向轮。这种“差速转向”方式，通过控制左右轮的速度差来实现转弯，结构简单，控制逻辑直观，非常适合模型车。电机本身不带编码器，这意味着我们无法直接获取车轮转速（开环控制），这为后续的控制精度埋下了一个小挑战。

电机驱动板：L298N双H桥模块。树莓派的GPIO引脚输出电流很小（约16mA），无法直接驱动电机。L298N模块是一个经典的解决方案，它接收树莓派发出的PWM（脉冲宽度调制）信号和方向信号，能提供足够的电流来驱动两个电机正反转。选择它是因为其皮实耐用、资料众多，作为起点再合适不过。

“眼睛”：罗技C270i USB摄像头。选择标准USB摄像头而非树莓派专用摄像头模块（如CSI接口）的原因在于灵活性。USB即插即用，在开发阶段可以方便地在笔记本电脑上调试图像处理算法，然后再移植到树莓派上。C270i分辨率达到720P，帧率30fps，且支持自动对焦，性价比很高。

电源：两套独立系统。这是非常关键的一点！电机在启动和堵转时会产生巨大的电流尖峰和电压波动，如果和树莓派共用电源，极易导致树莓派重启或损坏。我的方案是：一块大容量（如10000mAh）的移动电源（输出5V/2A）单独给树莓派供电；另一组18650锂电池（7.4V）通过降压模块给L298N和电机供电。两者共地即可。

2.2 软件栈与开发流程规划

软件上，我采用“仿真先行，实车调优”的策略。

操作系统与基础环境：树莓派上安装Raspberry Pi OS（原Raspbian），这是一个基于Debian的Linux发行版。编程语言选择Python，因为它拥有最丰富的机器学习和计算机视觉库生态。

核心软件库：

OpenCV：计算机视觉的“瑞士军刀”，用于图像读取、预处理（裁剪、缩放、颜色空间转换）、边缘检测等。
TensorFlow Lite / PyTorch Mobile：用于在树莓派上部署和运行训练好的机器学习模型。我最终选择了TensorFlow Lite，因为其针对边缘设备的优化更成熟，转换工具链更完善。
GPIO Zero / RPi.GPIO：Python库，用于控制树莓派的GPIO引脚，向L298N发送PWM信号。
Jupyter Notebook：在开发机（我的笔记本电脑）上用于数据探索、模型训练和算法原型设计。

开发流程分为四步闭环：

数据采集与标注：手动遥控小车，在赛道上行驶，同时录制视频并同步记录遥控指令（前进、左转、右转）。然后从视频中抽取图像帧，并进行标注。
模型训练（在开发机上进行）：使用采集的数据训练一个CNN模型，学习从图像到驾驶指令（或方向盘角度）的映射。
模型转换与部署：将训练好的模型转换为TensorFlow Lite格式，并移植到树莓派上。
实车测试与调优：在小车上运行完整的自动驾驶程序，观察其表现，针对出现的问题（如冲出赛道、转弯抖动）返回第一步或第二步进行迭代。

这个流程中，最耗时的往往不是编码，而是数据采集、清洗和实车调试。

3. 感知系统：让小车“看懂”世界

自动驾驶的第一步是感知环境。对于我这个室内赛道项目，感知的核心任务有两个：车道线检测和路标识别。

3.1 车道线检测：从传统图像处理到深度学习

初期，我尝试了经典的计算机视觉方法，因为它的可解释性强，对算力要求低。

传统方法流程：

图像预处理：从摄像头获取一帧RGB图像。
```
import cv2 frame = cv2.VideoCapture(0).read()
```
感兴趣区域提取：车道线只可能出现在图像的下半部分（地平线以下）。我直接设定一个梯形的掩码，只保留这个区域的图像，能大幅减少后续计算量。
颜色空间转换与阈值化：我的赛道是黑色胶带，背景是浅色地板。将图像从RGB转换到HSV颜色空间，更容易通过设定色相、饱和度和明度的阈值，提取出黑色区域。
```
hsv = cv2.cvtColor(roi, cv2.COLOR_BGR2HSV) lower_black = np.array([0, 0, 0]) upper_black = np.array([180, 255, 50]) # 根据实际光照调整 mask = cv2.inRange(hsv, lower_black, upper_black)
```
边缘检测与霍夫变换：对二值化图像使用Canny边缘检测，然后利用霍夫直线变换检测出图像中的直线段，这些线段很可能就是车道线。
车道线拟合：将检测到的左右两组线段点分别用一条直线去拟合，得到左右车道线的方程。

实操心得：光照是传统方法的“天敌”。白天和晚上，阳光和灯光的位置变化，会极大影响阈值化的效果。我不得不花大量时间调整阈值参数，甚至想过给小车装上遮光罩。这让我下定决心引入深度学习。

深度学习方案：我训练了一个轻量化的CNN模型，输入是裁剪后的图像，输出是图像中车道线的中心点横向偏移量（以像素为单位）。这个偏移量直接反映了小车相对于车道中心的位置。模型结构基于MobileNetV2的骨干网络，后面接几个全连接层。训练数据来自我手动驾驶时录制的视频，每一帧图像我都人工标定了车道中心点的位置。

为什么选择回归偏移量，而不是分类（左转/直行/右转）或分割（画出车道线像素）？

回归提供的是连续、精确的控制量，能让小车行驶更平滑。
分类输出是离散的，控制起来会有顿挫感。
语义分割虽然更精确，但对算力和标注数据的要求高得多，在树莓派上实时运行（>10fps）比较吃力。

这个模型部署到树莓派上后，稳定性远超传统方法，对光照变化的鲁棒性显著提升。

3.2 路标识别：轻量级图像分类

我在赛道上放置了打印的“停止”和“限速”标志。识别它们本质上是一个图像分类任务。

数据准备：从行驶视频中截取包含路标的图像块，分别放入“stop”、“speed_limit”、“background”（无路标）文件夹。每类大概准备了200-300张图片，并进行了简单的数据增强（旋转、平移、调整亮度）。
模型选择与训练：直接使用在ImageNet上预训练好的MobileNetV2模型，将其顶部的分类层替换为适合我们3个类别的新的全连接层，然后进行微调。这种方法称为“迁移学习”，能利用模型已学到的通用图像特征，用我们少量数据快速得到一个高性能的分类器。
部署与集成：将训练好的分类模型也转换为TFLite格式。在自动驾驶主循环中，每隔若干帧（比如每秒一次）对当前图像中的特定区域（如图像上方）进行一次路标识别，如果识别到“停止”标志，则触发停车决策。

4. 决策与控制系统的实现

感知系统告诉我们“世界是什么样”，决策与控制则要决定“我们该怎么做”。

4.1 决策逻辑：有限状态机

对于这个简单的场景，一个“有限状态机”就足够了。小车主要有三种状态：

巡航状态：默认状态，根据车道线检测模型输出的横向偏移量，计算舵机转向角，保持车道居中行驶。
停车状态：当路标识别模型检测到“停止”标志时进入。小车平滑减速直至完全停止，并等待3秒。
恢复状态：停车等待结束后，重新进入巡航状态。

状态之间的转换条件清晰明了，代码实现简单可靠。这比一上来就尝试强化学习等复杂方法要务实得多。

4.2 控制核心：PID控制器

如何根据横向偏移量，计算出精准的转向指令？这里用到了自动化领域经典的PID控制器。它通过比例、积分、微分三个环节来纠正误差。

误差：就是感知模型计算出的车道中心横向偏移量error。假设图像中心是0，左边为负，右边为正。
控制量：输出给舵机（或差速电机速度差）的指令。

PID算法的简化实现：

class SimplePID: def __init__(self, Kp, Ki, Kd): self.Kp = Kp # 比例系数 self.Ki = Ki # 积分系数 self.Kd = Kd # 微分系数 self.integral = 0 self.previous_error = 0 def compute(self, error, dt): # dt: 距离上次计算的时间间隔 self.integral += error * dt derivative = (error - self.previous_error) / dt if dt > 0 else 0 output = self.Kp * error + self.Ki * self.integral + self.Kd * derivative self.previous_error = error # 对输出进行限幅，防止指令过大 output = max(min(output, MAX_OUTPUT), -MAX_OUTPUT) return output

调参实战：

只调P（比例）：这是基础。Kp越大，小车对误差反应越灵敏。但只调P，小车会在中心线附近来回振荡，永远停不下来。
加入D（微分）：Kd能预测误差的变化趋势。当小车快速接近中心线时，微分项会产生一个反向的“抑制力”，防止它冲过头，有效减少振荡。这是让小车行驶平稳的关键。
谨慎加入I（积分）：Ki用于消除静态误差。比如，如果小车的轮子有轻微的不对称，导致它总是偏向一侧，积分项会累积这个误差并最终纠正它。但Ki调得太大，容易导致系统不稳定，产生超调或震荡。在我的项目中，由于赛道短，静态误差不明显，我最终将Ki设为了一个非常小的值，甚至为0。

注意事项：PID调参是个“玄学”手艺。没有绝对的最优值。我的方法是：先在仿真里调个大概（如果有动力学模型的话），然后上实车。务必从小参数开始，逐步增加。先调P，让小车能基本循迹但有振荡；然后加D，直到振荡消失，响应平滑；最后再考虑是否需要加I。实车调试时，一定要把小车架起来，让轮子空转，观察电机响应，避免参数过大导致小车失控撞墙。

4.3 电机控制：PWM与差速转向

树莓派通过GPIO控制L298N。对于每个电机，需要两个GPIO引脚控制方向（正转/反转），一个支持PWM的引脚控制速度。

差速转向计算：假设我们希望小车以基础速度base_speed前进，并根据PID输出steering（范围-1到1，负左正右）进行转向。

# 计算左右轮速度 left_speed = base_speed - steering * TURNING_GAIN right_speed = base_speed + steering * TURNING_GAIN # 确保速度值在电机PWM的有效范围内（如0-100） left_speed = max(min(left_speed, MAX_SPEED), 0) right_speed = max(min(right_speed, MAX_SPEED), 0) # 将速度值转换为PWM占空比，发送给L298N set_motor_speed(left_motor_pin, left_speed) set_motor_speed(right_motor_pin, right_speed)

这里的TURNING_GAIN是一个增益系数，决定了转向的灵敏度，需要根据小车的轮距和物理特性进行调整。

5. 系统集成与部署优化

当各个模块开发完成后，如何将它们高效、稳定地集成在一起，并在资源受限的树莓派上实时运行，是最后的挑战。

5.1 主程序架构与多线程

自动驾驶程序需要同时处理多个任务：读取摄像头、运行感知模型、执行控制算法、记录日志等。如果用一个单线程的循环顺序执行，很容易因为某个环节（如模型推理）的延迟导致整个系统卡顿，控制指令发送不及时。

我采用了生产者-消费者模型与多线程：

摄像头线程（生产者）：独立线程负责从USB摄像头抓取最新的图像帧，放入一个共享的、长度固定的队列中。这个线程只做I/O操作，速度很快。
感知-决策-控制线程（消费者）：主线程从队列中取出最新的一帧图像（如果队列为空则跳过旧帧，保证实时性），依次进行车道线检测、路标识别、PID计算和电机控制。
日志/监控线程（可选）：另一个线程负责将关键数据（如误差、控制量、帧率）写入文件或通过网络发送到电脑端进行可视化监控。

这种架构确保了控制循环能以尽可能稳定的频率（例如20Hz）运行，不受偶尔较慢的模型推理影响。

5.2 模型优化与加速

在树莓派上运行神经网络，优化是必须的。

使用TensorFlow Lite：将训练好的Keras模型转换为.tflite格式。TFLite运行时专为移动和嵌入式设备优化，内存占用更小，推理速度更快。
量化：采用TFLite的训练后动态范围量化。它将模型权重从32位浮点数（float32）转换为8位整数（int8）。这几乎能将模型大小减少75%，推理速度提升2-3倍，而精度损失对于我们的任务微乎其微。
使用硬件加速（可选）：树莓派4B的CPU已经不错，如果你有树莓派AI套件或USB加速棒（如Google Coral USB Accelerator），可以进一步将模型部署到NPU上，获得数倍的速度提升。我在项目后期引入了Coral加速棒，将模型推理时间从120ms降到了30ms以内。

5.3 电源与信号噪声处理

实车调试中，大部分诡异问题都来自电源和噪声。

电机干扰导致树莓派重启：这是最经典的问题。即使电源分开，电机产生的电磁噪声也可能通过地线或空间辐射干扰树莓派。解决方案：在电机的电源线两端并联一个大的电解电容（如1000μF/16V）和一个小的陶瓷电容（0.1μF），用于滤除低频和高频噪声。确保所有地线连接牢固、粗短。
PWM信号抖动：软件生成的PWM信号可能不够稳定。可以尝试使用树莓派硬件支持的PWM引脚（GPIO12, GPIO13, GPIO18, GPIO19）。
摄像头帧丢失：USB摄像头在传输大量数据时可能占用过高CPU。使用OpenCV的cv2.VideoCapture时，设置合适的分辨率和帧率（如320x240, 15fps），并在抓取帧后立即释放锁。

6. 典型问题排查与调试技巧实录

这一年，我几乎遇到了所有新手可能遇到的问题。下面这个表格总结了我的“血泪史”：

问题现象	可能原因	排查步骤与解决方案
小车完全不动	1. 电源未接通或电压不足。 2. 树莓派与L298N连线错误。 3. 程序未成功发送PWM信号。	1. 用万用表测量电机供电电压和树莓派5V引脚电压。 2. 对照引脚图，逐根检查连接线。 3. 编写一个最简单的测试程序，让单个电机以固定速度转动，验证硬件通路。
小车只能单向转或原地转圈	1. 某个电机接线反相。 2. 左右轮电机性能差异大。 3. PID参数中，转向增益符号错误。	1. 交换电机的两根线，或程序中反转该电机的方向信号。 2. 空载测试每个电机的PWM-速度曲线，进行校准或软件补偿。 3. 检查计算左右轮速度的公式，确保`steering`变量的符号正确影响左右轮。
车道线检测时好时坏	1. 环境光照变化。 2. 摄像头焦距或位置变动。 3. 图像预处理阈值参数固定，不适应环境。	1. 固定测试环境的光源，或采用自适应阈值算法。 2. 将摄像头牢固固定，并标记其角度和位置。 3.改用深度学习模型，这是最根本的解决方案。
小车循迹时剧烈振荡	1. PID控制器中P参数过大。 2. D参数过小或为0。 3. 控制循环频率不稳定，延迟大。	1.大幅降低P值，先让小车反应“迟钝”一些。 2. 逐步增加D值，观察振荡是否被抑制。 3. 打印控制循环的时间间隔，优化代码，确保循环频率稳定（如使用`time.sleep()`控制频率）。
树莓派运行一段时间后卡死或重启	1. 电源功率不足，电机启动时拉低电压。 2. CPU过热降频。 3. SD卡读写错误（特别是频繁写日志）。	1. 使用输出电流更大的电源（如3A以上），并严格进行电机与主控的电源隔离。 2. 为树莓派加装散热片和小风扇。 3. 减少不必要的日志写入，或使用内存日志定期写入。
深度学习模型在树莓派上推理速度极慢	1. 模型过大、过复杂。 2. 未使用TensorFlow Lite或未进行量化。 3. 树莓派内存交换频繁。	1. 选用MobileNet, SqueezeNet等轻量级网络。 2.务必转换为TFLite格式并进行量化。 3. 增加树莓派的虚拟内存（swap空间），或关闭一些后台进程。

调试心法：

分而治之：永远不要一次性测试整个系统。先确保硬件能动（电机测试），再确保能“看”（摄像头测试、OpenCV显示），然后测试“感知”（模型推理输出），最后再闭环测试“控制”。
可视化一切：将关键变量（误差、控制输出、帧率）实时打印出来，或者通过WebSocket发送到电脑端用图表显示。眼睛看不到的数据，调试起来如同盲人摸象。
记录日志：程序运行时，将传感器数据、控制指令和时间戳记录到文件中。当出现异常时，回放日志能帮你精准定位问题发生的瞬间。
拥抱失败：小车冲出赛道、原地打转、撞上家具……这些都是常态。每一次失败都清晰地告诉你系统哪里还有缺陷。保持耐心，从最简单的场景（比如一条直道）开始，成功后再增加复杂度。

7. 项目总结与未来可能的扩展方向

回顾这一年，最大的收获不是这辆能循迹的小车本身，而是对整个软硬件集成项目开发流程的深刻体会。从需求定义、架构设计、模块开发、集成调试到问题排查，这是一个完整的微型工程实践。它让我明白，理论上的模型精度和实际中的系统稳定性之间，隔着电源噪声、传感器误差、执行器延迟、软件时序等无数道鸿沟。

这个项目目前只是一个起点，一个功能完整的“玩具”。但它为许多有趣的扩展打下了基础：

多传感器融合：加入超声波传感器或激光雷达，实现简单的障碍物检测和避障，让小车不再局限于平面赛道。
SLAM与建图：尝试使用摄像头进行视觉SLAM，让小车在探索环境的同时构建地图，实现真正的自主导航。
更复杂的决策：引入更高级的行为树或基于规则的决策系统，处理更复杂的交通场景，比如避让、超车（如果有多辆车的话）。
仿真与实车闭环训练：使用AirSim或CARLA等仿真环境，训练一个端到端的驾驶策略网络，再将策略网络部署到实车上进行微调，探索强化学习的应用。

对我个人而言，最实用的技巧莫过于严格的电源隔离和PID调试时从小参数开始。这两个点看似简单，却是我花了最多调试时间才深刻领悟的。如果你也打算启动类似的项目，我的建议是：目标不要一开始就定得太高，先让轮子听你的话转起来，再让车子看懂一条线，一步一个脚印，享受从无到有构建一个智能系统的乐趣。这个过程，本身就是对“自动驾驶”这项复杂技术最好的致敬。

查看全文

http://www.jsqmd.com/news/907935/