当前位置：首页 > news >正文

基于远程操作与多模态交互的电动轮椅安全训练系统设计与实现

news 2026/7/22 12:52:11

1. 项目概述：为电动轮椅新用户构建一个安全、真实的远程训练场

对于初次接触电动轮椅的用户而言，学习驾驶不仅关乎移动自由，更直接关系到人身安全。传统的实地训练存在碰撞风险，而纯虚拟仿真又因难以精确模拟轮椅的物理动力学特性（如惯性、摩擦力、与地面的交互）而显得“手感”失真，导致训练效果打折扣。我们团队一直在思考，能否构建一个既绝对安全，又能提供真实物理反馈的训练环境？答案是将远程操作技术与真实的电动轮椅相结合。

这个项目的核心，就是设计并实现一套基于远程操作与多驱动方法的电动轮椅训练系统。简单来说，我们让用户坐在一个安全的“训练中心”，通过网络远程控制位于另一个房间甚至另一座城市的真实电动轮椅。用户面前是轮椅摄像头传回的实时画面，他们通过操纵杆、眼动追踪或屏幕按钮等方式发出指令，这些指令经过互联网传输，最终驱动远端的真实轮椅执行动作。这样一来，用户获得的是对真实设备的操控体验，包括其加速、转向、制动等所有物理特性，而所有的碰撞风险都被物理空间隔离了。这套系统尤其适合医院、康复中心作为标准化的初级培训工具，让用户在“零风险”环境下建立肌肉记忆和空间判断能力。

2. 系统整体设计与核心思路拆解

2.1 核心需求与设计目标

我们的设计源于几个明确的痛点：第一，虚拟仿真的“失真感”；第二，传统训练的安全隐患；第三，驱动方法的单一性（多数仅支持操纵杆），无法满足上肢功能严重受限用户的需求。因此，系统的设计目标非常清晰：

真实性：必须使用真实的电动轮椅作为被控对象，确保用户获得最贴近实际驾驶的力反馈和运动体验。
安全性：实现用户与轮椅的物理隔离，通过远程操作杜绝训练过程中的碰撞风险。
多模态交互：系统需支持至少三种驱动方式，以适应不同残疾程度的用户。
低成本与可推广性：采用成熟的嵌入式硬件和开源软件，控制整体成本，使其具备在资源有限地区部署的潜力。
网络适应性：系统需在一定程度的网络延迟下稳定工作，以支持城际间的远程训练。

2.2 系统架构：双中心模型

整个系统逻辑上分为两个核心部分：训练中心（Training Center, TC）和训练室（Drills Room, DR）。这是一种典型的“主-从”（Master-Slave）远程操作架构。

训练中心（TC - 主端）：这是用户所在的场所。核心是一台连接了互联网的计算机，以及用户选定的驱动接口（如操纵杆、眼动仪）。用户在此发出控制指令，并通过计算机屏幕接收来自训练室的实时视频反馈，形成操作闭环。TC可以部署在任何有网络的地方，如社区康复站、医院门诊，甚至用户家中。

训练室（DR - 从端）：这是真实电动轮椅所在的物理空间。其核心是一个搭载了定制硬件的“用户-轮椅接口板”，负责接收来自网络的指令，并将其转换为电动轮椅控制器能识别的模拟电压信号。同时，安装在轮椅上的摄像头负责采集第一人称和第三人称视角的视频流，并编码回传给TC。DR需要是一个受控的、有固定训练路径（如绕桩、过门）的安全环境。

这种架构的优势在于“一对多”的潜力。一个装备好的DR（训练室）可以同时为分布在不同城市、不同TC的多个用户提供训练服务，极大地提高了设备利用率和培训的可及性。

2.3 驱动方法选型背后的考量

为什么选择操纵杆、眼动追踪和通用人机界面这三种方式？这背后是基于用户能力和技术可行性的综合权衡。

传统操纵杆：这是电动轮椅最标准、最自然的控制方式。保留它，是为了让大多数新用户从最符合直觉的方式开始学习。我们直接适配了原装轮椅的操纵杆，确保了控制逻辑与真实设备100%一致。
眼动追踪：针对脊髓损伤高位截瘫、肌萎缩侧索硬化症等上肢功能完全丧失的用户。眼球运动通常是他们保留完好的少数自主控制能力之一。选择Tobii 4C这类消费级眼动仪，是在精度、成本和易用性之间取得的平衡。通过凝视屏幕上的方向箭头来发出指令，虽然速度不如操纵杆，但为重度残疾用户提供了独立操控的可能性。
通用人机界面：这是一个面向未来的“接口的接口”。它本质上是一个图形化按钮界面，但其设计目的是成为一个框架。任何能产生离散开关信号（如眨眼、肌肉电信号、脑电波）的辅助设备，都可以通过适配，将信号映射为GHMI上的按钮点击事件。这为系统接纳入声控、颏控、乃至脑机接口等更丰富的驱动方法预留了标准化入口，避免了为每一种新方法都重新开发整套通信和控制链路。

注意：在眼动追踪方案中，我们设置了500毫秒的凝视确认时间。这是一个关键的人机交互参数。设置太短，容易因用户无意识的视线扫视而触发误操作；设置太长，则会导致指令反馈迟钝，影响驾驶体验。500ms是我们经过多次实测后找到的平衡点，能在确保意图明确的前提下，保持操作的连贯性。

3. 核心模块解析与实现要点

3.1 训练中心：多驱动接口的实现细节

训练中心的核心任务是将用户的不同交互意图，统一编码为标准的网络控制指令。

操纵杆接口的电压解码：原装操纵杆输出的是两个模拟电压信号，分别对应X轴（左右）和Y轴（前后）的偏移量。我们使用Arduino Uno的ADC（模数转换器）进行采样。这里的关键在于采样频率和精度。我们设置为13.33Hz（约每75ms一次），这个频率高于人手的操作频率，能保证指令流畅，又不会给网络带来不必要的负担。8位的ADC精度（0-255）对于速度控制来说已经足够。采集到的X、Y值会被归一化到-100%到+100%的范围，然后通过公式计算合成矢量的幅度（速度）和角度（方向）。这个数学模型是后续所有驱动方式生成指令的基础。

眼动追踪接口的意图捕捉：实现难点在于如何将连续的眼球注视点坐标，稳定地转换为离散的方向指令。我们采用的方法是“区域凝视判定”。在屏幕上固定位置绘制方向箭头，并为每个箭头定义一个像素坐标范围。当系统检测到用户的注视点持续落在某个箭头区域内超过500ms时，才生成对应的方向指令。同时，我们加入了声音反馈（如“前进”），这对于无法低头看屏幕的用户至关重要，提供了操作确认。

通用人机界面的框架设计：GHMI的代码结构设计为高度模块化。控制逻辑（如按钮点击事件处理）与网络通信、指令编码模块完全解耦。开发者要集成一种新的输入方法，只需关注如何将该方法的输出（如一个开关量、一个特征信号）转换为对GHMI界面按钮的“模拟点击”即可。我们定义了一套简单的指令字符串协议（如“FWD:80”表示以80%速度前进），任何新接口只要遵循此协议向核心模块发送字符串，就能驱动轮椅。

3.2 训练室：真实轮椅的适配与信号生成

这是将数字指令转化为物理运动的关键环节，硬件可靠性是第一要务。

用户-轮椅接口板：我们选用了UDOO Dual板，因为它集成了高性能的ARM处理器和Arduino DUE，且自带Wi-Fi。Arduino DUE负责核心的DAC（数模转换）任务，将网络指令中的X、Y百分比值，转换为对应的模拟电压。这里遇到了一个工程细节：DUE的DAC输出范围是0-3.3V，但我们的轮椅控制器期望的满量程电压是3.5V。直接连接会导致最大速度无法达到。

信号调理电路的设计：为了解决上述电压不匹配问题，我们设计了一个简单的同相运算放大器电路。根据公式Av = 1 + R2/R1，我们选取R1=5kΩ， R2=1kΩ，得到增益为1.2。这样，3.3V输入经过放大后约为3.96V，然后我们通过软件将输出上限校准到3.5V。这个电路虽然简单，但确保了信号幅度的精确性和驱动电路的可靠性。

双摄像头视频流：我们采用了第一人称视角（FPV）和第三人称视角（TPV）双路视频。FPV使用鱼眼镜头，模拟用户坐在轮椅上的宽阔视野，分辨率设为800x600。TPV提供一个全局视角，帮助用户了解轮椅在环境中的相对位置，分辨率设为320x240。两路视频均采用20fps的帧率，在流畅度和带宽占用间取得平衡。视频编码采用H.264，并通过HTTP协议流式传输。选择HTTP而非RTSP等协议，是因为其穿透防火墙能力更强，在复杂的医院或机构网络环境中部署更简单。

3.3 通信架构与网络适应性策略

远程操作系统的实时性体验，极大程度上取决于网络通信的质量。

指令与视频分通道传输：我们采用了不同的网络协议来传输两类数据，这是基于它们对可靠性和实时性的不同要求。

控制指令通道（UDP协议）：控制指令数据量小（约22 kbit/s），但对延迟极其敏感。我们选用UDP协议，因为它没有握手和确认重传机制，传输延迟最低。指令丢失一两个包，对连续运动的轮椅控制影响微乎其微，但延迟波动则会直接导致操控“卡顿”。在应用层，我们设计了简单的心跳包和指令序列号，用于监测连接状态，而非保证每个指令必达。
视频反馈通道（HTTP协议）：视频数据量大（两路共约865 kbit/s），可以容忍少量丢包（表现为画面短暂花屏），但需要稳定的流。HTTP协议兼容性极好，易于在各类网络设备上播放。我们使用FFmpeg库进行编码和流推送，客户端用FFplay播放。未设置缓冲区是为了降低端到端延迟，让用户看到的画面尽可能“实时”。

网络延迟的测量与应对：我们持续测量往返时延（RTT），作为评估通信质量的指标。在巴西境内跨越约2600公里的测试中，平均RTT为130.2毫秒。这个延迟对于低速、非精准的轮椅操控来说是完全可以接受的。我们的策略是“系统适应延迟，而非消除延迟”。在软件层面，我们避免任何需要高精度同步的操作。对用户而言，他们需要像玩一些网络游戏一样，学会对操控进行一点点“预判”。我们的训练课程设计也会考虑这一点，初期安排直线、大空间任务，后期再引入需要精细转向的科目。

实操心得：在部署时，务必确保训练室（DR）的网络上行带宽充足。视频流是主要的带宽消耗者。如果上行带宽不足，视频会严重卡顿，导致用户失去空间感，这是训练中最危险的情况。建议DR的网络至少具备2Mbps以上的稳定上行带宽。同时，尽可能使用有线网络连接关键设备（如UDOO板、摄像头），以减少Wi-Fi可能带来的不稳定性和额外延迟。

4. 系统集成与实操部署流程

4.1 硬件组装与电气连接

实现该系统，需要一定的电子装配能力。以下是核心步骤：

轮椅端硬件集成：
- 断电操作：首先，务必断开电动轮椅的电池总开关，确保安全。
- 找到控制接口：找到原装操纵杆与控制器的连接线。通常是一个多芯接口，我们需要从中引出X轴和Y轴对应的模拟电压信号线以及地线。强烈建议使用万用表在通电状态下小心测量，或查阅轮椅控制器手册来确认引脚定义。
- 接入接口板：将引出的X、Y信号线，分别接入我们自制的信号调理电路的输入端。将电路的输出端接入轮椅控制器原来的操纵杆接口位置。这意味着，我们的系统将“模拟”原装操纵杆的输出。
- 安装UDOO板：将UDOO板固定在轮椅车体上安全且散热良好的位置。连接好USB摄像头（FPV和TPV），并为UDOO板和摄像头提供独立的移动电源或接入轮椅的蓄电池（需注意电压转换）。
- 焊接与绝缘：所有接线点必须焊接牢固，并使用热缩管或绝缘胶带做好绝缘处理，防止因轮椅震动导致短路。
训练中心端设备准备：
- 准备一台性能足够的计算机（用于运行控制软件和播放视频流）。
- 根据选择的驱动方式，连接相应设备：若是操纵杆，通过USB连接Arduino；若是眼动仪，安装好驱动和SDK；若是GHMI，则只需电脑和显示器。
- 确保计算机连接互联网。

4.2 软件环境搭建与配置

软件部分分为服务器端（DR）和客户端（TC）。

训练室（DR）软件配置（运行在UDOO板上）：

系统烧录：在UDOO板上安装一个轻量级的Linux系统，如Armbian。
编译FFmpeg：由于UDOO是ARM架构，可能需要从源码编译支持H.264编码的FFmpeg。这是一个比较耗时的步骤，需要提前准备好交叉编译环境或直接在板子上编译。
部署控制服务：将我们编写的C++/Python控制服务程序拷贝到UDOO板。该程序需要完成以下功能：
- 启动一个UDP服务器，监听来自训练中心的指令。
- 解析指令，通过串口发送给板载的Arduino DUE，驱动DAC输出相应电压。
- 启动两个FFmpeg进程，分别从两个USB摄像头抓取视频，并推送到指定的HTTP地址。
设置开机自启：将控制服务程序和FFmpeg推流命令配置为系统服务，实现开机自动运行。

训练中心（TC）软件配置：

安装客户端软件：这是一个图形化应用程序，集成了三种驱动方式的界面。
配置网络地址：在软件中填写训练室（DR）服务器的公网IP地址和UDP指令端口、HTTP视频流地址。
校准设备：对于操纵杆，进行中立点校准；对于眼动仪，进行用户视线校准。
连接测试：启动软件，测试指令发送和视频接收是否正常。

4.3 训练课程设计与实施

系统搭建好后，如何用于有效训练？我们设计了一套循序渐进的课程：

基础认知（静态熟悉）：用户不操作，仅观察视频反馈。操作员远程控制轮椅完成前进、后退、左右转等基本动作，让用户熟悉画面移动与控制指令的关系。
直线行驶与停止：在空旷的DR中，让用户练习控制轮椅沿直线前进一段距离并平稳停止。目标是让用户建立速度感与指令幅度的关联。
大半径转弯：设置两个锥桶，让用户练习绕“8”字。重点训练协调性，理解X、Y轴复合操作的效果。
狭窄通道通过：设置一个比轮椅略宽的模拟门框。训练用户的空间判断和精细操控能力。
综合路径考核：设置一个包含直线、弯道、绕桩、定点停靠的完整路径（如图14所示），记录用户完成时间和操作指令数，作为训练成效的量化评估。

在每次训练中，系统后台会自动记录完整的操作指令日志和RTT数据。训练结束后，可以生成报告，展示用户的路径轨迹、速度变化、指令频率等，为康复师提供客观的评估依据。

5. 实验结果分析与性能优化实录

5.1 多驱动方法对比实验

我们在相同的训练路径上，对三种驱动方式进行了各8次实验，统计完成时间和有效指令数量。

数据呈现：

完成时间：操纵杆组平均耗时最短，GHMI（按钮）次之，眼动追踪组最长。这符合直觉，因为操纵杆是连续、模拟量控制，效率最高；按钮是离散指令，需要多次点击；眼动追踪则受限于凝视确认时间，节奏最慢。
指令数量：操纵杆组发出的指令数量最多，但这并不意味着效率低。因为操纵杆的指令是连续变化的，采样频率固定，所以数据点密集。而GHMI和眼动追踪只有在用户主动触发时才会生成指令，数量自然少。因此，指令数量更适合用于纵向比较（同一用户、同一种方式在不同训练阶段的表现），而非横向比较不同方式。

核心发现：对于上肢功能健全的用户，传统操纵杆无疑是最优选择。但对于无法使用手部的用户，眼动追踪提供了可行的替代方案，虽然速度慢，但能完成所有任务。GHMI的按钮形式则像一座桥梁，为未来更多样的开关式控制设备提供了接入平台。

5.2 远程延迟影响实测与调优

为了验证系统的实用性，我们进行了本地（同房间）与远程（跨城，距离>2000公里）的对比实验，均使用GHMI方式。

结果分析：远程操作的平均完成时间比本地操作增加了约15%-20%。通过分析日志发现，主要时间损耗并非来自130ms的平均网络延迟，而是来自延迟抖动（即RTT的波动）和视频反馈的延迟。当网络出现短暂拥塞时，RTT可能从130ms突增到300-500ms，这时用户发出的“停止”指令会严重滞后，导致轮椅撞上障碍物。

优化措施：

客户端预测与平滑：在TC的客户端软件中，加入简单的本地预测。例如，当用户持续按住“前进”按钮时，客户端本地模拟轮椅的匀速运动并更新一个虚拟位置，让用户界面（如地图视角）即时响应。同时，对接收到的真实轮椅位置数据进行卡尔曼滤波等平滑处理，减少视频抖动带来的眩晕感。
指令队列与优先级：在DR端，设立一个微小的指令队列（如2-3个指令）。当网络延迟突然增大时，队列可以缓冲一下，避免因丢包导致指令完全中断。同时，为“紧急停止”指令设置最高优先级，使其能够插队发送。
自适应视频码率：实现一个简单的码率自适应算法。当检测到网络RTT持续过高或丢包严重时，自动降低视频流的分辨率或帧率，优先保障控制指令通道的畅通。画面模糊比操作失灵更容易被用户接受。

5.3 常见问题排查与维护要点

在长期测试中，我们遇到了一些典型问题，并总结了排查思路：

问题现象	可能原因	排查步骤与解决方案
轮椅无反应，但视频正常	1. 指令网络中断 2. 轮椅接口板供电故障 3. 信号调理电路故障	1. 在TC端使用`ping`和`netcat`命令测试到DR的UDP端口是否可达。 2. 检查UDOO板及Arduino的电源指示灯。 3. 用万用表测量信号调理电路输入输出端电压，当发送指令时，输出端电压应有变化。
视频卡顿或延迟巨大	1. DR端上行带宽不足 2. 网络路由问题 3. FFmpeg编码负载过高	1. 在DR端进行上行带宽测速。 2. 使用`traceroute`检查网络路径，尝试更换网络服务商或使用有线连接。 3. 登录UDOO板，用`top`命令查看CPU占用，考虑降低视频分辨率或改用硬件编码（如果板子支持）。
眼动控制指令不触发	1. 眼动仪校准失效 2. 屏幕反光或用户眼镜反光 3. 凝视判定区域设置不当	1. 重新进行眼动仪校准。 2. 调整环境光线和屏幕角度，建议用户佩戴非反光镜片的眼镜。 3. 检查代码中凝视区域的像素坐标范围是否与当前屏幕分辨率匹配。
轮椅运动方向或速度异常	1. 操纵杆或信号线缆接触不良 2. DAC输出校准偏移 3. 轮椅控制器模式设置错误	1. 重新插拔并固定所有接线。 2. 运行校准程序，发送“停止”指令，测量输出电压是否为中间值（如1.75V）。 3. 检查轮椅控制器是否处于“模拟量输入”模式，而非“数字开关”模式。