基于Wi-Fi CSI与LSTM的非接触式心肺监测系统PulseFi详解
1. 项目概述:当Wi-Fi信号成为你的私人健康“听诊器”
想象一下,你家里的Wi-Fi路由器,除了提供网络,还能在你睡觉时悄无声息地监测你的心跳和呼吸,甚至在呼吸暂停时发出预警。这听起来像是科幻场景,但PulseFi系统正将这一构想变为现实。作为一名长期关注物联网与健康监护交叉领域的技术从业者,我见证了从笨重的医疗设备到可穿戴传感器,再到如今完全无感监测的技术演进。PulseFi的核心,是利用我们身边最普及的无线信号——Wi-Fi的信道状态信息(CSI),结合深度学习模型,实现了一套低成本、高精度的非接触式心肺与呼吸暂停监测方案。
这项技术的核心价值在于其无感与普适性。传统的接触式监测,无论是心率带、血氧指夹还是多导睡眠监测仪,都会带来不适感,影响自然睡眠,难以用于长期、连续的日常监护。而基于摄像头的方案又存在隐私泄露和光照依赖的硬伤。Wi-Fi感知巧妙地绕开了这些障碍:信号可以穿透衣物和被褥,不受光线影响,且设备本身(如ESP32、树莓派)成本低廉、易于部署。PulseFi的突破在于,它证明了无需昂贵的多天线硬件或复杂的相位信息处理,仅凭单天线设备的信号幅度,通过精心设计的算法,就能达到甚至超越现有方案的临床级精度。这对于推动健康监测技术真正走进千家万户,实现普惠医疗,具有里程碑式的意义。
2. 系统核心设计思路:从信号噪声中“听见”生命体征
要理解PulseFi如何工作,我们首先要拆解其核心设计逻辑。整个系统的目标是从充满环境噪声的Wi-Fi信号中,提取出由心跳(约1-2 Hz)和呼吸(约0.1-0.5 Hz)引起的、微米级别的胸腔起伏信号。这无异于在喧闹的集市中分辨出一根针落地的声音。PulseFi的设计哲学可以概括为:硬件极简化,算法智能化。
2.1 硬件选型:为什么是ESP32和树莓派?
在硬件层面,PulseFi坚定地选择了最普及、最低成本的商用设备:ESP32和树莓派4B。这与许多早期研究依赖英特尔5300网卡等专业硬件形成鲜明对比。选择它们基于几个核心考量:
- 成本与可及性:ESP32模组价格仅数十元人民币,树莓派也广为人知。这使得系统复制和部署的门槛极低,符合“普惠健康”的初衷。
- 开发生态与CSI获取:ESP32通过开源项目(如ESP-CSI)能够提取CSI数据;树莓派配合Nexmon固件也能实现类似功能。这解决了商用Wi-Fi芯片组CSI数据难以获取的普遍难题。
- 单天线设计的挑战与机遇:使用单天线设备意味着我们主动放弃了相位差信息——这是多天线系统用于增强信号分辨率的利器。PulseFi的设计大胆地提出一个问题:仅凭信号幅度,我们能做到多好?这实际上是将所有压力都转移到了后端的信号处理和模型算法上,但换来的是硬件成本的大幅降低和系统复杂度的简化。
注意:这里有一个关键点容易被忽略。单天线设备获取的“绝对相位”信息由于硬件晶振偏移等问题,噪声极大,基本不可用。因此,PulseFi选择完全依赖幅度信息,并非妥协,而是一种针对低成本硬件的务实设计。这要求后续的信号处理流程必须足够强大,以弥补信息的“损失”。
2.2 整体架构:三层流水线作业
PulseFi的架构非常清晰,是一个标准的三段式流水线:
- 数据采集层:由一对Wi-Fi设备(一发一收)组成。当人处于信号路径中,其胸腔的周期性微动会对无线信道产生调制,这种调制被编码在接收端获取的CSI数据中。
- 信号处理层:这是系统的“降噪与特征提取车间”。原始CSI数据是包含大量环境噪声和硬件噪声的复杂信号。这一层通过一系列数字信号处理(DSP)步骤,滤除无关噪声,初步提取出可能与心跳、呼吸相关的信号分量。
- 智能估计层:处理后的信号被送入一个定制的轻量级LSTM神经网络。该模型负责从初步处理的信号中,学习并最终推断出具体的心率、呼吸率数值,或判断是否存在呼吸暂停事件。
这种架构的优势在于模块化。数据处理和模型推理可以部署在边缘设备(如树莓派)上实现实时监测,也可以将数据上传至云端进行更复杂的分析。接下来,我们将深入最关键的信号处理与模型设计部分。
3. CSI信号处理流程详解:从原始数据到干净波形
原始CSI数据可以看作是一个随时间变化的复数序列,包含了信号通过多径环境后的幅度和相位信息。PulseFi的处理流程就像一套精密的“过滤-提纯”工艺,其每个步骤都有明确的物理和数学意义。
3.1 幅度提取:抓住核心观测量
第一步是计算CSI复数的幅度(模值)。公式很简单:A = sqrt(Re(CSI)^2 + Im(CSI)^2)。相位信息被直接舍弃。为什么?如前所述,在单天线系统中,绝对相位值被收发两端无法同步的载波频率偏移所主导,信噪比极低,实用价值不大。而幅度变化则相对稳定,它直接反映了信号传播路径上信道衰减的综合效果,其中就包含了由人体微动引起的路径长度微小变化。
3.2 静态噪声去除:消除环境“底色”
即使房间里没有人,CSI幅度也不是一条直线,它会包含由硬件电路、环境中的静态物体反射等带来的直流偏移和低频漂移。这一步通过减去信号的均值(去除DC分量)来实现,相当于把整个信号波形“居中”到零线附近。这样,后续分析就能更专注于由生命活动引起的动态变化部分。
3.3 带通滤波:锁定生理频段
这是最关键的一步。心跳和呼吸是周期性的,其频率落在特定的生理范围内。PulseFi使用一个三阶巴特沃斯带通滤波器:
- 心率(HR):通带为0.8 Hz 至 2.17 Hz(对应48-130次/分钟)。这个范围覆盖了从静息到中等运动强度下的成人常见心率。
- 呼吸率(BR):通带为0.1 Hz 至 0.5 Hz(对应6-30次/分钟)。这涵盖了从睡眠到轻微活动下的正常呼吸频率。
- 呼吸暂停检测:为了检测呼吸停止,算法会关注通带内(特别是呼吸频段)信号能量的显著下降或消失。
巴特沃斯滤波器的特点是通带内频率响应尽可能平坦,没有纹波,这能避免在滤波后的信号中引入虚假的振荡,这对于后续精确寻找峰值或模型分析至关重要。
3.4 平滑与整形:Savitzky-Golay滤波器的妙用
经过带通滤波后,信号仍可能包含高频毛刺。此时,PulseFi采用了Savitzky-Golay滤波器进行平滑。这个滤波器的强大之处在于它是一种基于局部多项式最小二乘拟合的平滑方法,在有效抑制噪声的同时,能最大限度地保留信号原有形状特征,比如心冲击图(BCG)波形中的峰值和谷值。这对于基于波形特征的分析或为深度学习模型提供高质量输入都极为有利。在实现中,他们选择了窗口长度为15、多项式阶数为3的参数,这是在平滑效果和计算开销之间的一个经验性平衡点。
3.5 数据分段与标准化:为LSTM准备“食粮”
连续的信号流被切割成有重叠的固定长度时间窗口(例如5秒、10秒、30秒)。这样做有两个目的:一是将连续的预测问题转化为对每个时间片的估计,实现准实时输出;二是生成符合LSTM模型输入的序列数据样本。每个窗口内的数据还会进行标准化(减去均��、除以标准差),这使得不同样本、不同子载波的数据处于同一量级,能显著加速模型训练的收敛过程,并提升模型的泛化能力。
实操心得:窗口长度的艺术窗口长度的选择是精度与实时性的权衡。论文结果清晰地展示了这一点:对于心率,5秒窗口已达到最佳平衡(MAE 0.50 BPM),更长的窗口收益甚微。因为5秒已能包含4-7个完整心跳周期,足以让模型捕捉模式。而对于呼吸,由于周期更长,需要20秒窗口才能达到最佳精度(MAE 0.09 breaths/min)。在你自己部署时,需要根据应用场景决定:是追求更高的瞬时响应速度(短窗口),还是追求更稳定准确的每分钟平均读数(长窗口)。
4. 轻量级LSTM模型设计与训练策略
经过处理的CSI时间序列数据,被送入系统的“大脑”——一个定制化的长短期记忆(LSTM)神经网络。PulseFi选择LSTM而非更常见的CNN或其他模型,是基于其任务特性的深思熟虑。
4.1 为什么是LSTM?
- 时序建模的天然优势:心率、呼吸本质上是时间序列信号,当前时刻的状态与之前数秒甚至数十秒的状态高度相关。LSTM的门控机制(输入门、遗忘门、输出门)使其特别擅长捕捉这种长短期依赖关系。例如,它能“记住”一个呼吸周期的开始,并“知道”几秒后应该期待一个周期的结束。
- 对噪声的鲁棒性:与依赖于清晰峰值检测的传统信号处理方法不同,深度学习模型,尤其是LSTM,能够从带有噪声的数据中学习到潜在的模式,对环境干扰具有更好的容忍度。
- 处理变长输入:LSTM可以处理不同长度的输入序列,这为系统适应不同的监测窗口长度提供了灵活性。
4.2 网络架构剖析
PulseFi的LSTM模型结构紧凑,旨在保证精度的同时,确保能在ESP32这类MCU上运行。其架构是一个经典的编码器式设计:
- 输入层:接收标准化后的CSI幅度时间序列窗口。
- 模式发现层(64个LSTM单元):这是第一层LSTM,负责从原始序列中提取初步的时序特征和模式。
- 特征精炼层(32个LSTM单元):第二层LSTM在上一层的基础上,进一步提炼与心率/呼吸最相关的关键特征。
- 维度压缩与过拟合预防:之后连接一个16个单元的全连接层,将特征压缩。关键的是,在每个LSTM层后都加入了Dropout层(丢弃率0.2)。在训练时,Dropout会随机“关闭”一部分神经元,这强迫网络不能过度依赖某个特定的神经通路,必须学习更泛化、更鲁棒的特征组合,是防止模型在训练集上过拟合的利器。
- 非线性激活:使用ReLU激活函数引入非线性,使模型能够拟合更复杂的模式。
- 输出层:对于心率和呼吸率估计,最后一个全连接层输出一个标量值(回归任务)。对于呼吸暂停检测,则输出一个通过Sigmoid函数的概率值(0到1之间),代表该窗口内发生呼吸暂停的可能性(二分类任务)。
4.3 模型训练的关键细节
模型的优秀性能离不开精心设计的训练策略:
- 优化器:采用Adam优化器,其自适应学习率特性在训练深度学习模型时通常比传统的SGD更稳定、收敛更快。学习率设置为0.001,这是一个常用的起点。
- 损失函数:
- 回归任务(HR/BR):使用均方误差(MSE)。MSE会放大较大误差的惩罚,促使模型特别关注那些预测偏差较大的样本,有助于提高整体精度。
- 分类任务(Apnea):使用二元交叉熵(BCE)。这是二分类任务的标准损失函数,衡量预测概率分布与真实标签分布的差异。
- 防止过拟合的组合拳:
- 早停法:在训练过程中,持续在验证集(占训练数据的20%)上评估性能。如果连续10个epoch验证集损失不再下降,则提前终止训练。这避免了模型在训练集上“钻牛角尖”。
- 学习率衰减:如果连续5个epoch验证损失无改善,则将学习率减半。动态降低学习率有助于在训练后期更精细地调整参数,找到更优的局部最优点。
- Dropout:如前所述,在训练时随机丢弃神经元。
这套组合策略确保了模型既学到了数据中的普遍规律,又不会记住训练数据中的噪声和特定细节,从而在面对新的、未见过的测试数据时也能有良好表现。
5. 实验验证与性能深度解读
论文使用了两个数据集进行验证,这个设计很有说服力:一个自采的小规模数据集(ESP-CSI)用于方法验证和调参,另一个公开的大规模数据集(E-Health)用于证明其泛化能力和鲁棒性。
5.1 数据集构成与实验设置
- ESP-CSI数据集:使用两台ESP32设备,在1-3米距离内,对7名参与者采集数据。采样率80Hz,带宽20MHz,64个子载波。同时使用脉搏血氧仪记录真实心率作为基准。这个数据集的局限性在于规模和场景较简单,但优点是可控,便于分析算法在理想条件下的潜力。
- E-Health数据集:这是一个包含118名参与者、17种不同姿势/活动的大规模数据集。使用树莓派4B(Nexmon固件)采集,带宽80MHz,234个子载波。数据多样性极高,包括坐、站、躺、侧卧以及包含屏息(模拟呼吸暂停)的特定姿势。这个数据集是检验算法能否应对真实世界复杂性的试金石。
模型训练采用64%/16%/20%的标准划分(训练/验证/测试)。为了确保结果可靠,每个窗口尺寸的模型都训练三次并取平均性能。
5.2 心率监测结果分析
结果表格(对应原文Table I)显示了几个关键结论:
- 窗口尺寸效应:在ESP32数据上,5秒窗口达到最佳性能(MAE 0.50 BPM),之后进入平台期。这说明对于64个子载波的ESP32,5秒数据提供的信息已接近其硬件分辨率的极限。而在子载波更多(234个)的树莓派E-Health数据上,性能随着窗口增大持续提升至30秒(MAE 0.17 BPM)。这直接证明了硬件分辨率(子载波数量)是最终精度的天花板之一。
- 距离鲁棒性:在1米到3米距离变化时,PulseFi的心率估计误差(MAE)变化仅为0.05 BPM。相比之下,一些基于峰值检测的传统方法误差会成倍增加。这凸显了LSTM模型从噪声中学习模式的强大能力,即使信号衰减,模型仍能识别出潜在特征。
- 临床精度达标率:使用5秒或更长窗口时,超过97.95%的估计值误差在临床可接受的±1.5 BPM范围内。在E-Health数据上,30秒窗口的达标率高达99.65%。这意味着在绝大多数情况下,其精度已满足日常健康监护甚至部分临床前筛查的需求。
- 与现有技术的对比:对比表(对应原文Table II)显示,PulseFi在使用廉价得多的单天线硬件(ESP32/树莓派)的情况下,其心率估计的MAE(0.50, 0.27 BPM)优于或媲美许多使用昂贵多天线专业设备(如Intel 5300 NIC)的方案。
5.3 呼吸率与呼吸暂停检测结果分析
- 呼吸率:最佳窗口为20秒(MAE 0.09 breaths/min)。呼吸信号虽强,但频率更低,需要更长的观察时间才能准确捕捉完整周期。其距离鲁棒性同样出色。
- 呼吸暂停检测:这��PulseFi表现最出色的任务之一。使用10秒窗口,准确率高达99.4%,灵敏度95.7%,特异性99.7%。呼吸暂停在信号上表现为呼吸频段周期性波动的突然消失,这是一个非常明显的特征,因此即使是相对简单的模型也能达到极高的分类精度。不同姿势下的性能也保持稳定。
5.4 计算效率与部署可行性
这是PulseFi设计理念的最终体现:不仅准,还要快和省。其LSTM模型仅有约4.6万个可训练参数,模型文件大小约500-600KB。在树莓派级别的硬件上,即使处理30秒的长窗口数据,也能达到每秒299次预测的吞吐量,平均批次延迟仅207毫秒。在ESP32上,完成一次5秒窗口的心率推断仅需约0.15秒。这意味着该系统完全可以嵌入到低成本的边缘设备中,实现真正的实时、离线监测,无需依赖云端,既保护了隐私又降低了系统复杂度和延迟。
6. 实操指南、常见问题与避坑要点
如果你对复现或基于PulseFi的思路进行开发感兴趣,以下是一些从论文和工程实践中提炼出的关键要点和潜在陷阱。
6.1 硬件搭建与数据采集实操要点
- 设备选型与固件:
- ESP32:确保选择支持ESP-CSI的型号(如ESP32-S2/S3)。需要刷入特定的固件以启用CSI数据导出功能。天线布局和外壳材质可能影响信号,尽量保持设备裸露或使用塑料外壳。
- 树莓派4B:需要安装Nexmon CSI补丁。这是一个修改Wi-Fi驱动以获取CSI数据的开源项目。过程涉及内核编译,需一定的Linux操作经验。
- 环境部署:
- 位置:发射端和接收端最好保持视距,中间避免大型金属物体。实验表明1-3米距离内性能稳定,可作为参考。
- 干扰:尽量选择2.4GHz或5GHz中相对干净的频道,减少同频段其他Wi-Fi设备的干扰。在家庭环境中,这可能需要一些尝试。
- 采样率:并非越高越好。ESP32的80Hz和树莓派的约7.4Hz(136ms间隔)都是经过权衡的选择。过高的采样率会产生海量数据,增加处理负担;过低则可能无法满足奈奎斯特采样定理,丢失信号细节。建议从论文参数开始,根据你的硬件能力调整。
6.2 信号处理流程中的参数调优
- 带通滤波器参数:心率(0.8-2.17 Hz)和呼吸(0.1-0.5 Hz)的频段是生理常识,一般不需改动。但滤波器的阶数(N=3)和类型(巴特沃斯)可以尝试调整。阶数越高,滤波器的滚降越陡峭,但也会引入更大的相位失真和计算量。
- Savitzky-Golay滤波器:窗口长度和多项式阶数是关键参数。窗口太长会过度平滑,抹去细节;太短则降噪效果不佳。论文中的(15, 3)是一个不错的起点,你可以根据实际信号波形进行微调。
- 数据标准化:务必在每个数据窗口内独立进行标准化(即计算该窗口的均值和标准差),而不是使用整个数据集的全局统计量。因为信号强度会随时间、环境变化,逐窗口标准化能保证模型输入的一致性。
6.3 模型训练与部署的注意事项
- 数据准备是重中之重:深度学习模型“垃圾进,垃圾出”。确保你的CSI数据与真实标签(如心率带、呼吸带数据)在时间上精确同步。即使是几百毫秒的错位,也会导致模型学到错误的关系。
- 注意数据泄露:在划分训练集、验证集和测试集时,必须确保来自同一个受试者的不同时间段数据不会同时出现在训练集和测试集中。否则,模型可能只是“记住”了特定人的特征,而非学习通用的生理信号模式,导致泛化能力极差。应该按受试者ID进行划分。
- 轻量化部署:如果你打算在ESP32上部署训练好的LSTM模型,需要考虑:
- 模型量化:将训练好的FP32模型转换为INT8格式,可以大幅减少模型体积和提升推理速度,精度损失通常很小。
- 推理框架:使用TensorFlow Lite for Microcontrollers或类似专为MCU优化的推理引擎。
- 内存管理:LSTM的循环计算需要保存中间状态,注意MCU的RAM是否足够。
6.4 常见问题与排查思路
问题:信号非常弱,滤波后几乎看不到周期性。
- 排查:首先检查硬件连接和天线。其次,确认受试者是否处于收发设备的“菲涅尔区”内(即信号的主要传播路径上)。尝试让受试者正对或侧对天线连线,胸腔运动方向与信号传播方向有夹角时调制效果更明显。最后,检查环境是否有强烈的同频干扰(如多个路由器)。
问题:心率估计值跳动很大,不稳定。
- 排查:增加预测窗口长度(如从5秒增至10秒)。检查带通滤波器的上限频率是否设置正确,是否滤除了部分心率信号。观察原始波形,看是否混杂了其他周期性运动(如身体轻微晃动),这可能需要更复杂的预处理或模型来区分。
问题:模型在训练集上表现很好,但在测试集或新数据上很差。
- 排查:这是典型的过拟合。首先,检查是否发生了数据泄露。其次,增加Dropout率(如从0.2提高到0.3或0.5)。第三,尝试简化模型结构(减少LSTM单元数)。第四,收集更多样化的训练数据(不同的人、不同的姿势、不同的环境)。
问题:呼吸暂停检测误报率高(将正常呼吸判为暂停)。
- 排查:呼吸暂停的判断依赖于呼吸频段信号能量的显著降低。检查用于计算能量的阈值是否设置合理。可以引入一个持续时间的判断(如信号能量低于阈值持续至少10秒才判定为一次呼吸暂停事件),以避免因单次深呼吸后的短暂停顿导致误报。
PulseFi系统为我们展示了一条清晰的技术路径:利用普适的无线信号和高效的深度学习算法,以极低的成本实现高质量的非接触健康监测。它的成功不在于使用了多么高深莫测的技术,而在于对问题边界的清晰定义(单天线、仅幅度)、对传统信号处理与现代深度学习的巧妙结合,以及贯穿始终的工程化思维(轻量化、可部署)。尽管在极端复杂环境下的鲁棒性、多人生理信号分离等问题上仍有探索空间,但它无疑为未来智能家居、远程医疗和养老监护等领域提供了一个极具吸引力的底层感知方案。在实际探索中,你会更深刻地体会到,从论文到稳定可靠的产品,中间还有大量的工程优化和场景适配工作,但这正是技术落地的魅力所在。
