当前位置：首页 > news >正文

人体活动识别技术：从传感器数据到智能应用

news 2026/6/18 4:01:49

1. 人体活动识别问题概述

当你第一次听说"人体活动识别"这个术语时，可能会联想到科幻电影中的场景。但实际上，这项技术早已渗透到我们的日常生活中。从智能手表记录你的步数和睡眠质量，到家庭安全系统识别异常行为，再到康复医疗中监测患者活动能力——所有这些应用背后都依赖于人体活动识别(HAR)技术。

人体活动识别本质上是一个模式识别问题：通过传感器数据来识别和分类人类正在进行的活动。典型的识别目标包括行走、跑步、坐立、上下楼梯等基本动作，也可以扩展到更复杂的活动序列。这项技术的核心挑战在于如何从原始传感器信号中提取有判别性的特征，并建立可靠的分类模型。

2. 标准HAR问题的定义与构成

2.1 问题定义

一个标准的人体活动识别问题通常包含以下几个关键要素：

传感器选择与配置：最常用的是加速度计和陀螺仪，可以佩戴在手腕、腰部、脚踝等身体部位。智能手机和智能手表通常内置这些传感器。
数据采集协议：需要明确定义采集环境(实验室/自然场景)、采样频率(通常50-100Hz)、活动类别和持续时间等。
标注方案：每个数据样本需要对应明确的活动标签，这通常通过视频记录或实验人员观察获得。

2.2 典型数据集结构

一个标准的HAR数据集通常包含以下组成部分：

数据成分	描述	示例
原始信号	三轴加速度/陀螺仪数据	x,y,z加速度值(单位g)
时间窗口	固定长度的数据段	2秒窗口(128个采样点)
活动标签	每个窗口对应的活动类别	"行走"、"跑步"等
主体信息	参与实验的个体ID	用于交叉验证

3. HAR技术栈详解

3.1 数据预处理流程

原始传感器数据需要经过一系列预处理步骤才能用于建模：

噪声过滤：使用低通滤波器去除高频噪声(如传感器抖动)，常用Butterworth滤波器。

from scipy.signal import butter, filtfilt def butter_lowpass_filter(data, cutoff_freq, fs, order=5): nyq = 0.5 * fs normal_cutoff = cutoff_freq / nyq b, a = butter(order, normal_cutoff, btype='low', analog=False) y = filtfilt(b, a, data) return y

重力分量分离：使用高通滤波器分离静态重力加速度和动态身体运动加速度。
信号归一化：将各轴数据标准化到零均值和单位方差，消除个体差异影响。

3.2 特征工程方法

有效的特征提取是HAR系统的核心。常用特征可分为几类：

时域特征：
- 统计特征：均值、方差、峰度、偏度
- 过零率、峰值计数
- 信号幅度面积(SMA)
频域特征：
- FFT系数能量
- 频谱熵
- 主频分量
时频域特征：
- 小波变换系数
- 短时傅里叶变换特征

提示：特征选择对模型性能影响显著。建议先计算大量候选特征(50-100个)，再使用递归特征消除等方法选择最具判别性的子集。

3.3 建模方法比较

HAR领域常用的机器学习方法包括：

方法	优点	缺点	适用场景
随机森林	特征重要性分析，抗噪声	难以处理时序依赖	小规模特征集
SVM	高维空间有效分类	核函数选择敏感	中等规模特征集
LSTM	自动学习时序模式	需要大量数据	原始信号直接输入
CNN	自动特征提取	计算成本高	多传感器融合

4. 实操案例：构建基础HAR系统

4.1 使用公开数据集

UCI HAR数据集是最常用的基准数据集之一，包含30名受试者的6类活动数据：

import pandas as pd from sklearn.model_selection import train_test_split # 加载数据集 X = pd.read_csv('UCI HAR Dataset/train/X_train.txt', delim_whitespace=True, header=None) y = pd.read_csv('UCI HAR Dataset/train/y_train.txt', header=None) # 划分训练测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

4.2 特征工程实现

计算一组基础时域特征：

def extract_features(window): features = [] # 均值 features.append(window.mean()) # 标准差 features.append(window.std()) # 中位数绝对偏差 features.append(np.median(np.abs(window - np.median(window)))) # 过零率 features.append(((window[:-1] * window[1:]) < 0).sum()) return np.array(features)

4.3 模型训练与评估

使用随机森林分类器：

from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import classification_report # 初始化模型 clf = RandomForestClassifier(n_estimators=100, random_state=42) # 训练模型 clf.fit(X_train, y_train.values.ravel()) # 评估 y_pred = clf.predict(X_test) print(classification_report(y_test, y_pred))