当前位置：首页 > news >正文

基于深度学习的人体姿态（人体动作）识别系统

news 2026/7/23 6:00:56

基于深度学习的人体姿态（人体动作）识别系统
以下文字及代码仅供参考。

文章目录

- - **项目结构**
  - **1. 安装依赖**
  - **2. 数据集与模型**
  - - 数据集
    - 模型
  - **3. 核心代码**
  - - `pose_utils.py`
    - `video_utils.py`
    - `ui_main.py`
  - **4. PyQt5 UI 文件**
  - - `ui_main.ui`
  - **5. 主程序入口**
  - - `main.py`
  - **6. 测试与运行**
  - **总结**

：
模型：resnet34
软件：Pycharm+Anaconda
环境：python=3.8 opencv_python PyQt5

要建立功能：对于多种目标的识别检测功能：包括通过选择图片、视频、摄像头进行实时识别；

识别后会显示人体姿态行为的详细信息、释义

“Fell”：（fall 的过去式）摔倒；落下；
“Sit”：坐；就座；使就座
“Stand”：站立；直立；站起来；忍受；位于
“calling”：呼喊；喊叫；打电话；职业；使命感（动词 call 的现在分词形式时意为“呼喊、打电话”等）
“cycling”：骑自行车（运动）；循环（动词 cycle 的现在分词形式）
“dancing”：跳舞；舞蹈（动词 dance 的现在分词形式）
“drinking”：喝；饮；喝酒（动词 drink 的现在分词形式）
“fighting”：打架；搏斗；斗争；战斗（动词 fight 的现在分词形式）
“hugging”：拥抱；搂抱；抱紧（动词 hug 的现在分词形式）
“laughing”：笑；发笑；嘲笑（动词 laugh 的现在分词形式）
“listening_to_music”：听音乐

可以识别

‘Fell’
‘Sit’
‘Stand’
‘calling’
‘cycling’
‘dancing’
‘drinking’
‘fighting’
‘hugging’
‘laughing’
‘listening_to_music’

等十种人体行为动作，另外在检测到摔倒行为时，可弹出警告窗口以作提醒
①选择图片识别目标，可选择单个或批量导入
②选择视频识别目标。
③摄像头检测识别目标

以下是一个基于深度学习的人体姿态识别系统的详细实现方案。该系统使用 ResNet34 模型（可根据需求改进为其他模型），并支持通过图片、视频、摄像头进行实时人体行为识别。系统会显示人体姿态行为的详细信息，并在检测到摔倒行为时弹出警告窗口。

项目结构

Human_Pose_Recognition/ ├── main.py # 主程序入口 ├── ui_main.py # PyQt5 UI 界面逻辑代码 ├── ui_main.ui # PyQt5 UI 设计文件 ├── resources.qrc # 图标资源文件 ├── resources_rc.py # 编译后的图标资源文件 ├── models/ # 存放预训练模型和权重 │ ├── resnet34.pth # ResNet34 预训练权重 ├── utils/ # 工具函数 │ ├── pose_utils.py # 姿态识别工具函数 │ ├── video_utils.py # 视频处理工具函数 ├── data/ # 测试数据 │ ├── images/ # 测试图片 │ ├── videos/ # 测试视频 ├── requirements.txt # Python 依赖包列表 └── README.md # 项目说明文档

1. 安装依赖

在requirements.txt中列出所需的依赖库：

opencv-python==4.7.0.72 PyQt5==5.15.9 torch==1.13.1 torchvision==0.14.1 numpy==1.23.5

安装依赖：

pipinstall-rrequirements.txt

2. 数据集与模型

数据集

可使用公开的人体行为数据集（如 NTU RGB+D 或 UCF101）进行模型训练。标注类别包括以下动作：

‘Fell’
‘Sit’
‘Stand’
‘calling’
‘cycling’
‘dancing’
‘drinking’
‘fighting’
‘hugging’
‘laughing’
‘listening_to_music’

模型

使用 ResNet34 作为基础模型，加载预训练权重，并根据数据集微调。模型输出为上述 11 种行为类别。

3. 核心代码

`pose_utils.py`

importcv2importtorchimporttorchvision.transformsastransformsfromPILimportImage# 加载预训练模型defload_model(model_path,num_classes=11):model=torch.hub.load('pytorch/vision:v0.10.0','resnet34',pretrained=False)model.fc=torch.nn.Linear(model.fc.in_features,num_classes)model.load_state_dict(torch.load(model_path))model.eval()returnmodel# 图像预处理defpreprocess_image(image):transform=transforms.Compose([transforms.Resize((224,224)),transforms.ToTensor(),transforms.Normalize(mean=[0.485,0.456,0.406],std=[0.229,0.224,0.225])])image=Image.fromarray(cv2.cvtColor(image,cv2.COLOR_BGR2RGB))returntransform(image).unsqueeze(0)# 推理函数defpredict_action(model,image):withtorch.no_grad():inputs=preprocess_image(image)outputs=model(inputs)_,predicted=torch.max(outputs,1)returnpredicted.item()# 行为类别映射ACTION_LABELS=['Fell','Sit','Stand','calling','cycling','dancing','drinking','fighting','hugging','laughing','listening_to_music']

`video_utils.py`

importcv2# 处理视频帧defprocess_video_frame(model,frame):action_id=predict_action(model,frame)action_label=ACTION_LABELS[action_id]returnaction_label# 实时摄像头检测defdetect_from_camera(model):cap=cv2.VideoCapture(0)whileTrue:ret,frame=cap.read()ifnotret:breakaction_label=process_video_frame(model,frame)display_frame(frame,action_label)ifcv2.waitKey(1)&0xFF==ord('q'):breakcap.release()cv2.destroyAllWindows()# 显示结果defdisplay_frame(frame,action_label):cv2.putText(frame,action_label,(10,30),cv2.FONT_HERSHEY_SIMPLEX,1,(0,255,0),2)cv2.imshow("Human Pose Recognition",frame)

`ui_main.py`

fromPyQt5.QtWidgetsimportQMainWindow,QFileDialog,QMessageBoxfromPyQt5.QtGuiimportQImage,QPixmapfromui_mainimportUi_MainWindowimportcv2frompose_utilsimportload_model,predict_action,ACTION_LABELSfromvideo_utilsimportdetect_from_cameraclassMainWindow(QMainWindow,Ui_MainWindow):def__init__(self):super(MainWindow,self).__init__()self.setupUi(self)self.model=load_model("models/resnet34.pth")# 连接按钮事件self.btn_image.clicked.connect(self.select_image)self.btn_video.clicked.connect(self.select_video)self.btn_camera.clicked.connect(self.start_camera)defselect_image(self):file_path,_=QFileDialog.getOpenFileName(self,"选择图片","","Image Files (*.jpg *.jpeg *.png)")iffile_path:image=cv2.imread(file_path)action_label=ACTION_LABELS[predict_action(self.model,image)]self.display_image(image,action_label)defselect_video(self):file_path,_=QFileDialog.getOpenFileName(self,"选择视频","","Video Files (*.mp4 *.avi)")iffile_path:cap=cv2.VideoCapture(file_path)whileTrue:ret,frame=cap.read()ifnotret:breakaction_label=ACTION_LABELS[predict_action(self.model,frame)]self.display_image(frame,action_label)ifcv2.waitKey(30)&0xFF==ord('q'):breakcap.release()cv2.destroyAllWindows()defstart_camera(self):detect_from_camera(self.model)defdisplay_image(self,image,action_label):ifaction_label=="Fell":QMessageBox.warning(self,"警告","检测到摔倒行为！")rgb_image=cv2.cvtColor(image,cv2.COLOR_BGR2RGB)h,w,ch=rgb_image.shape bytes_per_line=ch*w q_img=QImage(rgb_image.data,w,h,bytes_per_line,QImage.Format_RGB888)self.label_image.setPixmap(QPixmap.fromImage(q_img))

4. PyQt5 UI 文件

`ui_main.ui`

设计一个简单的 UI 界面，包含以下控件：

三个按钮：选择图片、选择视频、启动摄像头。
一个标签用于显示图像。
一个警告窗口用于提示摔倒行为。

使用 Qt Designer 设计界面后，保存为ui_main.ui。

5. 主程序入口

`main.py`

importsysfromPyQt5.QtWidgetsimportQApplicationfromui_mainimportMainWindowif__name__=="__main__":app=QApplication(sys.argv)window=MainWindow()window.show()sys.exit(app.exec_())