当前位置: 首页 > news >正文

YOLO四种常见的关键点数据集说明

姿势估计数据集概述

TXT 文件中每一行的数字按空格分隔,必须严格遵循以下序列逻辑:

[类别ID] [框中心X][框中心Y] [框宽度W] [框高度H] [点1_X] [点1_Y][点1_可见度] [点2_X] [点2_Y] [点2_可见度] ...

  • 第 1 项类别ID:整数。例如 0 代表人,1 代表狗。
  • 第 2~5 项边界框 (BBox):物体的外接矩形框的归一化参数( c x , c y , w , h ) (cx, cy, w, h)(cx,cy,w,h)
  • 第 6 项及之后关键点序列 (Keypoints):按每 2 个或 3 个数字为一组循环。通常为( x , y , v ) (x, y, v)(x,y,v)
    • x, y:关键点的归一化坐标。
    • v (Visibility, 可见度):通常为 0(未标注/在图外)、1(被遮挡但推测出位置)、2(清晰可见且已标注)。注:部分极简数据集可能没有 v 维度,只保留 x, y。

数据集 YAML 配置文件

除了存放图片和 txt 标签的文件夹,还必须有一个data.yaml文件来告诉模型如何读取这些数据。YOLO官网的数据集配置文件如下(关键点检测任务):

# 数据集路径path:../datasets/my_pose_datasettrain:images/trainval:images/val# 姿态估计必填字段kpt_shape:[17,3]# [关键点总数, 每个关键点的维度]。3代表(x,y,v),2代表仅有(x,y)flip_idx:[0,2,1,4,3,6,5,8,7,10,9,12,11,14,13,16,15]# 类别设定names:0:person# Keypoint names per classkpt_names:0:-nose-left_eye-right_eye-left_ear-right_ear-left_shoulder-right_shoulder-left_elbow-right_elbow-left_wrist-right_wrist-left_hip-right_hip-left_knee-right_knee-left_ankle-right_ankle

注意点如下:

Ultralytics 官方支持并内置了多种典型的拓扑结构,你也可以自定义任何点数的数据集:

  • COCO-Pose / COCO8-Pose:人体的标准姿态,17个关键点。
  • Hand Keypoints:人手部骨架跟踪,21个关键点。
  • Dog-Pose:针对狗的姿态分析,24个关键点。
  • Tiger-Pose:针对老虎等野生动物,12个关键点(且没有可见度维度,所以它的 shape 是[12, 2])。

参考链接: https://docs.ultralytics.com/zh/datasets/pose/

1. Person 17 (COCO 数据集人体骨架)

目前计算机视觉中最通用的人体姿态估计标准,包含 17 个关键点,主要涵盖五官和四肢关节。

关键点序号 (Index)部位名称 (中文)部位名称 (英文)说明
0鼻子Nose面部中心基准点
1, 2左眼, 右眼L/R Eye配合鼻子计算面部朝向
3, 4左耳, 右耳L/R Ear
5, 6左肩, 右肩L/R Shoulder躯干上部宽度基准
7, 8左肘, 右肘L/R Elbow手臂中段关节
9, 10左手腕, 右手腕L/R Wrist手臂末端
11, 12左胯/髋, 右胯/髋L/R Hip躯干下部/骨盆位置
13, 14左膝盖, 右膝盖L/R Knee腿部中段关节
15, 16左脚踝, 右脚踝L/R Ankle腿部末端

COCO姿态估计示意图:


2. Hand 21 (手部 21 点骨架)

通常基于 MediaPipe 或 COCO-WholeBody 的标准,精准描绘了手掌和五根手指的全部关节。

关键点序号 (Index)部位名称 (中文)部位名称 (英文)说明
0手腕Wrist (Root)整个手部拓扑图的根节点
1, 2, 3, 4拇指关节Thumb (CMC, MCP, IP, Tip)从手掌根部到拇指指尖的4个点
5, 6, 7, 8食指关节Index Finger (MCP, PIP, DIP, Tip)从指根关节到食指指尖的4个点
9, 10, 11, 12中指关节Middle Finger同上,中指的4个点
13, 14, 15, 16无名指关节Ring Finger同上,无名指的4个点
17, 18, 19, 20小指关节Pinky Finger同上,小指的4个点

参考链接: https://docs.ultralytics.com/zh/datasets/pose/hand-keypoints/#introduction


3. Dog 18 (AP-10K 动物/狗骨架)

在学术界,标准的 AP-10K(泛哺乳动物姿态估计数据集)通常定义了17个关键点,也可能是 18 个关键点。通常第18个点增加的是“尾尖 Tail Tip”)。

关键点序号 (Index)部位名称 (中文)部位名称 (英文)说明
0, 1左眼, 右眼L/R Eye动物面部特征
2鼻子Nose
3脖颈/颈后Neck / Withers连接头部与躯干的基准
4尾巴根部Root of tail脊椎的末端
5, 6, 7左前肢 (肩, 肘, 爪)L_Shoulder, L_Elbow, L_Front_Paw左前腿的三个关节
8, 9, 10右前肢 (肩, 肘, 爪)R_Shoulder, R_Elbow, R_Front_Paw右前腿的三个关节
11, 12, 13左后肢 (髋, 膝, 爪)L_Hip, L_Knee, L_Back_Paw左后腿的三个关节
14, 15, 16右后肢 (髋, 膝, 爪)R_Hip, R_Knee, R_Back_Paw右后腿的三个关节
17尾巴尖 / 额外点Tail Tip尾巴

参考链接: https://github.com/AlexTheBad/AP-10K


4. Face 68 (iBUG 300W 人脸 68 关键点)

最经典的人脸对齐(Face Alignment)模型,点位密集地分布在五官边缘。

关键点区间 (Index)部位名称 (中文)部位名称 (英文)包含的点数
0 ~ 16下颌与脸颊轮廓Jawline / Face Contour17个点,从左耳根沿着下巴画到右耳根的U型弧线
17 ~ 21左眉毛Left Eyebrow5个点,描绘左眉毛的上边缘走向
22 ~ 26右眉毛Right Eyebrow5个点,描绘右眉毛的上边缘走向
27 ~ 35鼻子Nose9个点,其中27-30为鼻梁,31-35为鼻翼底部的U形
36 ~ 41左眼Left Eye6个点,顺时针描绘左眼的眼角和眼眶
42 ~ 47右眼Right Eye6个点,顺时针描绘右眼的眼角和眼眶
48 ~ 59嘴唇(外圈)Outer Lip12个点,描绘嘴巴的外部轮廓边缘
60 ~ 67嘴唇(内圈)Inner Lip8个点,描绘嘴唇张开时的内部边缘(区分是否张嘴)
http://www.jsqmd.com/news/704245/

相关文章:

  • 城通网盘福利
  • Switch手柄在PC上完美工作的终极指南:BetterJoy解决方案全解析
  • 2025-2026年北京奔驰专修中心推荐:口碑好的服务解决保养维护时价格不透明导致担忧 - 品牌推荐
  • 零信任AI开发环境构建全指南,从Dockerfile硬隔离到OPA策略引擎落地
  • 基于LangGraph与Gemini构建具备规划-执行-反思能力的智能研究助手
  • KISSABC官方购买指南 - 品牌企业推荐师(官方)
  • Git04-同步1-3:在feat/B分支上同步origin/main新代码【rebase详解:本地有未提交代码时,如何安全 rebase 到最新 main 分支继续开发】
  • 高质量的OPCServer DA版本:C#二次开发源码,多行业应用,稳定可靠,含测试源码与视频教程
  • 8毛钱的国产MCU也能玩转Arduino?手把手教你用HK32F030MF4P6打造自己的紧凑开发板
  • AgentQL MCP Server:让AI助手通过自然语言智能抓取网页数据
  • 2025-2026年北京奔驰专修中心推荐:口碑好的服务解决车内异味与内饰清洁注意事项 - 品牌推荐
  • 【紧急预警】MCP 2.4.1版本在海光C86平台存在时钟漂移导致任务丢弃!已验证热修复补丁(限今日领取)
  • 如何构建专业级AI心理咨询系统:Emotional First Aid Dataset技术深度解析
  • Docker Sandbox部署LLM推理服务全流程,从权限失控到100%环境隔离的7个关键配置点
  • 深入NumPy‘心脏’:搞懂multiarray模块,才能从根源上避免导入失败
  • 2025-2026年极地信息技术(上海)有限公司电话查询:使用厂房平台前请核实资质 - 品牌推荐
  • 【MCP 2026低代码集成终极指南】:3大核心组件接入规范、5类典型故障避坑清单与2026Q1企业落地实测数据
  • 5步快速上手StarRailCopilot:崩坏星穹铁道自动化终极指南
  • The Dangers of Fatal Logging
  • 2026届最火的六大降重复率神器推荐
  • 【独家首发】MCP 2026多租户加密性能压测报告:AES-GCM-SIV vs ChaCha20-Poly1305在10万TPS下的租户上下文切换耗时对比(附可复现YAML)
  • 如何用望言OCR实现10倍速视频字幕提取?终极硬字幕识别工具完整指南
  • KISSABC官方正规购买渠道及授权服务说明 - 品牌企业推荐师(官方)
  • WASM容器化部署性能翻倍实录(2024边缘节点压测全数据公开):从287ms到19ms的5步调优链
  • 大规模数据集异常检测技术实战与优化
  • M3U8不只是个播放列表?揭秘它在短视频下载与HLS流媒体中的核心角色
  • 当 grep 遇上向量数据库:AI 工程范式的演进与缝合
  • 如何快速搭建本地AI助手:Ollama GUI完整使用指南
  • 3步重新定义老旧电视体验:MyTV-Android突破性直播解决方案实战指南
  • 掌握CREST分子构象搜索:从基础理论到实战应用