当前位置：首页 > news >正文

Keep运动数据分析指南：用Python发现你的跑步习惯与进步曲线

news 2026/7/7 21:06:29

Keep运动数据分析指南：用Python发现你的跑步习惯与进步曲线

跑步爱好者们常说"数据不会说谎"，但面对Keep导出的海量JSON数据，很多人却无从下手。本文将带你用Python从零开始构建个人跑步数据分析系统，不仅教你解析数据，更重要的是教会你如何从这些数字中读懂自己的身体信号和训练效果。

1. 数据获取与初步探索

首先需要从Keep导出你的运动数据。登录Keep官网，进入"个人中心"-"数据导出"，选择需要的时间范围提交申请。通常24小时内会收到包含所有运动记录的ZIP压缩包。

解压后你会发现几个关键JSON文件：

workouts.json：包含每次运动的概要信息
routes.json：记录GPS轨迹和配速变化
achievements.json：保存所有成就和里程碑

import json import pandas as pd # 加载基础运动数据 with open('workouts.json', 'r', encoding='utf-8') as f: workouts = json.load(f) df = pd.DataFrame(workouts['data']) print(f"共加载{len(df)}条运动记录") print(df[['start_time', 'duration', 'distance', 'calorie']].head())

典型输出示例：

共加载287条运动记录 start_time duration distance calorie 0 2023-03-15 06:30:00 1824 5.21 328 1 2023-03-16 06:45:00 1920 5.43 342 2 2023-03-17 07:00:00 1788 5.12 321

2. 核心指标计算与趋势分析

有了基础数据后，我们可以计算几个关键指标：

指标名称	计算公式	分析价值
周跑量	每周跑步距离总和	观察训练负荷变化
平均配速	总时间(分钟)/总距离(公里)	评估整体速度水平
心率区间占比	不同心率区间时长/总时长	了解训练强度分布
步频	总步数/总时间(分钟)	评估跑步经济性

# 转换时间格式并计算周统计 df['start_time'] = pd.to_datetime(df['start_time']) weekly = df.resample('W', on='start_time').agg({ 'distance': 'sum', 'duration': ['sum', 'count'], 'calorie': 'sum' }) # 计算配速(分钟/公里) weekly['pace'] = weekly['duration']['sum']/60 / weekly['distance']['sum']

关键发现技巧：

使用rolling(4).mean()计算4周移动平均线，平滑短期波动
配合matplotlib绘制双轴图表，同时展示跑量和配速趋势
标注特殊事件（如比赛、伤病）时间点，分析其对数据的影响

3. 训练周期识别与状态评估

通过聚类算法可以自动识别不同的训练阶段：

from sklearn.cluster import KMeans # 提取特征：周跑量、平均配速、单次最长距离 features = weekly[['distance', 'pace']].copy() features['longest'] = df.resample('W', on='start_time')['distance'].max() # 标准化并聚类 from sklearn.preprocessing import StandardScaler scaler = StandardScaler() kmeans = KMeans(n_clusters=3) clusters = kmeans.fit_predict(scaler.fit_transform(features)) weekly['phase'] = clusters

典型训练阶段特征：

阶段类型	跑量特征	配速特征	建议行动
基础期	平稳中高	较慢且稳定	保持有氧耐力训练
提升期	波动上升	逐渐加快	加入间歇训练
恢复期	明显下降	不稳定	充分休息恢复

注意：当连续两周数据落入恢复期聚类时，可能是过度训练的信号，建议主动调整

4. 可视化报告生成

综合使用以下可视化技术生成易读的报告：

热力图日历

import calmap # 准备每日跑量数据 daily = df.resample('D', on='start_time')['distance'].sum() plt.figure(figsize=(16, 8)) calmap.yearplot(daily, year=2023, cmap='YlGn')

交互式轨迹地图

import folium # 选取一次典型跑步的GPS轨迹 with open('routes/123456.json') as f: route = json.load(f) coords = [(p['latitude'], p['longitude']) for p in route['points']] m = folium.Map(location=coords[0], zoom_start=14) folium.PolyLine(coords, color='blue').add_to(m) for i, p in enumerate(route['points'][::30]): # 每30个点标记一次 folium.Marker( (p['latitude'], p['longitude']), popup=f"配速: {p['pace']}/km<br>心率: {p['heart_rate']}" ).add_to(m)

综合仪表盘制作步骤：

使用plotly.subplots创建多图表布局
左上角放置月度跑量柱状图
右上角展示配速-心率散点图
下方布置周跑量热力图
添加交互式筛选控件（按时间、距离范围等）

5. 进阶分析技巧

对于有编程基础的用户，可以尝试这些深度分析方法：

跑步经济性评估

# 计算效率指数(越低越好) df['efficiency'] = df['avg_heart_rate'] / df['pace'] # 与温度的关系 df['temperature'] = df['weather'].apply(lambda x: x['temp']) plt.scatter(df['temperature'], df['efficiency'])

训练负荷计算

# 使用TRIMP算法量化训练负荷 df['trimp'] = df['duration'] * df['avg_heart_rate'] * 0.64 * \ np.exp(1.92 * df['avg_heart_rate'] / max_hr)

预测模型构建

from sklearn.ensemble import RandomForestRegressor # 准备特征：前一周数据、天气、作息等 X = pd.DataFrame({ 'last_week_distance': weekly['distance'].shift(1), 'last_week_pace': weekly['pace'].shift(1), 'temperature': weekly['weather'].apply(lambda x: x['avg_temp']) }) # 预测下周最大可持续距离 model = RandomForestRegressor() model.fit(X[:-1], weekly['distance'][1:])

实际项目中，我将这些分析封装成了自动化脚本，每周日晚上自动运行生成报告，周一早晨就能收到最新的训练洞察。经过半年数据追踪，我的月跑量从120公里提升到180公里，而平均心率却下降了5bpm，这种数据驱动的进步让人成就感十足。

查看全文

http://www.jsqmd.com/news/516038/