当前位置：首页 > news >正文

保姆级教程：用Pandas+Matplotlib搞定公交刷卡数据分析（从数据清洗到可视化）

news 2026/6/3 8:20:44

从零到一：用Python解锁公交卡数据的商业洞察力

公交卡数据就像一座未被充分挖掘的金矿，蕴含着城市交通运行的秘密。作为数据分析师，我们如何从这些看似枯燥的刷卡记录中提炼出有价值的商业洞察？本文将带你用Python的Pandas和Matplotlib工具包，完成从原始数据清洗到可视化呈现的全流程实战。

1. 数据准备与环境搭建

在开始分析前，我们需要确保Python环境已安装必要的工具包。推荐使用Anaconda发行版，它已经集成了我们所需的大部分科学计算工具。

# 安装必要库（如未安装） !pip install pandas matplotlib numpy

公交卡数据通常以CSV格式存储，包含以下典型字段：

卡号：匿名化的用户标识符
交易时间：精确到秒的刷卡时间戳
线路编号：公交线路的唯一标识
车辆编号：具体公交车的识别号
上下车站点：乘客乘降的位置信息

提示：实际业务中，数据可能包含敏感信息，分析前需进行匿名化处理。

2. 数据清洗与预处理实战

原始数据往往存在各种问题，我们需要先进行"数据洗澡"——清洗和预处理。

2.1 处理缺失值与异常数据

公交卡数据常见的质量问题包括：

时间戳格式不统一
站点编号缺失或异常
刷卡类型编码错误

import pandas as pd # 加载数据并初步检查 df = pd.read_csv('bus_card_data.csv', encoding='gbk') # 中文数据常用gbk编码 print(df.info()) # 查看数据概况 print(df.isnull().sum()) # 检查缺失值

2.2 时间数据处理技巧

时间分析是公交数据挖掘的核心。Pandas提供了强大的时间处理功能：

# 转换时间格式 df['交易时间'] = pd.to_datetime(df['交易时间'], format='%Y/%m/%d %H:%M:%S') # 提取时间特征 df['小时'] = df['交易时间'].dt.hour df['星期'] = df['交易时间'].dt.dayofweek # 0-6代表周一到周日 df['是否工作日'] = df['星期'].apply(lambda x: 1 if x < 5 else 0)

3. 核心分析：挖掘出行规律

清洗后的数据可以开始真正的分析工作了。

3.1 高峰时段识别

通过分组聚合找出早晚高峰：

# 按小时统计刷卡量 hourly_counts = df.groupby('小时').size() # 可视化呈现 import matplotlib.pyplot as plt plt.figure(figsize=(12, 6)) hourly_counts.plot(kind='line', marker='o') plt.title('各小时公交刷卡量变化趋势') plt.xlabel('小时') plt.ylabel('刷卡次数') plt.grid(True) plt.show()

典型的高峰时段分析结果可能显示：

早高峰：7:00-9:00
晚高峰：17:00-19:00
午间小高峰：12:00-13:00

3.2 乘客出行OD分析

起讫点(Origin-Destination)分析能揭示客流走向：

# 计算各站点间的客流 od_matrix = df.groupby(['上车站点', '下车站点']).size().unstack() # 找出热门OD对 top_od = od_matrix.stack().sort_values(ascending=False).head(10) print("最热门的10个OD对：") print(top_od)

4. 高级分析技巧

基础分析之后，我们可以深入挖掘更多商业价值。

4.1 乘客分类与画像

根据乘车规律划分乘客类型：

# 按卡号分组分析乘车习惯 user_behavior = df.groupby('卡号').agg({ '交易时间': ['count', lambda x: (x.max()-x.min()).days], '小时': ['mean', 'std'] }) user_behavior.columns = ['乘车次数', '活跃天数', '平均乘车时间', '时间标准差'] # 定义用户类型 def classify_user(row): if row['乘车次数'] > 40 and row['时间标准差'] < 2: return '通勤族' elif row['活跃天数'] > 30 and row['乘车次数'] < 15: return '偶尔出行' else: return '其他' user_behavior['用户类型'] = user_behavior.apply(classify_user, axis=1)

4.2 线路运营效率评估

评估各线路的载客效率：

# 计算线路负载 line_stats = df.groupby('线路编号').agg({ '卡号': 'count', '车辆编号': pd.Series.nunique }) line_stats['平均每车载客量'] = line_stats['卡号'] / line_stats['车辆编号'] line_stats = line_stats.sort_values('平均每车载客量', ascending=False)

5. 可视化呈现技巧

好的可视化能让数据自己"说话"。

5.1 热力图展示时空规律

import seaborn as sns # 创建小时×星期的客流矩阵 heatmap_data = df.groupby(['小时', '星期']).size().unstack() plt.figure(figsize=(12, 8)) sns.heatmap(heatmap_data, cmap='YlOrRd') plt.title('公交客流时空热力图') plt.xlabel('星期') plt.ylabel('小时') plt.show()

5.2 交互式可视化进阶

对于更复杂的展示，可以使用Plotly库：

import plotly.express as px # 创建动态散点图 fig = px.scatter(df.sample(1000), x='上车站点', y='下车站点', color='小时', size_max=15, title='公交OD点分布（按小时着色）') fig.show()