当前位置：首页 > news >正文

DataFrame数据聚合与分组：从基础到进阶的Python数据分析指南

news 2026/3/26 20:12:45

引言

在数据分析工作中，数据聚合（Aggregation）和分组（Grouping）是两个核心操作。它们允许我们将大数据集分解为逻辑组，然后对每个组应用统计函数或其他操作，从而提取有价值的洞察。Pandas库中的DataFrame提供了强大而灵活的数据分组和聚合功能，本文将系统介绍这些功能的使用方法。

一、分组基础：groupby()方法

1.1 基本分组操作

groupby()方法是Pandas中实现分组操作的核心方法。它的基本语法如下：

grouped=df.groupby(by='column_name')

其中by参数可以是列名、列表或函数，用于指定分组依据。

示例：按单列分组

importpandasaspd# 创建示例DataFramedata={'Department':['HR','IT','HR','Finance','IT','Finance'],'Employee':['Alice','Bob','Charlie','David','Eve','Frank'],'Salary':[50000,80000,55000,70000,85000,72000]}df=pd.DataFrame(data)# 按部门分组grouped=df.groupby('Department')

1.2 分组对象属性

分组后返回的GroupBy对象有以下重要属性：

groups: 显示分组键和对应的索引
get_group(key): 获取特定组的子DataFrame

print(grouped.groups)# 输出: {'HR': [0, 2], 'IT': [1, 4], 'Finance': [3, 5]}hr_group=grouped.get_group('HR')print(hr_group)

二、数据聚合操作

2.1 基本聚合函数

对分组后的数据应用聚合函数是最常见的操作：

# 计算每个部门的平均工资avg_salary=grouped['Salary'].mean()print(avg_salary)# 多种聚合函数同时应用agg_result=grouped['Salary'].agg(['mean','sum','count','min','max'])print(agg_result)

2.2 自定义聚合函数

除了内置函数，我们还可以定义自己的聚合逻辑：

# 自定义聚合函数：计算薪资范围defsalary_range(series):returnseries.max()-series.min()range_result=grouped['Salary'].agg(salary_range)print(range_result)

2.3 多列聚合

可以对多个列同时应用不同的聚合函数：

agg_multi=grouped.agg({'Salary':['mean','sum'],'Employee':'count'# 注意：对非数值列应用count})print(agg_multi)

三、高级分组技巧

3.1 多级分组

可以按多个列进行分组，创建多级索引：

# 假设我们添加一个Region列df['Region']=['East','West','East','West','West','East']# 按部门和地区两级分组multi_group=df.groupby(['Department','Region'])result=multi_group['Salary'].mean()print(result)

3.2 分组后过滤

使用filter()方法可以基于分组条件过滤数据：

# 过滤出平均工资高于60000的部门deffilter_func(x):returnx['Salary'].mean()>60000filtered=df.groupby('Department').filter(filter_func)print(filtered)

3.3 分组后转换

transform()方法返回与原始DataFrame相同形状的结果：

# 计算每个员工薪资与部门平均薪资的差值df['Salary_Diff']=df.groupby('Department')['Salary'].transform(lambdax:x-x.mean())print(df)

3.4 分组后应用自定义函数

使用apply()方法可以应用更复杂的自定义函数：

# 为每个部门添加薪资排名defrank_salaries(group):group['Salary_Rank']=group['Salary'].rank(ascending=False)returngroup ranked_df=df.groupby('Department').apply(rank_salaries)print(ranked_df)

四、性能优化技巧

4.1 使用categorical类型优化分组

对于具有有限可能值的列，转换为categorical类型可以提高分组性能：

df['Department']=df['Department'].astype('category')

4.2 选择性聚合

只对需要的列进行聚合操作，避免不必要的计算：

# 只对Salary列进行聚合，而不是整个DataFrameresult=df.groupby('Department')['Salary'].agg(['mean','sum'])

4.3 使用numba加速自定义函数

对于计算密集型的自定义聚合函数，可以使用numba加速：

fromnumbaimportjit@jitdeffast_agg(series):# 复杂的计算逻辑returnresult df.groupby('Department')['Salary'].agg(fast_agg)

五、实际应用案例

案例1：销售数据分析

# 假设有销售数据sales_data={'Region':['East','West','East','West','East','West'],'Product':['A','B','A','B','A','B'],'Revenue':[1000,1500,1200,1800,900,2000],'Units':[10,15,12,18,9,20]}sales_df=pd.DataFrame(sales_data)# 分析每个产品在不同地区的销售表现product_region=sales_df.groupby(['Product','Region']).agg({'Revenue':['sum','mean'],'Units':'sum'})print(product_region)

案例2：时间序列分组

# 创建时间序列数据date_rng=pd.date_range(start='1/1/2023',end='1/08/2023',freq='D')time_data=pd.DataFrame(date_rng,columns=['date'])time_data['value']=range(len(date_rng))# 按周分组time_data['week']=time_data['date'].dt.isocalendar().week weekly_avg=time_data.groupby('week')['value'].mean()print(weekly_avg)

六、常见问题解决

问题1：分组后索引处理

分组聚合后通常会产生多级索引，可以使用reset_index()将其转换为列：

result=df.groupby('Department')['Salary'].mean().reset_index()

问题2：处理缺失值

分组操作默认会排除缺失值，可以使用dropna=False保留它们：

df.groupby('Department',dropna=False).mean()

问题3：聚合结果命名

使用agg()时，可以通过字典指定结果列名：

df.groupby('Department').agg(Average_Salary=('Salary','mean'),Total_Employees=('Employee','count'))

总结

DataFrame的分组和聚合功能是数据分析的强大工具，掌握它们可以让你：

从不同维度剖析数据
发现数据中的模式和异常
准备数据用于可视化或机器学习
高效处理大规模数据集

本文介绍了从基础到高级的分组聚合技术，包括多级分组、自定义聚合、性能优化等实用技巧。通过实际应用案例和常见问题解决方案，帮助你在实际工作中灵活运用这些功能。

记住，分组聚合的核心思想是"分割-应用-合并"（split-apply-combine），理解这一范式将帮助你更好地掌握Pandas的分组操作。

查看全文

http://www.jsqmd.com/news/397239/

题解：洛谷 P3380 【模板】树套树

深入RAG架构：分块策略、混合检索与重排序的工程实现

抢占AI搜索新入口：主流GEO服务商全景解析（2026年版） - 品牌2025

大年初四

引入Lombok时，记得删除＜Configuration＞

VC运行库报错截图收集

[豪の算法奇妙冒险] 代码随想录算法训练营第四十二天 | 188-买卖股票的最佳时机Ⅳ、309-最佳买卖股票时机含冷冻期、714-买卖股票的最佳时机含手续费

题解：洛谷 P3834 【模板】可持久化线段树 2

oii一键生成动漫，oiioii一键生成动漫，oii邀请码，oiioii邀请码2026年2月20日最新

算力杠杆和人类瓶颈：一个 PhD 的Agentic Workflow 压力测试半月记（二）

《金包银》MV制作教程：DeepSeek+百度AI+剪映，闽南语苦情歌的深度演绎

含分布式电源与电动汽车的配电网潮流计算：考虑风光及电动汽车出力时序特性的IEEE33节点牛拉法...

Ubuntu 上 Docker 的配置及代理

OpenClaw多Agent协作踩坑实录：从翻车到跑通的全记录

数字员工与AI销冠系统是什么？主要具备哪些智能提升业务效率的功能？

谷歌新模型Gemini 3.1 Pro发布：推理能力翻倍，更新内容一览

机器学习中的：偏差、方差、噪声、置信度分别是什么？

2026高职计算机专业学数据分析的实用性分析

从代码到关怀：智能养老机器人的技术架构、伦理挑战与未来展望

从8组解到0接触：机械臂逆运动学求解失败的深度诊断与修复指南

tcpdump教程与示例

从挖矿木马入侵到 Docker Rootless 加固，我的服务器安全复盘

Python基于Vue的智慧校园信息管理平台的设计与实现 django flask pycharm

题解：洛谷 P2455 [SDOI2006] 线性方程组

北京丰宝斋上门回收全品类老物件，名家字画、古木家具等，现金结算无忧 - 品牌排行榜单

数据驱动的提示创新：提示工程架构师的5个实践方法

Python基于Vue的体育运动网站 django flask pycharm

2026中专计算机专业学数据分析的技术价值分析

Python基于Vue的在线图书商城系统的设计与实现 django flask pycharm

大数据领域数据挖掘的核心技术与应用案例

引言