Python学习第75天:深入浅出pandas-4(数据透视与可视化)
Python学习100天(从入门到精通系列文章)
文章目录
- Python学习100天(从入门到精通系列文章)
- 前言
- 一、描述性统计:快速了解数据全貌
- 1.1 基础统计方法
- 1.2 describe() 一键统计
- 二、排序与 Top-N 筛选
- 2.1 sort_values 排序
- 2.2 nlargest / nsmallest:高效的 Top-N
- 三、分组聚合:数据分析的核心武器
- 3.1 基础分组聚合
- 3.2 多维度分组
- 3.3 agg() 多函数聚合
- 3.4 对不同列应用不同聚合函数
- 四、透视表与交叉表
- 4.1 pivot_table 透视表
- 4.2 crosstab 交叉表
- 五、数据可视化:一图胜千言
- 5.1 配置中文字体
- 5.2 柱状图:比较分类数据
- 5.3 饼图:展示占比分布
- 5.4 常用图表类型速查
- 六、常见错误与避坑指南
- 错误1:groupby 后直接使用导致类型混淆
- 错误2:透视表忘记设置 fill_value
- 错误3:plot 中文乱码
- 参考链接
- 总结
前言
数据清洗完成后,真正的分析工作才刚刚开始。如何从海量数据中快速提炼有价值的信息?数据透视(Pivot)和分组聚合(GroupBy)是 pandas 中最强大的分析工具,而数据可视化则是将分析结果直观呈现的利器。本文带你深入掌握描述性统计、排序筛选、分组聚合、透视表与交叉表等核心技能,并结合 matplotlib 将数据转化为一目了然的图表。适合已完成数据清洗、准备进入分析阶段的读者。
一、描述性统计:快速了解数据全貌
1.1 基础统计方法
拿到数据后,第一步通常是获取描述性统计信息,了解数据的集中趋势(均值、中位数)和离散趋势(标准差、方差)。
importpandasaspdimportnumpyasnp# 创建学生成绩表scores=np.random.ran