Python 进阶:数据处理 + 常用库(精简实用版)
一、内置标准库(不用安装,直接用)
1. 数据序列化
- json:读写JSON、字典转字符串、格式化输出
常用:json.dumps() / json.loads() / json.dump() / json.load()
2. 表格文本处理
- csv:读写CSV表格,批量导入导出Excel格式数据
- configparser:读写ini配置文件
3. 时间日期
- datetime / time:时间获取、格式化、时间戳转换、日期计算
- calendar:日历、月份星期判断
4. 路径与文件
- os:创建文件夹、遍历文件、执行系统命令、路径拼接
- pathlib:现代面向对象路径写法,比os更简洁好用
- shutil:文件复制、移动、删除、整文件夹拷贝
5. 正则匹配
6. 编码与加密
- base64:Base64编解码
- hashlib:MD5、SHA加密,常用于密码摘要
二、第三方必备数据处理库(需pip安装)
1. 数据分析核心
- numpy:数值计算、数组、矩阵运算、高性能数学计算
- pandas:万能表格处理,Excel/CSV/数据库读写、筛选、分组、聚合、合并透视
2. 可视化绘图
- matplotlib:基础折线/柱状/饼图,自定义图表
- seaborn:统计高颜值绘图,热力图、分布图
- pyecharts:交互式大屏图表,网页可展示
3. Excel/Word/PPT 办公数据处理
- openpyxl:读写编辑Excel xlsx
- pandas+openpyxl:批量处理报表最强组合
- python-docx:操作Word文档
- python-pptx:操作PPT
4. 数据采集解析
- requests:网络请求,爬取网页接口数据
- beautifulsoup4:网页HTML解析取数据
- lxml:XPath解析,解析速度更快
5. 数据库交互
- pymysql:操作MySQL
- sqlite3:内置轻量数据库,无需安装
- pandas+数据库:一键把Excel数据导入数据库
三、常用场景速配
- 普通文本/配置:
json + csv + re
- 批量Excel报表:
pandas + openpyxl
- 数值计算、大数据数组:
numpy
- 画图做报表:
matplotlib + pyecharts
- 爬取网页拿数据:
requests + bs4 + lxml
- 时间日期处理:
datetime