当前位置：首页 > news >正文

Excel跑不动？Python不会写？这个Skill一键搞定数据处理

news 2026/4/21 19:53:00

这是一个关于“数据处理技能”的系统性指南。数据处理是连接原始数据与科研结论的桥梁，无论从事的是社会科学、生物信息学还是工程研究，这套技能都通用。

一、数据处理核心流程

原始数据 → 清洗 → 转换/整合 → 分析 → 可视化 → 结果解释 ↑ ↑ ↑ ↑ ↑ (最耗时) (最关键) (因任务而异) (核心) (沟通)

二、数据获取

1. 数据来源分类

类型	示例	特点
公开数据集	Kaggle、UCI、ImageNet、Gene Expression Omnibus	可复现、有基准、适合练手
爬虫获取	网页数据、社交媒体API、政府开放数据	需合法性判断、动态内容需渲染
实验/问卷	传感器读数、实验室测量、问卷调查	自己生成、成本高、控制力强
数据库查询	SQL提取公司/机构内部数据	需权限、量大

2. 数据格式识别

格式	常见扩展名	读取工具（Python）
表格型	`.csv`,`.xlsx`,`.tsv`	`pandas.read_csv()`/`read_excel()`
JSON	`.json`	`pandas.read_json()`或`json`库
文本	`.txt`,`.log`	原生`open()`
图片	`.jpg`,`.png`	`PIL`,`opencv`
音频	`.wav`,`.mp3`	`librosa`,`scipy.io.wavfile`
科学格式	`.npy`,`.h5`,`.mat`	`numpy`,`h5py`,`scipy.io.loadmat`

三、数据清洗（耗时约60%-80%）

这是最重要且最容易被忽视的环节。

常见脏数据及处理

问题类型	现象	处理方法
缺失值	NaN、null、空白单元格	删除（`dropna`）、填充均值/中位数/众数（`fillna`）、插值法、模型预测填充
重复值	相同行出现多次	`drop_duplicates()`去重，保留首次或末次
异常值	年龄=999、收入=负数	业务规则判定 + IQR法 / Z-score法识别 → 删除或修正
格式不一致	“北京” vs “BJ” vs “beijing”	统一映射表 + 正则表达式（`re`模块）标准化
数据类型错误	数字被存成字符串（如“123”）、日期存成文本	`astype()`转换、`pd.to_datetime()`解析
无关列/行	空列、全是同一个值的列、表头外的说明行	手动筛选删除

清洗代码示例（Python + pandas）

importpandasaspdimportnumpyasnp df=pd.read_csv('raw_data.csv')# 1. 查看整体信息df.info()df.describe()# 2. 处理缺失值df.isnull().sum()# 统计每列缺失数df['age'].fillna(df['age'].median(),inplace=True)# 用中位数填充数值列df.dropna(subset=['label'],inplace=True)# 删除标签缺失的行# 3. 处理重复值df.drop_duplicates(inplace=True)# 4. 处理异常值（以IQR法为例）Q1=df['income'].quantile(0.25)Q3=df['income'].quantile(0.75)IQR=Q3-Q1 lower=Q1-1.5*IQR upper=Q3+1.5*IQR df=df[(df['income']>=lower)&(df['income']<=upper)]# 5. 格式标准化df['city']=df['city'].str.lower().replace({'bj':'beijing','sh':'shanghai'})df['date']=pd.to_datetime(df['date_str'])

四、数据转换与特征工程

将数据整理成适合分析/建模的形态。

常用转换操作

操作	说明	代码示例
数据透视	长表 ↔ 宽表	`pd.pivot_table()`/`pd.melt()`
分组聚合	按类别统计	`df.groupby('category')['value'].mean()`
特征缩放	消除量纲影响	标准化：`(x - mean)/std`；归一化：`(x - min)/(max - min)`
编码分类变量	文本类别转数字	独热编码：`pd.get_dummies()`；标签编码：`LabelEncoder`
特征构造	从现有列生成新特征	年龄→年龄段、日期→星期几
数据分箱	连续值离散化	`pd.cut()`/`pd.qcut()`

代码示例

# 标准化（sklearn）fromsklearn.preprocessingimportStandardScaler scaler=StandardScaler()df[['feature1','feature2']]=scaler.fit_transform(df[['feature1','feature2']])# 独热编码df_encoded=pd.get_dummies(df,columns=['city','gender'],drop_first=True)# 构造新特征df['hour']=pd.to_datetime(df['timestamp']).dt.hour df['is_weekend']=(df['day_of_week']>=5).astype(int)

五、探索性数据分析（EDA）

在建模之前，先“认识”你的数据。

EDA必做清单

任务	工具/方法	目的
查看前几行	`df.head()`	直观感受数据
数值分布	`df.hist()`,`sns.boxplot()`	看偏态、异常值
相关性矩阵	`df.corr()`,`sns.heatmap()`	找强相关特征
类别分布	`df['col'].value_counts()`, 饼图	检查类别不平衡
缺失模式	`missingno.matrix()`	缺失是否随机
双变量关系	散点图、分组箱线图	探索变量间关系

Python可视化快速入门（matplotlib + seaborn）

importmatplotlib.pyplotaspltimportseabornassns# 直方图df['age'].hist(bins=30)plt.title('Age Distribution')plt.show()# 箱线图（按类别分组）sns.boxplot(x='category',y='value',data=df)plt.xticks(rotation=45)plt.show()# 相关性热图plt.figure(figsize=(10,8))sns.heatmap(df.corr(),annot=True,cmap='coolwarm',fmt='.2f')plt.show()# 散点图矩阵（多变量）sns.pairplot(df[['feature1','feature2','feature3','target']])

六、常用工具链推荐

环节	推荐工具	适用人群/场景
快速探索	Excel + 数据透视表	小数据（<1万行）、非技术背景
脚本处理	Python (pandas, numpy)	最通用、可复现、适合10万行以上
统计分析	R (tidyverse)	统计学家、生物信息学偏好
大数据	SQL + Python (Dask, Polars)	内存放不下的数据（>10GB）
可视化	seaborn, plotly, Tableau	静态图用seaborn，交互用plotly
缺失值/异常值	missingno, pyod	专门化检查

七、完整数据处理流程示例（Python）

假设任务：分析某电商用户行为数据，预测是否购买。

# 1. 导入importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassns# 2. 读取df=pd.read_csv('user_behavior.csv',parse_dates=['action_time'])# 3. 初探print(df.shape,df.dtypes)print(df.isnull().sum())# 4. 清洗df.drop_duplicates(inplace=True)df['age'].fillna(df['age'].median(),inplace=True)df=df[df['price']>0]# 价格必须为正# 5. 特征工程df['hour']=df['action_time'].dt.hour df['action_type']=pd.Categorical(df['action_type']).codes# 类别转数字user_stats=df.groupby('user_id').agg(total_clicks=('action_id','count'),avg_price=('price','mean')).reset_index()df=df.merge(user_stats,on='user_id',how='left')# 6. 拆分X,yX=df.drop(['purchased','action_time'],axis=1)y=df['purchased']# 7. 标准化fromsklearn.preprocessingimportStandardScaler num_cols=['age','price','total_clicks','avg_price']scaler=StandardScaler()X[num_cols]=scaler.fit_transform(X[num_cols])# 8. 最终数据概览X.info()X.head()

八、常见误区与避坑指南

误区	正确做法
数据清洗靠肉眼检查	编写可重复运行的清洗脚本
随意删除含缺失值的行	先分析缺失模式，判断是否随机缺失
未检查异常值直接建模	先做箱线图、Z-score，异常值可能蕴含重要信息（如欺诈）
标准化在拆分数据后做	先划分训练/测试集，再分别做标准化（防止数据泄露）
可视化只用来“秀”	可视化应贯穿全程，是发现问题的第一工具
忽略数据来源和文档	永远保留数据字典（字段含义、单位、编码规则）