当前位置：首页 > news >正文

一文带你掌握Python Pandas数据处理的三大实用技巧

news 2026/6/7 22:04:36

同样我们使用上节课的DATA.xlsx文件，来进行本节课的演示，数据如下：

一、如何对DataFrame新增列

1.1 直接运算实现

我们新增一个“业绩总分” 列，为“销售数量” 乘以 “客户评分”

print(df.head(3))

df.loc[:,"业绩总分"]=df["销售数量"]*df["客户评分"]

print("="*60)

print(df.head(3))

输出如下，可以发现运算过后，最后多了一列业绩总分，也就是成功新增了一列：

1.2 Apply方法增加列

apply方法的直接使用用法是这样，这里我们通过performance函数接受df，然后进行判断，根据不同的安全等级划分性能

defperformance(df):

ifdf["安全等级"]=="A"ordf["安全等级"]=="B":

return"好"

elifdf["安全等级"]=="C"ordf["安全等级"]=="D":

return"一般"

# axis=1 表示一行一行处理数据, 如果是一列一列处理数据的话就是 axis=0

df.loc[:,"性能"]=df.apply(performance,axis=1)

print(df.head(3))

输出结果如下，可以看到通过apply方法，我们也成功增加了一列性能：

产品经理产品类别地区安全等级销售额(元) 销售数量客户评分性能
出库日期
2023-06-01 Jerry 电子产品西南 C 3789.6 12 5.0 一般
2023-06-02 Cary 服装华东 A 2345.3 14 5.0 好
2023-06-03 Bob-Smith 家居用品西北 D 567.8 7 3.7 一般

还可以顺手通过value_counts()方法统计一下结果：

1	`print(df["性能"].value_counts())# 统计不同性能情况的个数`

如果python基础好的话，还可以通过推导式，简化一下函数的写法：

1	`df["性能"]=df["安全等级"].apply(lambdax:"好"ifxin["A","B"]else"一般")`

同时发现apply方法有一个axis参数，表示传入进来的df是按行，还是按列，如果为1，代表为行，其实打印出来就发现

结构其实是上面这样子，因此可以通过df["XXXX"]的形式取出来做判断，然后再返回一个结果，如果axis=0，那代表的就是按列传递，其实每此传递都是一列索引+一列数据的格式，这种情况下我们可以对每列的数据做分析，结构如下：

1.3 Assign方法

同时我们也可以使用Assign方法得到一样的结果，下面不管是map还是多加的[ ]，都是为了将数据一行一行取出来，具体map和apply这些方法怎么用，我会在最后一节，附录中给出来

# 第一种写法

df=df.assign(性能=df["安全等级"].map(lambdax:"好"ifxin["A","B"]else"一般"))

# 第二种写法

df=df.assign(性能=lambdax: ["好"ifxin["A","B"]else"一般"forxindf["安全等级"]])

print(df.head(3))

因此我们可以得到结果是：

产品经理产品类别地区安全等级销售额(元) 销售数量客户评分性能
出库日期
2023-06-01 Jerry 电子产品西南 C 3789.6 12 5.0 一般
2023-06-02 Cary 服装华东 A 2345.3 14 5.0 好
2023-06-03 Bob-Smith 家居用品西北 D 567.8 7 3.7 一般

1.3 通过条件语句进行新增列

在下面的代码中，我们先通过df["性能"] = ""初始化一个空列，然后依次赋值，可以得到一样的结果：

df["性能"]=""# 先初始化一个空列

df.loc[df["安全等级"].isin(["A","B"]),"性能"]="好"

df.loc[df["安全等级"].isin(["C","D"]),"性能"]="一般"

print(df.head(3))

二、pandas常见的数据统计类型

2.1 数据特征统计

pandas提供了非常强大的数据统计功能，比如去重，计数以及对数据特征做汇总，比如我们先简单使用这样一句代码：

1	`print(df.describe())# 描述性统计`

描述性统计用于数据中的数值列计数，求平均值，标准差，最小最大值和各个分位数

销售额(元) 销售数量客户评分
count 606.000000 606.000000 606.000000
mean 1381.760479 7.120462 4.327723
std 868.101509 3.309942 0.390114
min 345.600000 2.000000 3.500000
25% 745.600000 5.000000 4.000000
50% 987.600000 6.000000 4.300000
75% 1876.400000 8.000000 4.600000
max 4567.900000 21.000000 5.000000

当然如果你只想要查看某个字段的具体指标的话，可以通过单独打印实现:

print(df["销售额(元)"].max())# 最大销售额

print(df["销售额(元)"].min())# 最小销售额

print(df["销售额(元)"].mean())# 平均销售额

print(df["销售额(元)"].median())# 中位数销售额

print(df[["销售额(元)","销售数量"]].cov())# 协方差矩阵

print(df[["销售额(元)","销售数量"]].corr())# 相关系数矩阵

2.2 数据去重和分类汇总

通过unique方法我们能拿到去重之后的结果，返回的是一个列表，而通过value_counts我们能拿到各个子类的结果

print(df["安全等级"].unique())

print(df["安全等级"].value_counts())

print("="*60)# 分割线

print(df["地区"].unique())

print(df["地区"].value_counts())

输出的结果如下：

['C' 'A' 'D' 'B']
安全等级
C 175
A 147
B 146
D 138
Name: count, dtype: int64
============================================================
['西南' '华东' '西北' '华北' '华南' '华中']
地区
华东 102
西南 101
华北 101
华南 101
华中 101
西北 100
Name: count, dtype: int64

三、pandas对缺失值的处理

我们有一个这样的EXCEL文件，名为DATA_part.xlsx，如图所示，这个数据很不规范，有以下几个典型特征：

A1单元格为空，真正的数值前有空行空列
存在合并单元格
数据源中也存在空行

3.1 判断是否为空值

首先我们读取这个EXCEL，使用skiprows跳过第一行

1 2	`file_path=r"C:\Users\22330\Desktop\进行中\DATA_part.xlsx"` `df=pd.read_excel(file_path,skiprows=1)# 跳过第一行`

得到如下的结果，可以发现没有填充数据的部分都是NaN，因此我们需要对数据进行清洗

Unnamed: 0 产品经理地区销售数量客户评分
0 NaN Jerry 西南 12.0 5.0
1 NaN NaN 华东 14.0 5.0
2 NaN NaN 西北 7.0 3.7
3 NaN NaN NaN NaN NaN
4 NaN Cary 西南 17.0 NaN
5 NaN NaN 华东 19.0 10.0
6 NaN NaN 西北 12.0 8.7
7 NaN Bob-Smith 西南 15.0 8.0
8 NaN NaN 华东 17.0 8.0
9 NaN NaN 西北 10.0 6.7

首先我们通过isnull来判断是否是空值，注意两层sum才是对整个区域的缺失值求和

print(df.isnull())# 打印缺失值

print("="*60)# 分割线

print(df.isnull().sum())# 查看缺失值数量

print("="*60)# 分割线

print(df.isnull().sum().sum())# 查看缺失值总数

得到如下结果：

Unnamed: 0 产品经理地区销售数量客户评分
0 True False False False False
1 True True False False False
2 True True False False False
3 True True True True True
4 True False False False True
5 True True False False False
6 True True False False False
============================================================
Unnamed: 0 7
产品经理 5
地区 1
销售数量 1
客户评分 2
dtype: int64
============================================================
16

同样如果我们需要统计非空值，那就使用notnull方法。