当前位置：首页 > news >正文

R语言数据分析第一步：别再只会用summary()看平均数了，这5个隐藏用法帮你快速定位数据问题

news 2026/5/3 0:38:40

R语言数据分析第一步：别再只会用summary()看平均数了，这5个隐藏用法帮你快速定位数据问题

当你第一次接触R语言的数据分析时，summary()函数可能是你最早学会的几个函数之一。它简单、直接，能快速给出数据的基本统计量。但如果你认为summary()的作用仅限于查看平均数、最大值和最小值，那你就错过了这个函数90%的价值。

在实际数据分析工作中，summary()更像是一个数据侦探，能帮你快速发现数据集中的各种"可疑线索"。从缺失值的分布模式到异常值的潜在位置，从分类变量的不平衡到数值变量的异常分布，summary()都能给出关键提示。下面我们就来探索这个看似简单函数背后的强大诊断能力。

1. 从四分位数间距(IQR)中发现异常值

大多数数据分析师都会忽略summary()输出的四分位数信息，只关注平均值和中位数。但实际上，四分位数间距(IQR)是识别异常值的第一道防线。

让我们用经典的mtcars数据集做个演示：

data(mtcars) summary(mtcars$mpg)

输出结果会显示：

Min. 1st Qu. Median Mean 3rd Qu. Max. 10.40 15.43 19.20 20.09 22.80 33.90

这里的关键信息不是平均值20.09，而是第一四分位数(Q1=15.43)和第三四分位数(Q3=22.80)。IQR就是Q3-Q1=7.37。按照统计学惯例，异常值通常定义为：

低于 Q1 - 1.5×IQR
高于 Q3 + 1.5×IQR

计算可得：

lower_bound <- 15.43 - 1.5 * 7.37 # 约4.38 upper_bound <- 22.80 + 1.5 * 7.37 # 约33.85

这意味着任何mpg值低于4.38或高于33.85的都可能是异常值。从summary输出我们看到最大值为33.9，刚好接近上限，值得进一步检查。

实际操作技巧：

对于每个数值变量，快速计算IQR并标记潜在异常值
结合boxplot()可视化确认这些可疑点
记录这些异常值的位置，为后续数据清洗做准备

2. 从因子变量summary中识别类别不平衡问题

当处理分类数据时，summary()能揭示你可能没意识到的类别分布问题。以iris数据集为例：

summary(iris$Species)

输出：

setosa versicolor virginica 50 50 50

这个均衡分布很理想。但现实中我们常遇到这样的情况：

# 模拟一个不平衡的分类变量 imbalanced <- factor(rep(c("A","B","C"), times=c(85, 10, 5))) summary(imbalanced)

输出：

A B C 85 10 5

一眼就能看出类别B和C的样本量极少，这会导致：

机器学习模型难以学习到少数类的特征
统计检验效力降低
可视化时小类别可能被完全忽略

诊断建议：

对任何因子变量，首先查看summary()的类别计数
标记样本量不足的类别(如<5%总样本)
考虑过采样、欠采样或专门的算法处理

3. 利用缺失值模式诊断数据收集问题

summary()对缺失值(NA)的统计方式很特别，但很多人没注意到。看这个例子：

df <- data.frame( age = c(25, 30, NA, 40, 45), income = c(NA, 50000, 60000, NA, 80000), gender = c("M", "F", "M", NA, "F") ) summary(df)

输出会显示：

age income gender Min. :25.00 Min. :50000 F:2 1st Qu.:30.00 1st Qu.:55000 M:2 Median :35.00 Median :60000 NA's:1 Mean :35.00 Mean :63333 3rd Qu.:40.00 3rd Qu.:72500 Max. :45.00 Max. :80000 NA's :1 NA's :2

关键发现：

age有1个缺失值
income有2个缺失值
gender有1个缺失值

但更有价值的是观察缺失值的模式：

income的缺失比例最高(40%)
第二行数据有income但age缺失
第四行age存在但income和gender都缺失

这种模式可能暗示：

收入数据收集系统存在问题
某些特定人群(如高收入者)更不愿意提供收入信息
数据录入过程可能有系统性问题

操作建议：

对每个变量记录缺失值数量
分析缺失值是否随机出现还是有特定模式
考虑多重插补等高级处理方法

4. 通过数值范围检查数据合理性

summary()提供的最小值和最大值能帮你快速发现数据录入错误。例如在一个年龄字段中：

Min. 1st Qu. Median Mean 3rd Qu. Max. 0.20 25.00 37.00 42.35 59.00 300.00

最大值300岁显然不合理。可能的解释：

数据录入错误(多输了一个0)
单位问题(可能是月而非年)
特殊编码(如用999表示缺失)

另一个例子是百分比数据：

Min. 1st Qu. Median Mean 3rd Qu. Max. -5.00 25.00 50.00 55.00 85.00 150.00

负值和超过100%的值都表明数据可能有问题。

检查清单：

确认每个数值变量的最小最大值是否在合理范围内
检查是否有明显的数据录入错误
验证单位是否正确
查看是否有特殊编码值混入

5. 比较多个变量的尺度差异

当分析多个数值变量时，summary()能帮你快速比较它们的尺度。例如：

summary(mtcars[, c("mpg", "hp", "wt")])

输出：

mpg hp wt Min. :10.40 Min. : 52.0 Min. :1.513 1st Qu.:15.43 1st Qu.: 96.5 1st Qu.:2.581 Median :19.20 Median :123.0 Median :3.325 Mean :20.09 Mean :146.7 Mean :3.217 3rd Qu.:22.80 3rd Qu.:180.0 3rd Qu.:3.610 Max. :33.90 Max. :335.0 Max. :5.424

可以观察到：

mpg范围在10-33之间
hp范围在52-335之间
wt范围在1.5-5.4之间

这种尺度差异会导致：

机器学习模型中某些特征权重过大
可视化时某些变量完全被其他变量压制
距离计算失真

解决方案：

考虑标准化或归一化处理
对可视化使用分面或双y轴
记录各变量的尺度差异，为后续分析做准备

进阶技巧：自定义summary函数

R的强大之处在于你可以扩展基础函数。比如创建一个增强版summary：

enhanced_summary <- function(x) { if(is.numeric(x)) { s <- summary(x) iqr <- s[5] - s[2] # Q3 - Q1 outliers <- sum(x < (s[2] - 1.5*iqr) | x > (s[5] + 1.5*iqr), na.rm=TRUE) missing <- sum(is.na(x)) cat("Basic summary:\n") print(s) cat("\nAdditional stats:\n") cat("IQR:", iqr, "\n") cat("Potential outliers:", outliers, "\n") cat("Missing values:", missing, "\n") cat("SD:", sd(x, na.rm=TRUE), "\n") } else { summary(x) } } # 使用示例 enhanced_summary(mtcars$mpg)

这个自定义函数会输出：

标准summary信息
IQR值
潜在异常值数量
缺失值数量
标准差

扩展思路：

为因子变量添加类别比例
包含偏度和峰度计算
添加可视化摘要(如直方图)

实际案例分析：客户数据集诊断

让我们应用这些技巧分析一个模拟的客户数据集：

set.seed(123) customer_data <- data.frame( customer_id = 1:100, age = round(rnorm(100, mean=35, sd=10)), age = replace(age, sample(100,5), NA), # 添加5个缺失值 income = round(rlnorm(100, meanlog=10, sdlog=0.5)), income = replace(income, sample(100,10), NA), # 10个缺失值 satisfaction = sample(1:5, 100, replace=TRUE, prob=c(0.1,0.1,0.2,0.3,0.3)), region = sample(c("North","South","East","West"), 100, replace=TRUE, prob=c(0.4,0.3,0.2,0.1)), churned = sample(c(TRUE,FALSE), 100, replace=TRUE, prob=c(0.3,0.7)) ) summary(customer_data)

假设输出如下：

customer_id age income satisfaction region churned Min. : 1.0 Min. :12.00 Min. :14803 Min. :1.00 East :20 Mode :logical 1st Qu.: 25.8 1st Qu.:28.00 1st Qu.:21794 1st Qu.:3.00 North:40 FALSE:70 Median : 50.5 Median :35.00 Median :26896 Median :4.00 South:30 TRUE :30 Mean : 50.5 Mean :35.23 Mean :27394 Mean :3.79 West :10 3rd Qu.: 75.2 3rd Qu.:42.00 3rd Qu.:32075 3rd Qu.:5.00 Max. :100.0 Max. :62.00 Max. :44821 Max. :5.00 NA's :5 NA's :10

从这份summary我们能诊断出：