当前位置：首页 > news >正文

别再死记硬背了！用Python实战搞定贾俊平《统计学》第四章核心考点（附代码与数据）

news 2026/7/12 14:04:17

用Python实战攻克统计学核心概念：从公式恐惧到代码自由

翻开贾俊平老师的《统计学》教材，第四章那些密密麻麻的公式和抽象概念是否让你望而生畏？集中趋势、离散程度、偏态峰态……这些术语在纸面上跳动，却难以在脑海中形成清晰图像。本文将通过Python代码，带您用全新的方式理解这些统计概念，让数据自己"说话"。

1. 环境准备与数据导入

在开始统计之旅前，我们需要配置好Python数据分析的"三件套"：pandas用于数据处理，numpy提供数学支持，matplotlib负责可视化。打开您的Jupyter Notebook或Python环境，执行以下安装命令：

pip install pandas numpy matplotlib seaborn

让我们从教材中的经典案例——汽车销售数据开始。假设10名销售人员的月销售数据如下：

import pandas as pd sales_data = pd.Series([2, 4, 7, 10, 10, 10, 12, 12, 14, 15]) print("原始销售数据：") print(sales_data)

2. 集中趋势的三重奏：平均数、中位数与众数

2.1 三巨头的计算与对比

传统教材中，这三个指标通常以公式形式呈现。而在Python中，它们只需一行代码：

mean_val = sales_data.mean() median_val = sales_data.median() mode_val = sales_data.mode()[0] # 取第一个众数 print(f"平均数：{mean_val:.1f}") print(f"中位数：{median_val}") print(f"众数：{mode_val}")

关键差异解析：

平均数对极端值敏感：一个超级销售员的业绩会大幅拉升平均值
中位数代表中间位置：不受两端极端值影响
众数反映最常出现的值：适合分类数据或寻找热点

2.2 偏态分布的诊断密码

当数据分布不对称时，三者的关系会揭示偏态方向：

if mean_val < median_val < mode_val: print("左偏分布：平均数 < 中位数 < 众数") elif mode_val < median_val < mean_val: print("右偏分布：众数 < 中位数 < 平均数") else: print("对称或复杂分布")

通过这个简单判断，我们就能诊断出汽车销售数据呈现左偏特征——多数销售员业绩低于平均水平，存在少数低绩效拉低了整体均值。

3. 离散程度的全方位测量

3.1 从极差到标准差的进阶

离散程度指标就像数据的"性格测试"，反映它们的稳定程度：

statistics = { "极差": sales_data.max() - sales_data.min(), "四分位距": sales_data.quantile(0.75) - sales_data.quantile(0.25), "方差": sales_data.var(), "标准差": sales_data.std() } pd.DataFrame.from_dict(statistics, orient='index', columns=['值'])

指标	值	特点
极差	13	简单但受异常值影响大
四分位距	6.5	抗干扰性强，反映中间50%数据
标准差	3.94	最常用，与原始数据同量纲

3.2 离散系数：跨数据集比较的利器

当比较不同量纲的数据时（如身高vs体重），离散系数（标准差/平均数）能消除尺度影响：

cv = sales_data.std() / sales_data.mean() print(f"离散系数：{cv:.2%}")

这个0.41的结果意味着销售数据的离散程度达到平均水平的41%，波动性较大。

4. 分布形状的视觉化解读

4.1 偏态与峰态的双重奏

偏态系数和峰态系数是描述分布形状的"DNA"：

from scipy.stats import skew, kurtosis skewness = skew(sales_data) kurt = kurtosis(sales_data, fisher=False) # Pearson定义(正态分布=3) print(f"偏态系数：{skewness:.2f} (负值表示左偏)") print(f"峰态系数：{kurt:.2f} (>3表示尖峰，<3表示平峰)")

解读指南：

偏态系数0为对称，>0右偏，<0左偏
峰态系数3为正态，>3更陡峭，<3更平缓

4.2 可视化验证：一图胜千言

import matplotlib.pyplot as plt fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5)) # 直方图+密度曲线 sales_data.plot(kind='hist', bins=5, density=True, alpha=0.7, ax=ax1) sales_data.plot(kind='kde', ax=ax1, color='r') ax1.set_title('销售数据分布') # 箱线图 sales_data.plot(kind='box', ax=ax2) ax2.set_title('销售数据箱线图') plt.tight_layout() plt.show()

这两张图直观展示了：

直方图：左侧长尾明显，验证左偏
箱线图：中位数偏右，下四分位距更大

5. 标准分数与异常检测实战

5.1 数据标准化的魔法

标准分数(z-score)能将不同尺度的数据放在同一标准下比较：

z_scores = (sales_data - sales_data.mean()) / sales_data.std() print("标准分数表：") print(z_scores.sort_values(ascending=False))

经验法则应用：

|z| > 2：可能异常（约5%数据）
|z| > 3：极可能异常（约0.3%数据）

5.2 切比雪夫不等式的安全网

对于非正态分布，我们可以使用更保守的切比雪夫法则：

k = 2 # 选择2个标准差范围 chebyshev_min = 1 - 1/k**2 print(f"至少有{chebyshev_min:.0%}数据落在均值±{k}个标准差内")

即使不知道分布形态，也能保证至少75%的数据落在平均数±2个标准差范围内——这是统计分析的安全底线。

6. 综合案例：网民年龄分析

让我们用更大的数据集实践全套分析流程。假设有25位网民的年龄数据：

ages = pd.Series([19,19,19,20,21,21,22,22,22,23,23,23,24,24,25,25,25,25,27,27,29,30,31,33,35]) # 综合统计报告 age_report = pd.DataFrame({ "集中趋势": [ ages.mean(), ages.median(), ages.mode().tolist() # 多众数情况 ], "离散程度": [ ages.std(), ages.quantile(0.75) - ages.quantile(0.25), ages.std() / ages.mean() ], "分布形状": [ skew(ages), kurtosis(ages, fisher=False) ] }, index=["平均数", "中位数", "众数"]) print("网民年龄综合分析：") age_report

这个综合报告清晰展示了：

众数有多个(19,23)，反映年龄分布的多峰特征
偏态系数0.45，显示轻微右偏——年轻人居多但有少量高龄用户
峰态系数2.1，比正态分布更平缓，说明年龄分布较分散

7. 统计分析的常见陷阱与规避策略

7.1 指标误用警示表

场景	易犯错误	正确选择
收入数据	用平均数代表典型值	中位数更抗极端高收入影响
考试分数	仅比较平均数	应同时考虑标准差和分布形状
多组比较	直接对比标准差	使用离散系数消除量纲影响

7.2 统计可视化选择指南

根据不同的分析目的，推荐这些图表组合：

初步探索：
- 直方图 + 箱线图（整体分布+异常值）
- sns.jointplot（双变量关系）
多组比较：
- 小提琴图（sns.violinplot）展示分布密度
- 蜂群图（sns.swarmplot）显示原始数据点
时间趋势：
- 折线图 + 置信区间带
- 季节性分解图（statsmodels.tsa.seasonal_decompose）

# 高级可视化示例 import seaborn as sns plt.figure(figsize=(10,6)) sns.violinplot(x=ages, inner="quartile", palette="Blues") sns.swarmplot(x=ages, color="red", alpha=0.5) plt.title("网民年龄分布（小提琴图+蜂群图）") plt.show()

这种组合图既展示了密度分布，又保留了原始数据点，比单纯箱线图信息量更大。

查看全文

http://www.jsqmd.com/news/826145/