当前位置：首页 > news >正文

从生活案例到统计检验：正态分布、卡方分布、t分布、F分布及其检验方法全解析

news 2026/6/13 19:15:37

1. 正态分布与Z检验：从身高测量到质量检测

生活中最常见的正态分布案例莫过于人类身高。假设我们测量1000名成年男性的身高，数据会呈现中间高、两侧低的钟形对称分布。这种"中间多、两头少"的分布特征，正是正态分布最直观的体现。正态分布由两个参数决定：均值μ决定分布的中心位置，标准差σ决定数据的离散程度。比如中国成年男性平均身高172cm，标准差约6cm，那么95%的人身高会在160-184cm之间（μ±2σ）。

在工业生产中，Z检验是验证产品质量的利器。某灯泡厂声称其产品寿命服从均值2000小时、标准差100小时的正态分布。质检员随机抽取50个灯泡，测得平均寿命为1980小时。要判断这批产品是否达标，我们可以构建Z统计量：

import numpy as np 样本均值 = 1980 总体均值 = 2000 总体标准差 = 100 样本量 = 50 Z = (样本均值 - 总体均值) / (总体标准差/np.sqrt(样本量)) print(f"Z值为: {Z:.2f}") # 输出Z值为-1.41

计算得到Z=-1.41，对比标准正态分布表，在显著性水平α=0.05时，临界值为±1.96。由于-1.41落在接受域内，说明样本与总体无显著差异，产品质量合格。这里有个实用技巧：当样本量n≥30时，根据中心极限定理，即使原始分布非正态，Z检验也近似适用。

2. 卡方分布与卡方检验：从问卷调查到基因研究

卡方检验最适合分析分类变量的关联性。举个有趣的例子：某美妆品牌想了解性别与化妆习惯的关系，调查了200人得到如下列联表：

化妆	不化妆	总计
男性	20	80	100
女性	70	30	100
总计	90	110	200

假设性别与化妆无关（原假设），那么理论上男性化妆比例应与女性相同。通过计算期望频数：

期望男性化妆 = (100*90)/200 = 45 期望女性化妆 = (100*90)/200 = 45

然后构建卡方统计量：

observed = [20, 80, 70, 30] expected = [45, 55, 45, 55] chi2 = sum((np.array(observed)-np.array(expected))**2/np.array(expected)) print(f"卡方值为: {chi2:.2f}") # 输出67.68

自由度为(2-1)*(2-1)=1，查卡方分布表，α=0.05的临界值为3.84。由于67.68远大于临界值，我们拒绝原假设，认为性别与化妆习惯显著相关。在生物医学领域，这种分析方法常用于研究基因型与表型的关联。

3. t分布与t检验：从小样本实验到药物测试

当样本量较小（通常n<30）或总体方差未知时，t检验就派上用场了。比如某药厂研发降压药，选取15名高血压患者进行试验，测得服药前后血压差值平均为8mmHg，标准差为3mmHg。要判断药效是否显著（即差值是否大于0），可以使用单样本t检验：

from scipy import stats 样本均值 = 8 样本标准差 = 3 样本量 = 15 t = (样本均值 - 0) / (样本标准差/np.sqrt(样本量)) # 0为假设的总体均值 p_value = 1 - stats.t.cdf(t, df=样本量-1) print(f"t值为: {t:.2f}, p值为: {p_value:.5f}") # t=10.33, p≈0

自由度为14，查t分布表得临界值约2.145（α=0.05）。由于10.33远大于临界值，说明药效显著。t分布比正态分布更"矮胖"，随着自由度增大逐渐接近正态分布。实际应用中，A/B测试、心理学实验等小样本场景都依赖t检验。

4. F分布与F检验：从农业试验到模型比较

F检验主要用于比较方差，典型应用是方差分析(ANOVA)。假设农学家测试三种肥料对小麦产量的影响，每种肥料施用5块试验田，得到如下数据（单位：kg）：

肥料A：12, 15, 13, 14, 16
肥料B：18, 20, 17, 19, 16
肥料C：10, 12, 11, 9, 8

要判断肥料类型是否影响产量，可以计算组间方差与组内方差的比值：

组间方差 = 5*((np.mean(A)-总均值)**2 + (np.mean(B)-总均值)**2 + (np.mean(C)-总均值)**2)/2 组内方差 = (np.var(A,ddof=1)+np.var(B,ddof=1)+np.var(C,ddof=1))/3 F = 组间方差 / 组内方差 print(f"F值为: {F:.2f}") # 输出约28.57

分子自由度=2，分母自由度=12，查F分布表得临界值约3.89（α=0.05）。由于28.57>3.89，说明肥料类型对产量有显著影响。在机器学习中，F检验常用于特征选择，比较不同特征对目标变量的解释力。

查看全文

http://www.jsqmd.com/news/643128/