当前位置：首页 > news >正文

机器学习预备知识

news 2026/6/15 12:15:51

卡方检验

卡方检验的主要用途

卡方检验的基本原理

卡方统计量

卡方检验的statsmodels实现

配对卡方检验

卡方检验

注意：
在统计分析阶段的假设检验中也提及到了卡方检验，那是针对"单个总体方差的检验"；本章中的卡方检验是针对"分类变量的比较"。

卡方检验的主要用途

两个率或两个构成比比较的卡方检验
多个率或多个构成比比较的卡方检验
分类资料的相关分析

卡方检验的基本原理

H~0~:观察频数与期望频数没有差别

其原理为考察基于H~0~的理论频数分布和实际频数分布间的差异大小，据此求出相应的P值

案例：

所有受访家庭会按照家庭年收入被分为低收入家庭和高收入家庭两类，现希望考察不同收入级别的家庭其轿车拥有率是否相同

基于H~0~成立，即观察频数和期望频数无差别，也就是两组变量（家庭收入级别与是否拥有轿车）相互不产生影响，两组变量不相关，如果检验P值很高，则接受H~0~；如果检验P值很低，则检验不通过，观察频数和期望频数有差别，两组变量相关。

卡方统计量

卡方统计量的计算公式：

χ2=∑(A−E)2E

其中A为实际频数，E为期望频数（理论频数）。

卡方统计量的理解：

当观察频数与期望频数完全一致时，卡方值为0
观察频数与期望频数越接近，两者之间的差异越小，卡方值越小
观察频数与期望频数差异越大，卡方值越大
卡方值的大小也和自由度有关

卡方检验的statsmodels实现

案例：

所有受访家庭会按照家庭年收入被分为低收入家庭和高收入家庭两类，现希望考察不同收入级别的家庭其轿车拥有率是否相同

statsmodels中首先需要建立对应的列联表对象

class statsmodels.stats.contingency_tables.Table( table shift_zeros = True : 如果有单元格频数为0，则所有单元格频数一律+0.5防止计算溢出 )

Table类的方法:

test_nominal_association() 无序分类行、列变量的独立性检验

配对卡方检验

McNemar's检验（配对卡方检验）用于分析两个相关率的变化是否有统计学意义

案例：

用A、B两种方法检查已确诊的某种疾病患者140名，A法检出91名(65%)，B法检出77名(55%)，A、B两法一致的检出56名(40%)，问哪种方法阳性检出率更高？

分析思路：

H~0~:两种方法阳性检出率无差别，即b单元格=c单元格
对同一个体，分别有两次不同的测量，并最终构成了两组数据，因此研究框架是自身配对设计
求出各对的差值，然后考察样本中差值的分布是否按照H~0~假设的情况对称分布
主对角线上的样本，两种检验方法的结论相同
非主对角线上的单元格才携带检验方法的差异信息
根据H~0~得到b、c两格的理论数均为(b+c)/2,对应的配对检验统计量，经过化简后是：

χ2=(b−c)2b+c

一般在 b + c < 40 时，需用确切概率法进行检验，或者进行校正

代码实现

statsmodels.stats.contingency_tables中常用的配对卡方的分析使用：

tbl.SquareTable 用于分析行列变量类别相同的对称结构方表（近似结果）
tbl.mcnemar 用于分析配对四格表（确切概率结果）

用SquareTable类分析

import numpy as np import statsmodels.stats.contingency_tables as tbl # 必须为方阵结构数据 table = tbl.SquareTable(np.array([[56, 35], [21, 28]])) print(table.summary()) # 打印汇总信息 print(table.symmetry()) # 只打印symmetry

用mcnemar类分析

import statsmodels.stats.contingency_tables as tbl table = tbl.mcnemar(pd.DataFrame([[56, 35], [21, 28]])) print(table.pvalue) # 确切概率结果

RR与OR

RR(Relative Risk)——相对危险度

表示两种情况下发病密度或者说发病概率之比
- P~t~：实验组人群反应阳性概率
- P~c~：对照组人群反应阳性概率
  RR=PtPc=a/ntc/nc
如果RR > 1，说明相应的自变量取值增加，会导致个体发病/死亡风险增加若干倍，例如：吸烟者的发病概率是非吸烟者的5倍
RR在医学中得到了极为广泛的应用
RR的计算条件比较苛刻（观察周期长）

OR(Odds Ratio)——优势比

为下列两种比例之比
- 反应阳性人群中实验因素有无的比例 a/b
- 反应阴性人群中实验因素有无的比例 c/d
OR=a/bc/d
例如：某疾病病例中吸烟/非吸烟者的比例是非病例中吸烟/非吸烟者比例的3倍
OR可以间接反映关联强度，但是理解上比较困难
发病概率较低时，OR往往近似的在按照RR的含义进行解释和使用

代码实现

scipy的实现方式

scipy.stats.fisher_exact()中可以计算OR值，相应的检验P值则是确切概率法的P值

OR, P = ss.fisher_exact(pd.crosstab(home.Ts9, home.O1))

statsmodels的实现方式

import numpy as np import statsmodels.stats.contingency_tables as tbl # 这里必须使用np.array函数进行数组转换，否则后续计算会出问题 table = tbl.Table2x2(np.array(pd.crosstab(home.Ts9, home.O1))) print(table.oddsratio) # OR值 print(table.summary()) # 汇总信息

查看全文

http://www.jsqmd.com/news/712783/