回归控制混杂偏倚的过程 【9天实用统计学公益训练营Day3-2】
关注公众号的朋友都知道,郑老师我之前连续4年开设了“30天学会医学统计学”,从理论到实操,一步一步教会大家统计学、SPSS课程。
2026年,我们对这门课程进行全新升级!课程时间大幅度缩短,内容大幅度提升!
我称为:9天实用医学统计学公益训练营。
课程介绍:“9天实用医学统计学”公益训练营即将启动,更高效、更高级的统计课
本课程是浙江中医药大学医学统计学教研室的公益、免费公开视频课!不是骗人入坑收费的广告。本课程公益视频课定期开课,欢迎您参与学习。
欢迎报名
本公众号“医学论文与统计分析”,后台回复“报名”,加入微信学习群吧。
Day 3-2 回归控制混杂偏倚的过程
现在继续介绍课程第三章第二节的内容:回归方法控制混杂偏倚。
大家都知道,回归可以用来探讨影响因素。今天我们就来讲讲回归还可以控制混杂偏倚,这是个非常重要的理念。要学会用回归来控制混杂偏倚,挑选那些潜在的混杂因素,这样实用医学统计学才能真正学到位。
观察性研究为什么需要回归方法
上一讲我们提到,观察性研究要结合回归的方法,因为观察性研究分组不均衡,存在混杂偏倚。要开展因果推断,就需要用高级的方法,如回归、倾向得分方法等。
回归是基本的也是主流的方法。常见的回归方法,如线性回归、Logistic回归、Cox回归、泊松回归、负二项回归、混合效应模型、广义估计方程等,都可以用于控制偏倚。
√为什么回归可以控制混杂
我们还是以上一节的“分析接种疫苗对住院率的影响”的这个文章为例,已知年龄是混杂因素。
假设我们先不控制混杂,做一个单因素Logistic回归,分析疫苗接种与住院的关系。
用公式展示,则为:
模型中的回归系数β值反映的是疫苗的作用大小,但实际上这个β值并不是疫苗真正的效应,而是疫苗和年龄的综合效应,年龄作为第三方因素带来了混杂。
如果做一个多因素回归,结局(住院)由两个因素建模:年龄和疫苗。
年龄对疫苗的混淆被单独拿出来,变成一个新的回归系数β1,反映年龄对住院的影响。
而β2反映的就是疫苗的作用,剔除了年龄的影响,结果更真实地反映疫苗接种的效果。
多因素回归把各个因素的作用单独拿出来探讨,每个因素的作用称为独立的作用(独立的影响因素)。所谓独立,就是剔除了其他因素的干扰,在这里就是剔除了年龄的干扰,也就剔除了混杂偏倚。
实例:单因素和多因素的结果差异
依旧是这篇“探究流感疫苗接种与慢性阻塞性肺疾病(COPD)患者住院率的关系”的文章。
研究团队进行了单因素和多因素分析。
从数值上来看,单因素分析中疫苗与住院之间的OR值为1.339,疫苗接种似乎促进住院。
但在多因素关系中,研究结果显示OR值等于1.001,P值大于0.05,这意味着剔除了年龄的干扰后,疫苗接种对住院率无影响。这就是多因素研究的价值。
单因素多因素存在着差别是因为:接种组老年人比例高,而老年人住院楼率高,因此造成接种组住院率较高。
√回归实现的两个目的
· 探讨因果关系,分析影响有无及大小
多因素回归在第二章讲过可以用来探讨影响因素,它可以同时探讨多个因素,提高效率。也可以聚焦于一两个暴露因素,讨论疫苗接种的作用,剩下的其他因素就是混杂因素或潜在混杂因素。
同样的模型,作用是不一样的。
· 探讨因果关系,分析影响有无及大小
另外,回归通过构建模型可以预测结局。通过构建预测方程,输入X1、X2、Xm,就可以预测Y。
临床预测模型部分我们后续还会再讲。
因此,回归可以实现至少两个目的:
一是探讨影响因素,此时各个自变量地位相等,都是影响因素;
二是控制混杂,此时分为目标因素和混杂因素,主要关注目标因素的效应,排除其他因素的干扰。
建模策略是一样的,只是侧重点不同。
我们来看两个例子。
场景一:探讨多个因素的作用
某医师基于某医院开展病例对照研究,探讨冠心病有关的影响因素,包括年龄、性别、心电图异常、高血压、糖尿病等。
此时希望研究各个因素的作用,各因素地位平等。
研究团队构建多因素Logistic回归模型,每个因素发挥独立作用,当P值小于0.05时,称为独立的影响因素。
结果显示,性别、年龄、心电图、高血压都是独立的影响因素。
场景二:探讨一两个因素的作用
同样例子中,只关心高血压状态与冠心病的关系。
由于观察性研究中高血压组和对照组在一些变量(性别、年龄、糖尿病等)上分组不均衡,这些变量是潜在的混杂因素。
统计分析时可以做出表格,将其他因素的结果弱化。
例如只描述主要暴露变量的作用,表格中列出unadjusted(未调整)和adjusted(调整后)的结果,备注中写明调整了性别、心电图异常、糖尿病等变量。
这些变量是潜在的混杂因素,通过模型调整控制了它们对高血压的干扰。
未调整就是未控制混杂因素的影响,调整就是控制了混杂因素的影响。今后看到论文中的adjusted for,往往就是用多因素回归控制了混杂偏倚。
√回归控制混杂的基本过程
回归控制混杂的基本过程可以分为四个步骤:
第一步,统计描述。
第二步,识别潜在混杂因素(分组不均衡的因素)。
第三步,做单因素关联性分析。
第四步,做多因素关联性分析,控制混杂。
案例:中老年人抑郁症状与跌倒事故的关联
研究基于中国健康与养老追踪调查(CHARLS)--这是一个队列数据,从2011年随访至2020年--的12,527组数据。
选取2011年的抑郁症状数据与2013年的跌倒数据进行分析。
露变量是2011年的抑郁症状(根据问卷得分分为有症状≥10分和无症状),结局是2013年的跌倒(二分类)。
用Logistic回归计算OR值,调整后的OR值为1.19,95%置信区间为1.07-1.33,P值小于0.05,说明抑郁症与后续跌倒存在统计学关联。
第一步,统计描述。
做二分类表,分组描述年龄、性别、BMI、体重、吸烟、饮酒等变量。
第二步,分组均衡性分析。
不同暴露组之间是否有差异,挑选不均衡的因素作为潜在的混杂因素。
方法就是做差异性分析,用t检验、方差分析、卡方检验,P值小于0.05认为分组不均衡。
以抑郁组(有症状和无症状)为分组变量,分析各个组别的差异性。P值小于0.05说明组间不均衡。
需要注意的是,样本量越大,P值越小。
第三步,单因素分析。
单因素分析是简单关联性分析,初步探讨因素与结局的关系。
方法包括做差异性(差异即相关)和做回归。
以跌倒为结局,抑郁症状为暴露,两者都是二分类,可以比较有症状组和无症状组的跌倒发生率,用卡方检验;也可以用单因素回归直接计算OR值。
第四步,多因素回归。
基于第二步挑出来的分组不均衡因素,与暴露因素一起构建多因素模型,控制混杂偏倚,从而更可靠地探讨暴露因素与结局的关联。
线性回归用于定量结局,Logistic回归用于分类结局,泊松回归和对数二项回归也可用于分类结局,生存结局用Cox回归。
本章总结
以上就是用回归方法控制混杂偏倚的基本过程。这个方法不难,通过这个过程的学习,希望大家能够掌握它的基本用途。最后提醒:要学习本推文的完全对应的课程视频,请发送关键词“报名”至公众号,加入高校公益免费课程群来学习吧。
关于郑老师团队及公众号
全国较大的医学统计服务平台,专注于医学生、医护工作者学术研究统计支持
郑老师团队可以提供诸多统计支持:
各式统计课程、临床试验设计
构建预测模型与真实世界研究
“双库”保发表训练营、医学数据库挖掘
详情联系助教小董咨询(微信号aq566665)
