当前位置: 首页 > news >正文

回归控制混杂偏倚的过程 【9天实用统计学公益训练营Day3-2】

关注公众号的朋友都知道,郑老师我之前连续4年开设了“30天学会医学统计学”,从理论到实操,一步一步教会大家统计学、SPSS课程。

2026年,我们对这门课程进行全新升级!课程时间大幅度缩短,内容大幅度提升!

我称为:9天实用医学统计学公益训练营。

课程介绍:“9天实用医学统计学”公益训练营即将启动,更高效、更高级的统计课

本课程是浙江中医药大学医学统计学教研室的公益、免费公开视频课!不是骗人入坑收费的广告。本课程公益视频课定期开课,欢迎您参与学习。

欢迎报名

本公众号“医学论文与统计分析”,后台回复“报名”,加入微信学习群吧。

Day 3-2 回归控制混杂偏倚的过程

现在继续介绍课程第三章第二节的内容:回归方法控制混杂偏倚。

大家都知道,回归可以用来探讨影响因素。今天我们就来讲讲回归还可以控制混杂偏倚,这是个非常重要的理念。要学会用回归来控制混杂偏倚,挑选那些潜在的混杂因素,这样实用医学统计学才能真正学到位。

观察性研究为什么需要回归方法

上一讲我们提到,观察性研究要结合回归的方法,因为观察性研究分组不均衡,存在混杂偏倚。要开展因果推断,就需要用高级的方法,如回归、倾向得分方法等。

回归是基本的也是主流的方法。常见的回归方法,如线性回归、Logistic回归、Cox回归、泊松回归、负二项回归、混合效应模型、广义估计方程等,都可以用于控制偏倚。

√为什么回归可以控制混杂

我们还是以上一节的“分析接种疫苗对住院率的影响”的这个文章为例,已知年龄是混杂因素。

假设我们先不控制混杂,做一个单因素Logistic回归,分析疫苗接种与住院的关系。

用公式展示,则为:

模型中的回归系数β值反映的是疫苗的作用大小,但实际上这个β值并不是疫苗真正的效应,而是疫苗和年龄的综合效应,年龄作为第三方因素带来了混杂。

如果做一个多因素回归,结局(住院)由两个因素建模:年龄和疫苗。

  • 年龄对疫苗的混淆被单独拿出来,变成一个新的回归系数β1,反映年龄对住院的影响。

  • 而β2反映的就是疫苗的作用,剔除了年龄的影响,结果更真实地反映疫苗接种的效果。

多因素回归把各个因素的作用单独拿出来探讨,每个因素的作用称为独立的作用(独立的影响因素)。所谓独立,就是剔除了其他因素的干扰,在这里就是剔除了年龄的干扰,也就剔除了混杂偏倚。

实例:单因素和多因素的结果差异

依旧是这篇“探究流感疫苗接种与慢性阻塞性肺疾病(COPD)患者住院率的关系”的文章。

研究团队进行了单因素和多因素分析。

从数值上来看,单因素分析中疫苗与住院之间的OR值为1.339,疫苗接种似乎促进住院。

但在多因素关系中,研究结果显示OR值等于1.001,P值大于0.05,这意味着剔除了年龄的干扰后,疫苗接种对住院率无影响。这就是多因素研究的价值。

单因素多因素存在着差别是因为:接种组老年人比例高,而老年人住院楼率高,因此造成接种组住院率较高。

√回归实现的两个目的

· 探讨因果关系,分析影响有无及大小

多因素回归在第二章讲过可以用来探讨影响因素,它可以同时探讨多个因素,提高效率。也可以聚焦于一两个暴露因素,讨论疫苗接种的作用,剩下的其他因素就是混杂因素或潜在混杂因素。

同样的模型,作用是不一样的。

· 探讨因果关系,分析影响有无及大小

另外,回归通过构建模型可以预测结局。通过构建预测方程,输入X1、X2、Xm,就可以预测Y。

临床预测模型部分我们后续还会再讲。

因此,回归可以实现至少两个目的:

  • 一是探讨影响因素,此时各个自变量地位相等,都是影响因素;

  • 二是控制混杂,此时分为目标因素和混杂因素,主要关注目标因素的效应,排除其他因素的干扰。

建模策略是一样的,只是侧重点不同。

我们来看两个例子。

场景一:探讨多个因素的作用

某医师基于某医院开展病例对照研究,探讨冠心病有关的影响因素,包括年龄、性别、心电图异常、高血压、糖尿病等。

  • 此时希望研究各个因素的作用,各因素地位平等。

研究团队构建多因素Logistic回归模型,每个因素发挥独立作用,当P值小于0.05时,称为独立的影响因素。

结果显示,性别、年龄、心电图、高血压都是独立的影响因素。

场景二:探讨一两个因素的作用

同样例子中,只关心高血压状态与冠心病的关系。

由于观察性研究中高血压组和对照组在一些变量(性别、年龄、糖尿病等)上分组不均衡,这些变量是潜在的混杂因素。

统计分析时可以做出表格,将其他因素的结果弱化。

例如只描述主要暴露变量的作用,表格中列出unadjusted(未调整)和adjusted(调整后)的结果,备注中写明调整了性别、心电图异常、糖尿病等变量。

  • 这些变量是潜在的混杂因素,通过模型调整控制了它们对高血压的干扰。

未调整就是未控制混杂因素的影响,调整就是控制了混杂因素的影响。今后看到论文中的adjusted for,往往就是用多因素回归控制了混杂偏倚。

√回归控制混杂的基本过程

回归控制混杂的基本过程可以分为四个步骤:

  • 第一步,统计描述。

  • 第二步,识别潜在混杂因素(分组不均衡的因素)。

  • 第三步,做单因素关联性分析。

  • 第四步,做多因素关联性分析,控制混杂。

案例:中老年人抑郁症状与跌倒事故的关联

研究基于中国健康与养老追踪调查(CHARLS)--这是一个队列数据,从2011年随访至2020年--的12,527组数据。

选取2011年的抑郁症状数据与2013年的跌倒数据进行分析。

露变量是2011年的抑郁症状(根据问卷得分分为有症状≥10分和无症状),结局是2013年的跌倒(二分类)。

用Logistic回归计算OR值,调整后的OR值为1.19,95%置信区间为1.07-1.33,P值小于0.05,说明抑郁症与后续跌倒存在统计学关联。

第一步,统计描述。

做二分类表,分组描述年龄、性别、BMI、体重、吸烟、饮酒等变量。

第二步,分组均衡性分析。

不同暴露组之间是否有差异,挑选不均衡的因素作为潜在的混杂因素。

  • 方法就是做差异性分析,用t检验、方差分析、卡方检验,P值小于0.05认为分组不均衡。

以抑郁组(有症状和无症状)为分组变量,分析各个组别的差异性。P值小于0.05说明组间不均衡。

需要注意的是,样本量越大,P值越小。

第三步,单因素分析。

单因素分析是简单关联性分析,初步探讨因素与结局的关系。

  • 方法包括做差异性(差异即相关)和做回归。

以跌倒为结局,抑郁症状为暴露,两者都是二分类,可以比较有症状组和无症状组的跌倒发生率,用卡方检验;也可以用单因素回归直接计算OR值。

第四步,多因素回归。

基于第二步挑出来的分组不均衡因素,与暴露因素一起构建多因素模型,控制混杂偏倚,从而更可靠地探讨暴露因素与结局的关联。

  • 线性回归用于定量结局,Logistic回归用于分类结局,泊松回归和对数二项回归也可用于分类结局,生存结局用Cox回归。

本章总结

以上就是用回归方法控制混杂偏倚的基本过程。这个方法不难,通过这个过程的学习,希望大家能够掌握它的基本用途。

最后提醒:要学习本推文的完全对应的课程视频,请发送关键词“报名”至公众号,加入高校公益免费课程群来学习吧

关于郑老师团队及公众号

全国较大的医学统计服务平台,专注于医学生、医护工作者学术研究统计支持

郑老师团队可以提供诸多统计支持:

各式统计课程、临床试验设计

构建预测模型与真实世界研究

“双库”保发表训练营、医学数据库挖掘

详情联系助教小董咨询(微信号aq566665

http://www.jsqmd.com/news/866043/

相关文章:

  • API调用总失败?ChatGPT官方Rate Limit机制深度拆解,4类高频报错代码级诊断手册
  • 避坑指南:用STM32F103的TIM3编码器模式读取霍尔电机脉冲,为什么你的数值总不对?
  • V-REP/CoppeliaSim仿真避坑:手把手教你用Graph功能绘制机械臂末端3D轨迹(附完整配置流程)
  • 九大网盘直链解析神器:免费开源的高速下载终极解决方案
  • MASA模组中文汉化包:让Minecraft技术模组说中文的完整指南
  • 从“能听见”到“听得清”:一款高集成度AI语音处理模组的落地实践
  • Nginx 1.26+ 的主动 upstream 健康检查模块。
  • 【MATLAB】图像压缩编码与传输优化算法研究与实现
  • 从‘扫描全能王’到‘启信宝’:聊聊合合信息这家低调的数据公司
  • 2026 年 5 月青岛首饰回收行业深度解读!六家正规机构实力剖析,行业标杆添价收已定 - 薛定谔的梨花猫
  • Claude Code 本地部署如何通过 Taotoken 稳定调用大模型 API
  • 用达尔文进化论重构神经网络设计
  • 深度解析YOLOv8在ROS 2中的智能视觉集成方案:5大优势与实战指南
  • 创业团队如何利用多模型聚合能力低成本开发AI应用
  • 别再折腾环境了!手把手教你用Docker一键部署NeRF Studio(含CUDA 11.8配置)
  • 别再只用DataView了!Obsidian Tasks插件这样用,让你的待办清单效率翻倍
  • 解锁微信QQ语音的钥匙:silk-v3-decoder音频转换全攻略
  • 2026年阿里云OpenClaw/Hermes Agent配置Token Plan部署步骤详解
  • 企业级应用如何通过Taotoken统一管理多个AI模型的API调用与成本
  • 如何3分钟搞定微信QQ语音转换:silk-v3-decoder终极指南
  • 告别Windows内存卡顿:Mem Reduct智能清理实战手册
  • 旅游数据|基于Java+vue的旅游数据分享系统(源码+数据库+文档)​
  • 油气EPC项目超支预测:Hybrid AI混合建模实战指南
  • XU9250B,输入电压范围:2.7V至16V 7A异步升压芯片
  • 2026年阿里云OpenClaw/Hermes Agent配置Token Plan安装超全攻略
  • 避坑指南:在Jetson Orin Nano上编译支持CUDA的OpenCV 4.5.3,我踩过的雷都在这了
  • 如何高效解决多云存储兼容问题?Alibaba Cloud OSS SDK实战指南
  • ZenTimings终极指南:轻松监控AMD Ryzen内存时序的免费神器
  • 2026株洲奢侈品回收市场观察:包包回收迈入规范时代,湘奢汇(天元店)领衔五大靠谱机构 - 生活测评小能手
  • 对比官方价Taotoken活动价在长期使用中的成本优势感受