当前位置：首页 > news >正文

回归控制混杂偏倚的过程【9天实用统计学公益训练营Day3-2】

news 2026/7/11 22:18:36

关注公众号的朋友都知道，郑老师我之前连续4年开设了“30天学会医学统计学”，从理论到实操，一步一步教会大家统计学、SPSS课程。

2026年，我们对这门课程进行全新升级！课程时间大幅度缩短，内容大幅度提升！

我称为：9天实用医学统计学公益训练营。

课程介绍：“9天实用医学统计学”公益训练营即将启动，更高效、更高级的统计课

本课程是浙江中医药大学医学统计学教研室的公益、免费公开视频课！不是骗人入坑收费的广告。本课程公益视频课定期开课，欢迎您参与学习。

欢迎报名

本公众号“医学论文与统计分析”，后台回复“报名”，加入微信学习群吧。

Day 3-2 回归控制混杂偏倚的过程

现在继续介绍课程第三章第二节的内容：回归方法控制混杂偏倚。

大家都知道，回归可以用来探讨影响因素。今天我们就来讲讲回归还可以控制混杂偏倚，这是个非常重要的理念。要学会用回归来控制混杂偏倚，挑选那些潜在的混杂因素，这样实用医学统计学才能真正学到位。

观察性研究为什么需要回归方法

上一讲我们提到，观察性研究要结合回归的方法，因为观察性研究分组不均衡，存在混杂偏倚。要开展因果推断，就需要用高级的方法，如回归、倾向得分方法等。

回归是基本的也是主流的方法。常见的回归方法，如线性回归、Logistic回归、Cox回归、泊松回归、负二项回归、混合效应模型、广义估计方程等，都可以用于控制偏倚。

√为什么回归可以控制混杂

我们还是以上一节的“分析接种疫苗对住院率的影响”的这个文章为例，已知年龄是混杂因素。

假设我们先不控制混杂，做一个单因素Logistic回归，分析疫苗接种与住院的关系。

用公式展示，则为：

模型中的回归系数β值反映的是疫苗的作用大小，但实际上这个β值并不是疫苗真正的效应，而是疫苗和年龄的综合效应，年龄作为第三方因素带来了混杂。

如果做一个多因素回归，结局（住院）由两个因素建模：年龄和疫苗。

年龄对疫苗的混淆被单独拿出来，变成一个新的回归系数β1，反映年龄对住院的影响。
而β2反映的就是疫苗的作用，剔除了年龄的影响，结果更真实地反映疫苗接种的效果。

多因素回归把各个因素的作用单独拿出来探讨，每个因素的作用称为独立的作用（独立的影响因素）。所谓独立，就是剔除了其他因素的干扰，在这里就是剔除了年龄的干扰，也就剔除了混杂偏倚。

实例：单因素和多因素的结果差异

依旧是这篇“探究流感疫苗接种与慢性阻塞性肺疾病（COPD）患者住院率的关系”的文章。

研究团队进行了单因素和多因素分析。

从数值上来看，单因素分析中疫苗与住院之间的OR值为1.339，疫苗接种似乎促进住院。

但在多因素关系中，研究结果显示OR值等于1.001，P值大于0.05，这意味着剔除了年龄的干扰后，疫苗接种对住院率无影响。这就是多因素研究的价值。

单因素多因素存在着差别是因为：接种组老年人比例高，而老年人住院楼率高，因此造成接种组住院率较高。

√回归实现的两个目的

· 探讨因果关系，分析影响有无及大小

多因素回归在第二章讲过可以用来探讨影响因素，它可以同时探讨多个因素，提高效率。也可以聚焦于一两个暴露因素，讨论疫苗接种的作用，剩下的其他因素就是混杂因素或潜在混杂因素。

同样的模型，作用是不一样的。

· 探讨因果关系，分析影响有无及大小

另外，回归通过构建模型可以预测结局。通过构建预测方程，输入X1、X2、Xm，就可以预测Y。

临床预测模型部分我们后续还会再讲。

因此，回归可以实现至少两个目的：

一是探讨影响因素，此时各个自变量地位相等，都是影响因素；
二是控制混杂，此时分为目标因素和混杂因素，主要关注目标因素的效应，排除其他因素的干扰。

建模策略是一样的，只是侧重点不同。

我们来看两个例子。

场景一：探讨多个因素的作用

某医师基于某医院开展病例对照研究，探讨冠心病有关的影响因素，包括年龄、性别、心电图异常、高血压、糖尿病等。

此时希望研究各个因素的作用，各因素地位平等。

研究团队构建多因素Logistic回归模型，每个因素发挥独立作用，当P值小于0.05时，称为独立的影响因素。

结果显示，性别、年龄、心电图、高血压都是独立的影响因素。

场景二：探讨一两个因素的作用

同样例子中，只关心高血压状态与冠心病的关系。

由于观察性研究中高血压组和对照组在一些变量（性别、年龄、糖尿病等）上分组不均衡，这些变量是潜在的混杂因素。

统计分析时可以做出表格，将其他因素的结果弱化。

例如只描述主要暴露变量的作用，表格中列出unadjusted（未调整）和adjusted（调整后）的结果，备注中写明调整了性别、心电图异常、糖尿病等变量。

这些变量是潜在的混杂因素，通过模型调整控制了它们对高血压的干扰。

未调整就是未控制混杂因素的影响，调整就是控制了混杂因素的影响。今后看到论文中的adjusted for，往往就是用多因素回归控制了混杂偏倚。

√回归控制混杂的基本过程

回归控制混杂的基本过程可以分为四个步骤：

第一步，统计描述。
第二步，识别潜在混杂因素（分组不均衡的因素）。
第三步，做单因素关联性分析。
第四步，做多因素关联性分析，控制混杂。

案例：中老年人抑郁症状与跌倒事故的关联

研究基于中国健康与养老追踪调查（CHARLS）--这是一个队列数据，从2011年随访至2020年--的12,527组数据。

选取2011年的抑郁症状数据与2013年的跌倒数据进行分析。

露变量是2011年的抑郁症状（根据问卷得分分为有症状≥10分和无症状），结局是2013年的跌倒（二分类）。

用Logistic回归计算OR值，调整后的OR值为1.19，95%置信区间为1.07-1.33，P值小于0.05，说明抑郁症与后续跌倒存在统计学关联。

第一步，统计描述。

做二分类表，分组描述年龄、性别、BMI、体重、吸烟、饮酒等变量。

第二步，分组均衡性分析。

不同暴露组之间是否有差异，挑选不均衡的因素作为潜在的混杂因素。

方法就是做差异性分析，用t检验、方差分析、卡方检验，P值小于0.05认为分组不均衡。

以抑郁组（有症状和无症状）为分组变量，分析各个组别的差异性。P值小于0.05说明组间不均衡。

需要注意的是，样本量越大，P值越小。

第三步，单因素分析。

单因素分析是简单关联性分析，初步探讨因素与结局的关系。

方法包括做差异性（差异即相关）和做回归。

以跌倒为结局，抑郁症状为暴露，两者都是二分类，可以比较有症状组和无症状组的跌倒发生率，用卡方检验；也可以用单因素回归直接计算OR值。

第四步，多因素回归。

基于第二步挑出来的分组不均衡因素，与暴露因素一起构建多因素模型，控制混杂偏倚，从而更可靠地探讨暴露因素与结局的关联。

线性回归用于定量结局，Logistic回归用于分类结局，泊松回归和对数二项回归也可用于分类结局，生存结局用Cox回归。

本章总结

以上就是用回归方法控制混杂偏倚的基本过程。这个方法不难，通过这个过程的学习，希望大家能够掌握它的基本用途。

最后提醒：要学习本推文的完全对应的课程视频，请发送关键词“报名”至公众号，加入高校公益免费课程群来学习吧。

关于郑老师团队及公众号

全国较大的医学统计服务平台，专注于医学生、医护工作者学术研究统计支持

郑老师团队可以提供诸多统计支持：

各式统计课程、临床试验设计

构建预测模型与真实世界研究

“双库”保发表训练营、医学数据库挖掘

详情联系助教小董咨询（微信号aq566665）

查看全文

http://www.jsqmd.com/news/866043/

API调用总失败？ChatGPT官方Rate Limit机制深度拆解，4类高频报错代码级诊断手册

避坑指南：用STM32F103的TIM3编码器模式读取霍尔电机脉冲，为什么你的数值总不对？

V-REP/CoppeliaSim仿真避坑：手把手教你用Graph功能绘制机械臂末端3D轨迹（附完整配置流程）

九大网盘直链解析神器：免费开源的高速下载终极解决方案

MASA模组中文汉化包：让Minecraft技术模组说中文的完整指南

从“能听见”到“听得清”：一款高集成度AI语音处理模组的落地实践

Nginx 1.26+ 的主动 upstream 健康检查模块。

【MATLAB】图像压缩编码与传输优化算法研究与实现

从‘扫描全能王’到‘启信宝’：聊聊合合信息这家低调的数据公司

2026 年 5 月青岛首饰回收行业深度解读！六家正规机构实力剖析，行业标杆添价收已定 - 薛定谔的梨花猫

Claude Code 本地部署如何通过 Taotoken 稳定调用大模型 API

用达尔文进化论重构神经网络设计

深度解析YOLOv8在ROS 2中的智能视觉集成方案：5大优势与实战指南

创业团队如何利用多模型聚合能力低成本开发AI应用

别再折腾环境了！手把手教你用Docker一键部署NeRF Studio（含CUDA 11.8配置）

别再只用DataView了！Obsidian Tasks插件这样用，让你的待办清单效率翻倍

解锁微信QQ语音的钥匙：silk-v3-decoder音频转换全攻略

2026年阿里云OpenClaw/Hermes Agent配置Token Plan部署步骤详解

企业级应用如何通过Taotoken统一管理多个AI模型的API调用与成本

如何3分钟搞定微信QQ语音转换：silk-v3-decoder终极指南

告别Windows内存卡顿：Mem Reduct智能清理实战手册

旅游数据|基于Java+vue的旅游数据分享系统(源码+数据库+文档)

油气EPC项目超支预测：Hybrid AI混合建模实战指南

XU9250B,输入电压范围：2.7V至16V 7A异步升压芯片

2026年阿里云OpenClaw/Hermes Agent配置Token Plan安装超全攻略

避坑指南：在Jetson Orin Nano上编译支持CUDA的OpenCV 4.5.3，我踩过的雷都在这了

如何高效解决多云存储兼容问题？Alibaba Cloud OSS SDK实战指南

ZenTimings终极指南：轻松监控AMD Ryzen内存时序的免费神器

2026株洲奢侈品回收市场观察：包包回收迈入规范时代，湘奢汇（天元店）领衔五大靠谱机构 - 生活测评小能手

对比官方价Taotoken活动价在长期使用中的成本优势感受

相关文章：