当前位置: 首页 > news >正文

IF=10.0!基于中医证候预测胃癌前病变,清华学者机器学习预测模型发文柳叶刀子刊

源自风暴统计网:一键统计分析与绘图的AI网站

胃癌前病变(PLGC)是胃癌进展的关键阶段,及时干预可显著降低死亡率。

然而,当前筛查策略主要依赖内窥镜检查,不仅费用高、侵入性,在资源有限地区更是难以普及。

2026年1月16日,清华大学李梢教授团队在柳叶刀子刊 Eclinicalmedicine(医学一区,IF=10.0)上发表了一项突破性研究,成功开发了一种仅基于经典风险因素和中医证候要素的机器学习预测模型,旨在无创筛查胃癌前病变,AUC=0.82。

接下来,我们一起学习一下这篇文章的研究思路吧!

数据准备

本文提供了详细的样本量估算流程,诸位可以在自己文章中参考借鉴。

步骤一:确定核心参数
目标结局事件患病率 (p):在设计阶段,目标筛查人群中PLGC的患病率尚不确定。因此,我们参考了中国及其他亚洲地区既往流行病学报告,这些报告表明PLGC患病率约为20-30%,并采用了p = 0.25的预估患病率进行样本量估计。
候选预测变量数量 (k):研究初始纳入了 k = 31 个候选变量(包括人口学特征、症状、生活方式等)。
目标EPV值:作者设定目标 EPV = 15。这是一个较为严格的标准。在预测模型研究中,较高的EPV(通常建议≥10或≥20)可以有效降低模型过拟合的风险,提升模型的稳定性和泛化能力。
步骤二:应用EPV原则计算理论最小样本量
在k = 31个候选预测因子的情况下,所需总样本量为n = 15 × 31 / 0.25 = 1860。

本研究招募了符合条件的成年参与者,他们正在接受或计划接受上消化道内镜检查,且既往无恶性肿瘤诊断。研究最终入组了N = 2511名参与者,远超样本量估算目标。

研究采用严谨的多中心队列设计,覆盖中国不同地区,确保数据的多样性和代表性:

  • 开发队列:从福建两家医院招募1034名参与者,使用该队列的症状和生活方式数据构建开发数据集,并随机分为训练集(n = 620)、内部验证集(n = 207)和测试集(n = 207);

  • 外部验证队列:包括来自北京、安徽的四家医院的回顾性医院队列(630人)和福建32个筛查点的前瞻性社区队列(847人)。

预测模型构建与评估

研究包含四个连续阶段:数据收集与预处理、特征选择、模型构建、以及性能评估与可解释性分析。

1.数据收集与预处理

在第一阶段,设计了结构化问卷以获取四个信息领域——人口统计学特征、总体症状、口腔症状和胃部症状。

为确保方法学透明性和可重复性,数据集经过预处理,排除了缺失值或不合理数据(如年龄记录为身份号码)的参与者。处理后的数据集被分层为训练集、内部验证集和内部留出测试集,用于模型开发。

2.特征选择

为确定用于模型构建最具预测力的特征,我们实施了两步特征选择流程。

  • 首先,在训练集上预训练一个带有L1正则化的逻辑回归(LR)模型。

  • 随后,使用训练集对该预训练模型应用SHAP分析,以量化和排序特征贡献度。

  • 利用此特征排序,我们通过测试包含从排名前5到全部31个特征的子集,系统性地评估了特征集规模对模型性能的影响。

研究发现,随着特征按 SHAP 重要性由高到低依次添加,AUC 增加到约 15 个特征,随后趋于平稳,表明这些变量数量在预测准确性与简约性之间提供了最佳权衡。

图 七种机器学习模型的特征重要性分析。

(A)每个模型中三个最具影响力的特征的SHAP值的气泡图。圆圈大小代表平均绝对 SHAP 值(圆圈越大表示重要性越高),颜色则用于区分不同的模型。

(B)所有七种模型中 15 个最重要的特征的热图。

因此,前15个关键预测因子用于最终模型构建,包括幽门螺杆菌感染、年龄、黑便、胀痛、喜温/喜冷饮食偏好、四肢冰冷、打嗝、疑病症性疼痛、恶心、饮酒、饮水、家族病史、口苦、嗳气,融合了经典风险因素和中医证候要素。

3.模型构建

本阶段采用先进的集成学习策略,以融合多种算法的优势,追求最优预测性能。

基学习器选择:选取了7种七种广泛使用且优势互补的机器学习算法作为基模型,包括高斯朴素贝叶斯(GNB)、逻辑回归(LR)、K近邻(KNN)、梯度提升分类器(GBC)、极限梯度提升(XGB)、随机森林(RF)、自适应提升(ADB)等。

采用堆叠集成策略:

  • 第一层:多个基学习器在训练集上进行训练。

  • 第二层(元学习器):系统地评估了所有七种基模型作为候选元学习器(使用默认参数),并根据其更优性能选择了逻辑回归作为最优元学习器。

  • 超参数优化:所有基学习器及元学习器的超参数,均通过在内部验证集上进行网格搜索来优化,以提升模型泛化能力。

4.模型评估

在训练集、内部验证集、内部测试集以及两个外部验证集中,九种模型的AUC值范围分别为0.71–0.92、0.65–0.82、0.70–0.82、0.69–0.80和0.65–0.79。

其中,堆叠集成模型在所有数据集中均取得最优综合性能,其AUC值均为最高。

使用DeLong检验评估其他模型与堆叠模型之间的AUC差异,结果以Z统计量及相应p值报告。结果显示,在多数数据集中存在显著性能差异(p< 0.05),证实了该模型相对于单一模型的优越性。

相比之下,基于《中国胃癌筛查与早诊早治指南》(ZH)和《英国胃肠病学会胃癌风险诊断指南》(EN)衍生的规则模型表现较差,在所有数据集中AUC值均接近0.5,堆叠模型较基于指南的策略将AUC提升了0.18–0.35(相对提升幅度平均达50.5%)。

决策曲线分析表明,堆叠模型所有数据集中,在广泛的阈值概率范围内始终提供了最高的临床净收益。

有趣的是,研究分析中识别出的PLGC相关症状——上腹隐痛、腹胀、喜冷食及口苦——在很大程度上与中医的湿热证相吻合,这与古代经典《黄帝内经》中的记载一致,即脾胃长期寒热失衡是肿瘤发生的重要内在条件。

参考文献:Li, W., Wang, B., Li, T.et al.A Causal and interpretable machine learning framework for postcranioplasty risk prediction and surgical decision support.npj Digit. Med.(2026). https://doi.org/10.1038/s41746-026-02370-6

【感谢阅读浙中大郑老师团队撰写的统计文章】


最后,在文末给郑老师我们团队打个广告吧,大家不要见怪哈!

我们将提供专业的统计服务

http://www.jsqmd.com/news/368367/

相关文章:

  • 从模仿到创造:具身智能的技能演化路径一、 模仿:高效但脆弱的起点二、 技能演化的三阶段路径三、 驱动“创造”的核心技术四、 典型案例:创造正在发生五、 挑战与未来展望六、 结语#模仿
  • Reeden1.25.1 | 高颜值小说阅读支持AI朗读与MultiTTS
  • 2026年絮凝剂厂家厂家最新推荐:污水处理药剂的生产厂家/污水处理药剂的生产厂家/生产污水处理药剂的厂家/选择指南 - 优质品牌商家
  • AI编程让人更累:一个深度使用者的真实感受
  • 2026年污水处理药剂厂家厂家推荐:聚丙烯酰胺供应商/聚丙烯酰胺十大厂家/聚丙烯酰胺厂家哪家好/选择指南 - 优质品牌商家
  • 2026年Q1武汉市政公用工程市场价格趋势与服务商优选指南 - 2026年企业推荐榜
  • 2026年絮凝剂生产厂家厂家最新推荐:聚丙烯酰胺絮凝剂厂家电话/聚丙烯酰胺絮凝剂厂家电话/选择指南 - 优质品牌商家
  • 【第1章·第16节】自适应PID控制器的simulink建模与仿真2——建模与仿真分析
  • 大模型从屁都不懂到精通我是怎么做到的!
  • 2026年评价高的絮凝剂供应商公司推荐:预糊化淀粉十大生产厂家、预糊化淀粉十大生产厂家、预糊化淀粉厂家排名选择指南 - 优质品牌商家
  • 基于BiGRU双向门控循环单元的轴承剩余寿命预测MATLAB实现
  • 设计模式的进阶思考:从套用到创造
  • 2026年评价高的污水处理药剂厂家推荐公司推荐:四川污水处理药剂厂家、四川污水处理药剂厂家、四川絮凝剂厂家选择指南 - 优质品牌商家
  • 牛客周赛 Round 130训练
  • 2026年污水处理药剂供应商厂家推荐:预糊化淀粉厂家推荐/预糊化淀粉厂家推荐/预糊化淀粉厂家电话/选择指南 - 优质品牌商家
  • 2026年聚丙烯酰胺厂家厂家权威推荐榜:污水处理药剂十大生产厂家/污水处理药剂十大生产厂家/选择指南 - 优质品牌商家
  • 操作系统系统调用执行过程
  • 2026年预糊化淀粉厂家厂家权威推荐榜:四川聚丙烯酰胺生产厂家/四川聚丙烯酰胺絮凝剂厂家/选择指南 - 优质品牌商家
  • 提示工程架构师:Agentic AI在金融服务创新的中流砥柱
  • 《干货满满送!提示工程架构师优化提示系统用户参与策略》
  • 周期探寻:正规股票配资市场活跃度与股市牛熊周期的联动关系研究
  • 2026年预糊化淀粉厂家推荐厂家推荐:四川预糊化淀粉生产厂家、四川预糊化淀粉生产厂家、水处理专用絮凝剂厂家选择指南 - 优质品牌商家
  • 数据库管理公司ClickHouse估值达150亿美元
  • 爱芯元智上市:市值167亿港元 CEO孙微风薪酬2246万,CFO施晓烨薪酬2810万 预计年亏超10亿
  • 大数据领域 ETL 性能优化的实用方法
  • 斯坦福大学等机构让AI机器人拥有了思考深度
  • 上海多家顶尖学府首创同步视频音频生成技术:让AI同时“看见“和“听见“ - 科技行者
  • 2026年评价高的预糊化淀粉供应商公司推荐:污水处理絮凝剂厂家、污水处理絮凝剂厂家、污水处理聚丙烯酰胺厂家选择指南 - 优质品牌商家
  • 多智能体协同新纪元:DeepSeek 联动多 AI 智能体,驱动团队协作效率革命
  • Hypo Sciences突破:AI化学大脑推理效率提升10倍