J Adv Res(IF=13)南方医科大学南方医院等团队:基于多模态渐进融合 Transformer 的肝细胞癌患者免疫治疗反应预测模型
01
文献学习
今天分享的文献是由南方医科大学南方医院等团队于2026年2月在《Journal of Advanced Research》(中科院1区top,IF=13)上发表的研究“Multi-modal gradual fusion transformer-based model for predicting immunotherapy response in patients with hepatocellular carcinoma”即基于多模态渐进融合变换器模型的肝细胞癌免疫治疗反应预测研究,该研究开发并验证了一种基于多模态数据(临床特征+动脉期+门静脉期CT影像)的渐进融合变换器模型(GIFT-CIP),用于预测肝细胞癌患者对免疫治疗的反应。
创新点:①首次将多模态渐进融合Transformer用于HCC免疫治疗响应预测,整合临床与CT影像。②结合瘤内与瘤周影像特征,挖掘肿瘤微环境对免疫治疗的协同预测价值。③渐进融合策略优先整合高度相关模态(动脉/门脉期),后融合临床数据,优化跨模态信息交互。
临床价值:①非侵入性预测工具,避免活检创伤,实时辅助临床决策,筛选免疫治疗优势人群。②精确区分高低风险患者,指导个体化免疫治疗策略,延长无进展生存与总生存期。③多中心验证显示模型稳健,适用于不同医疗场景,提升肝癌免疫治疗精准管理水平。
图 2:GIFT-CIP模型架构与渐进融合策略图
A:整体框架
输入层:三类输入——临床特征(C)、瘤内影像(I)、瘤周影像(P);影像为224×224像素增强CT块(动脉期+门静脉期)。
特征提取层:MobileViT分别处理瘤内/瘤周的双期影像,输出高维影像特征;MLP处理标准化临床特征,输出临床特征向量。
渐进融合层:核心模块,见子图C。
输出层:全连接层+Sigmoid激活,输出免疫治疗反应预测概率(响应/非响应)。
B:MobileViT特征骨干
融合MobileNetv2的深度可分离卷积(捕捉局部特征)与ViT的自注意力机制(捕捉长距离依赖),输出轻量且高维的影像特征。
C:渐进融合策略
分三步逐层融合,解决模态不平衡:
第一步:融合同区域的双期影像(动脉期+门静脉期),捕捉时序影像特征;
第二步:融合瘤内+瘤周的双期融合特征,整合肿瘤核心与微环境信息;
第三步:融合影像特征与临床特征,MLP优化临床特征权重后与影像特征拼接。
02
研究背景和目的
研究背景
肝细胞癌(HCC)作为全球第六大常见癌症和第三大癌症死亡原因,其治疗领域近年来因免疫疗法的出现而取得了革命性进展,显著延长了患者生存期。然而,当前免疫治疗的客观缓解率不足30%,这一临床瓶颈凸显了精准筛选获益患者的紧迫性。既往研究试图利用程序性死亡配体1(PDL1)表达或肿瘤突变负荷等生物标志物来预测疗效,但在HCC患者中预测效能普遍较差。与此同时,医学影像分析为肿瘤评估提供了非侵入性视角,但传统卷积神经网络(CNN)难以捕捉影像中的长距离依赖关系。近年来兴起的Transformer模型凭借其自注意力机制,在提取上下文信息和非局部特征方面展现出显著优势。然而,如何有效整合多模态数据(如临床特征、动脉期及门静脉期CT图像、瘤内及瘤周影像)仍是一大挑战。现有融合策略多为简单的早期或晚期融合,未能充分利用不同模态间的互补信息。基于此,作者提出假设:采用渐进融合策略,优先融合高度相关的模态(如双期CT影像),再逐步整合临床特征,可能更适用于复杂的HCC多模态数据分析。
研究目的
本研究旨在开发并验证一种基于多模态渐进融合Transformer的模型(GIFT-CIP),用于预测接受免疫治疗的肝细胞癌患者的疗效反应。具体目标包括:首先,整合临床特征、动脉期及门静脉期CT图像的瘤内与瘤周区域,通过渐进融合策略构建深度学习模型;其次,在来自五个医疗中心的多中心队列中系统评估模型的预测性能,包括训练集、内部验证集和外部测试集;第三,比较不同模态组合(如单独临床数据、单独影像数据及多模态融合)对免疫治疗反应预测能力的差异,验证渐进融合策略相较于传统融合方法的优势;第四,利用模型输出的风险评分对患者进行危险分层,评估其在无进展生存期(PFS)和总生存期(OS)方面的预后判别能力;最终,提供一种非侵入性的临床决策工具,辅助临床医师在免疫治疗前筛选最佳获益人群,推动HCC个体化治疗策略的优化。
03
数据和方法
研究数据
来源:5个医疗中心
训练集:209例(医院1)
内部验证集:90例(医院1)
外部测试集:85例(医院2-5)
数据模态:
临床特征(年龄、NLR、TBil、ALB、PT等)
CT影像(动脉期+门静脉期,瘤内+瘤周区域)
图 1:患者筛选流程图
技术方法
临床特征选择:LASSO回归筛选与免疫治疗反应相关的特征
影像预处理:重采样、归一化、ROI分割、瘤周区域扩张
模型构建:
使用MobileViT作为影像特征提取器
设计三阶段渐进融合策略:动脉期与门静脉期先融合,再融合瘤内与瘤周影像,最后融合临床特征
模型变体包括GIFT-CIP、GIFT-IP、GIFT-CI等
训练策略:过采样处理类别不平衡,SGD优化,交叉熵损失
评估指标:AUC、准确率、ROC曲线、Kaplan-Meier生存分析、决策曲线分析
04
实验结果
GIFT-CIP模型表现最佳:
训练集AUC:0.926
内部验证集AUC:0.911
外部测试集AUC:0.883
与其他模型比较:GIFT-CIP显著优于单模态或简单融合模型(如GIFT-P、GIFT-I)
生存分析:高风险组与低风险组在PFS和OS上均有显著差异(p < 0.05)
临床效用:决策曲线分析显示GIFT-CIP具有更高的净收益
图 3:模型性能对比(ROC曲线与量化指标)
图 4:患者风险分层与生存分析(Kaplan-Meier曲线)
图 5:临床效用验证(DCA与临床决策曲线)
05
研究结论
该研究成功构建并验证了一种基于多模态渐进融合Transformer的预测模型(GIFT-CIP),用于预测肝细胞癌(HCC)患者接受免疫治疗的疗效。研究结论表明,通过渐进式融合策略整合临床特征、瘤内影像及瘤周影像的多模态数据,可显著提升预测性能。GIFT-CIP模型在训练集、内部验证集及外部测试集中的AUC分别达到0.926、0.911和0.883,表现出优异的区分度与泛化能力。相较于单一模态或简单融合模型,GIFT-CIP在识别疾病进展患者方面具有更高准确性,并能有效将患者划分为高风险与低风险组,两组在无进展生存期和总生存期方面存在显著差异(p < 0.01)。此外,决策曲线分析进一步验证了其良好的临床净收益。该研究首次将瘤周影像特征引入免疫治疗反应预测,并采用分层融合机制处理动脉期与门静脉期影像的相关性,克服了传统模型对模态间交互建模不足的问题。总体而言,GIFT-CIP模型提供了一种非侵入性、可解释性强且具备临床转化潜力的工具,有望辅助临床医生优化HCC患者的免疫治疗策略,推动个体化精准医疗的发展。未来研究需进一步扩大样本量、提升模型可解释性,并在更广泛人群中验证其普适性。
参考文献:Xiao L, Wang J, Cui H, Zhu H, He J, Deng H, Zhang W, Dong H, Zhou Y, Jiang P, Zeng L, Peng J, Xu P, Shen R, Kurban N, Lin M, Lu S, Weng X, Hong C, Liu L. Multi-modal gradual fusion transformer-based model for predicting immunotherapy response in patients with hepatocellular carcinoma. J Adv Res. 2026 Feb 9:S2090-1232(26)00113-X. doi: 10.1016/j.jare.2026.02.003.
