Nature Reviews Cancer(IF=66.8)澳门科技大学张康教授等团队:人工智能推动多组学与临床数据整合在基础和转化癌症研究中的进展
01
文献学习
今天分享的文献是由澳门科技大学、中国医学科学院肿瘤医院张康教授等团队于2026年4月21日在肿瘤学领域顶尖综述期刊《Nature Reviews Cancer》(中科院1区top,IF=66.8)上发表的研究“Advancing AI for multi-omics and clinical data integration in basic and translational cancer research”即人工智能推动多组学与临床数据整合在基础和转化癌症研究中的进展,该综述系统阐述了人工智能(AI)如何整合多组学数据(基因组、表观组、转录组、蛋白组、代谢组)与多模态临床信息(电子健康档案、医学影像、病理图像)以推动基础和转化癌症研究。文章重点介绍了AI方法学(自监督学习、Transformer、图神经网络、生成模型等)、多模态融合策略(早期、晚期、中间融合),以及AI在癌症驱动基因识别、早期诊断、风险分层、治疗反应预测、预后建模和主动监测中的具体应用。最后,提出了“肿瘤数字孪生”概念和可解释AI的重要性,并展望了持续学习闭环(AI驱动的肿瘤多组学循环)的未来方向。
创新点:①提出AI驱动的肿瘤多组学闭环:打破传统线性研究路径,构建从临床数据挖掘到假设生成、试验验证再回馈临床的持续学习生态。②定义肿瘤数字孪生三阶段框架:从群体学习得潜在空间图谱,到个体深度表型投影,最终实现个性化治疗方案的计算机模拟。③揭示可解释AI的双重角色:不仅建立临床信任,更作为生物发现引擎,通过解析跨模态特征关联发现新型耐药机制与驱动基因。
临床价值:①提升早期检测与诊断精度:整合影像、液体活检等多模态数据,对不确定肺结节等场景实现高特异性鉴别(AUC达0.923)。②实现个性化治疗反应预测:融合放射、病理与基因组数据预测免疫治疗响应(AUC达0.80),优于单一生物标志物(如PDL1)。③推动精准风险分层与预后:整合病理、影像与分子特征,构建超越TMN分期的预后模型,指导辅助化疗降级或强化决策。
02
研究背景和目的
研究背景
癌症作为一种高度异质性的疾病,其发生发展涉及从基因组、表观组、转录组到蛋白质组和代谢组等多个分子层次的复杂改变。传统的单一组学分析(如仅依赖基因组或病理图像)往往只能提供片面的信息,难以全面揭示肿瘤的生物学本质、患者预后差异以及治疗响应机制。随着高通量测序和医学影像技术的发展,多组学数据(包括基因组学、蛋白质组学等)与临床多模态信息(如电子健康记录、影像组学和数字病理)的整合成为可能,这为从系统层面理解肿瘤提供了前所未有的机遇。然而,这些数据具有高维度、强噪声、批次效应以及不同模态之间复杂的非线性关系,传统统计方法难以有效建模。人工智能,特别是深度学习,凭借其识别复杂模式、融合异质数据和处理缺失值的强大能力,已成为破解这一难题的关键技术。尽管已有研究探索了多模态数据融合的概念框架,但生成式AI、基础模型和数字孪生等新一代技术的快速演进,正在深刻改变该领域的面貌。与此同时,数据可及性、模型泛化能力、算法公平性以及可解释性等挑战仍然制约着AI模型向临床实践的转化。因此,亟需系统梳理当前AI驱动下的多组学整合策略、应用进展及未来方向,以推动精准肿瘤学的真正落地。
研究目的
本论文旨在系统综述人工智能驱动的多组学与临床数据整合在基础与转化癌症研究中的最新进展,并明确提出一个全新的研究范式。首先,论文详细阐述了核心AI方法学,包括无监督/自监督预训练、基础模型、适用于不同数据模态的深度学习架构(如卷积神经网络、Transformer、图神经网络和生成模型),以及多模态融合的三种策略(早期、中期和晚期融合),为后续应用奠定理论基础。其次,论文展示了AI驱动的多组学整合如何全面重塑癌症诊疗全链条:从识别潜在的分子和遗传驱动因子、实现早期检测与无创诊断,到精准风险分层、个性化治疗响应预测,再到预后模型构建和主动监测,并通过具体案例说明了多模态整合相比单一模态的显著优势。再者,论文重点阐述了可解释AI在建立临床信任、发现新生物学假说以及从黑箱模型中提取可验证知识中的关键作用。最后,论文提出了肿瘤数字孪生作为该领域终极目标的概念框架——通过将患者的多尺度数据映射到预训练的隐空间,构建动态、可计算模拟的个体化疾病模型,实现在硅基环境中预测疾病轨迹和优化治疗方案。总体而言,本文旨在推动肿瘤学从传统的反应性医疗模式向预测性、个性化和主动性的精准医疗转变,并为该领域的未来研究指明了关键方向与挑战。
图 1:精准肿瘤学的多组学数据基础
①三大核心数据板块
分子数据(Molecular data):覆盖全尺度分子层面
基因组:突变、拷贝数变异(CNVs)、染色体重排
表观组:DNA甲基化、组蛋白修饰、染色质可及性
转录组:基因表达、可变剪接、融合转录本
蛋白组:蛋白表达、翻译后修饰
代谢组:靶向/非靶向代谢、通量组、脂质组
临床数据(Clinical data):患者维度的真实世界信息
电子健康记录(EHR):人口学信息、治疗记录
病理数据:组织病理、免疫组化(IHC)、细胞病理
实验室检测:血液检查、肿瘤标志物、液体活检
影像数据(Imaging data):解剖成像 + 功能成像
②核心整合层
空间多组学整合(Spatial multi-omics integration):将分子信息与组织空间位置绑定,解决传统组学 “丢失空间信息” 的缺陷。
③最终目标
实现癌症的全面、系统级认知(Comprehensive, systems-level understanding of cancer)。
03
多组学整合的核心AI技术方法
图 2:多组学整合的AI方法学
a:无监督学习(Unsupervised learning)
流程:大量无标注数据→无监督预训练(辅助任务:重构被遮挡输入、预测数据片段关系)→学习通用特征→小批量标注数据→主任务微调→生成基础模型→完成预测。
b:深度学习架构(Deep learning architectures)
按数据模态匹配专属模型,实现“数据-架构”精准适配:
卷积神经网络(CNNs):处理网格型数据(病理/放射影像),卷积层提取局部特征。
Transformer模型:处理序列型数据(基因组、转录组),注意力机制捕捉长程依赖。
图神经网络(GNNs):处理关系型数据(生物互作网络、肿瘤微环境细胞互作),用节点-边建模生物关系。
生成式模型(GANs/扩散模型):生成高保真合成数据,解决罕见癌数据稀缺、模态缺失问题。
c:多模态融合(Multimodal fusion)
三种融合策略,明确优劣与适用场景:
早期融合(数据级):原始特征直接拼接→输入模型;简单但易被高维模态主导信号。
中期融合(表征级):各模态先独立编码为嵌入向量→共享空间融合;最优策略,挖掘跨模态协同信号。
晚期融合(模型级):各模态独立建模→合并预测结果;鲁棒但丢失模态间交互信息。
04
AI驱动多组学整合在癌症研究中的应用
①分子驱动因素发现:AI通过图神经网络、弱监督学习等方法,从多组学数据中识别驱动基因与功能蛋白网络,并关联形态学特征(如从H&E图像预测EGFR突变),揭示隐藏的分子机制。
②早期检测与诊断:AI整合液体活检(ctDNA片段组学)、影像组学与临床特征,提升早期肺癌等诊断精度(AUC达0.923),并支持多癌种早期检测(MCED),特异性超99%。
③精准风险分层:融合病理全切片、CT影像与基因组特征,AI构建的多模态模型可超越传统TNM分期和单组学子型,实现更精细的预后分组与治疗决策支持。
④个性化治疗:AI通过中间融合策略整合影像、病理与基因组数据,显著提升免疫治疗反应预测(AUC从0.61升至0.80),并解析耐药机制,指导靶向与化疗方案选择。
⑤预后预测:利用卷积神经网络提取病理图像中的深层预后信号(如免疫细胞空间分布),结合多组学与临床变量,构建高精度预后模型(c-index达0.79-0.83)。
⑥主动监测:AI分析纵向ctDNA碎片组学与组织学风险评分(如HIBRID框架),可比影像提前数月发现复发,并识别MRD阴性但高风险的辅助化疗获益人群。
05
肿瘤数字孪生&可解释 AI(XAI)
一、数字孪生(Oncological Digital Twin)
定义:个体患者的动态计算模型,整合纵向多组学与临床数据。
构建流程:
从大规模患者数据中学习潜在空间(疾病“地图”)。
将个体数据投影到该空间,生成“深度表型”。
用于模拟疾病轨迹、预测治疗反应(如in silico药物试验)。
示例:儿童肝肿瘤中,数字孪生识别出ceritinib作为新型有效药物。
图 3:肿瘤学数字孪生构建与应用的概念框架
①输入数据层
聚合全维度数据:蛋白组、病理、影像、EHR、基因组、转录组、表观组、空间多组学。
②阶段 1:群体水平建模
大规模患者数据→训练隐空间模型(latent space model):将高维数据压缩为低维 “疾病地图”,捕获肿瘤核心规律。
阶段 2:个性化孪生实例化
单个患者数据投射到预训练隐空间→生成专属数字孪生;可处理不完整数据,自动推断缺失模态。
阶段 3:个性化虚拟预测
孪生模型作为虚拟模拟引擎,实现:
多基因风险评分
疾病轨迹模拟
治疗反应预测
长期结局预测
闭环更新
纵向监测新数据→持续校准数字孪生→保持模型实时精准。
二、可解释AI(XAI)的作用
增强临床信任:如解释脑肿瘤甲基化分类器依赖的增强子区域。
促进生物学发现:识别跨模态特征(如MDM4、FGFR1作为前列腺癌治疗抵抗驱动因子)。
推动科学发现循环:AI发现 → 假设生成 → 临床试验 → 数据回馈 → 再分析。
图 4:AI驱动的肿瘤多组学循环
起点:临床实践:真实世界临床数据、多组学数据作为原始素材。→AI辅助发现:AI挖掘数据中隐藏的新模式、新关联。→假说生成与验证:数据驱动生成科学假说→临床试验严格验证。→新数据生成:临床试验产生高质量多组学数据。→AI机制解析:用AI解析生物学机制→验证/修正假说。→反哺临床:新结论落地临床→产生新数据→开启下一轮循环。
06
当前挑战与未来方向
核心挑战:①数据瓶颈:高质量、多模态、多样化人群数据获取困难,存在批次效应与伦理偏差。②模型泛化:跨中心、跨人群性能下降明显,域适应与外部验证严重不足。③临床落地:黑箱问题、监管路径缺失、与EHR互操作难且成本高昂。
未来方向:①数字孪生:构建个体化动态仿真模型,实现in silico药物测试与预后模拟。②可解释AI:融合生物学知识,揭示机制并建立临床信任与审计框架。③自循环生态:形成AI发现→验证→更新→临床应用的持续学习闭环。
参考文献:Liu F, Beck S, Yang L, Luo H, Zhang K. Advancing AI for multi-omics and clinical data integration in basic and translational cancer research. Nat Rev Cancer. 2026 Apr 21. doi: 10.1038/s41568-026-00922-2.
