斯坦福李瑞江团队在Nat Med发表能够融合病理切片与虚拟CODEX染色的多模态医学AI框架
小罗碎碎念
文献来源:Li, Z., Li, Y., Xiang, J., et al. (2026). AI-enabled virtual spatial proteomics from histopathology for interpretable biomarker discovery in lung cancer.Nature Medicine, 32(1), 231-244.
苏木精-伊红(H&E)染色一直是临床病理诊断的"金标准"。这种简单、廉价的染色方法能清晰地显示组织的形态结构,帮助医生判断是否存在癌变以及癌变的类型和分级。
然而,H&E染色也有其局限性——它只能告诉我们"细胞长什么样",却无法告诉我们"细胞在做什么"。
为了了解肿瘤的分子特征,科学家们开发了空间蛋白质组学技术,其中最具代表性的是CODEX技术。这种技术可以在同一张组织切片上同时检测数十种甚至上百种蛋白质的表达和空间分布,让我们能够深入了解肿瘤微环境中各种细胞之间的相互作用。
然而,空间蛋白质组学技术面临着三大障碍:高昂的成本、复杂的操作流程和有限的可扩展性。
一次CODEX实验需要数万美元,还需要专门的高端仪器和训练有素的技术人员,这使得它无法在临床常规应用中普及。
就在这个行业陷入困境的时候,斯坦福大学Ruijiang Li教授领导的团队开发了一种名为HEX(H&E to protein expression)的人工智能模型,能够从标准的H&E染色切片中直接生成高精度的虚拟空间蛋白质组学图谱。
AI从常规病理切片生成虚拟空间蛋白质组学
HEX技术的核心基础是研究人员首创的"同一张切片双重染色"实验方案,这一设计解决了传统AI模型训练中形态与分子标签空间不匹配的关键难题。
研究人员从临床最常用的FFPE福尔马林固定石蜡包埋肿瘤样本出发,对完全相同的组织切片先后进行40-plex CODEX高多重免疫荧光染色和常规H&E染色,再通过亚细胞级别的精确配准技术,将两种图像的每个像素一一对应。
基于这一方法,研究人员构建了包含四个层级的完整数据集,其中75.5万个带蛋白质标签的H&E图像块用于模型训练,另外三个独立数据集分别用于技术验证、跨中心验证和跨组织泛化验证,而精心设计的40种生物标志物panel则全面覆盖了肿瘤微环境中的免疫细胞、上皮细胞、基质细胞以及功能相关分子。
虚拟CODEX空间蛋白质组学图谱的生成是一个完全自动化的计算过程,全程无需任何额外的实验操作。当一张临床常规的全切片H&E图像输入模型后,系统首先会将大尺寸的病理切片切割成标准化的小图像块,以便于模型处理。
随后,预训练的MUSK病理基础模型会提取每个图像块中的精细形态特征,这个模型已经在5000万张病理图像和10亿个病理文本标记上进行了学习,掌握了各种组织和细胞的形态模式。
最后,模型的回归头会根据提取的形态特征预测每个小块中40种蛋白质的表达水平,并将所有结果拼接成完整的虚拟空间蛋白质组学图谱,其空间分辨率与原始H&E图像完全一致。
在标准的NVIDIA L40S GPU上,HEX处理一张全切片H&E图像仅需1.3分钟,而一次传统的CODEX实验则需要数万美元的试剂费用和数天的实验时间。
更重要的是,HEX展现出了极强的鲁棒性和泛化能力,在没有进行任何微调的情况下,它就能在来自瑞士伯尔尼大学、使用不同染色协议和扫描平台的泛癌数据集上保持较高的预测准确性,这一数据集覆盖了34种不同的组织类型,包括乳腺癌、结直肠癌、肝癌等多种常见恶性肿瘤。
多模态数据整合用于临床结局预测
为了将虚拟空间蛋白质组学数据转化为能够直接指导临床决策的实用工具,研究人员开发了名为MICA的多模态数据整合框架,创新性地实现了H&E形态学信息与虚拟CODEX分子信息的深度融合。
传统的癌症预后和治疗反应预测模型要么只依赖病理医生观察到的形态学特征,要么只依赖单一的分子生物标志物,这两种方法都无法全面反映肿瘤的复杂生物学特性。
MICA框架采用双编码器结构,分别从H&E图像和虚拟CODEX图像中提取特征,其中H&E编码器使用与HEX相同的MUSK模型来捕捉组织形态和细胞结构信息,CODEX编码器则使用DINOv2模型来提取蛋白质表达的空间分布模式。
MICA模型性能超越传统方法的关键在于其独特的CODEX引导的共注意力机制,这一设计让模型能够同时"看懂"肿瘤的形态和分子状态。
具体来说,虚拟CODEX的分子特征会作为查询向量,引导模型关注H&E图像中与临床结局最相关的区域,这就像是让一位分子生物学专家指导病理医生观察切片,重点关注那些具有重要生物学意义的区域。
基于融合后的多模态特征,模型不仅能够输出患者的预后风险评分和免疫治疗反应预测结果,还能生成直观的风险热图和关键生物标志物的空间分布图谱,清晰地展示模型做出预测的生物学依据,真正实现了可解释的人工智能辅助诊断。
研究人员在迄今为止规模最大的临床队列中对这一技术进行了全面验证,共纳入了超过7300名患者,覆盖了13种不同的癌症类型。
在非小细胞肺癌的五个独立预后队列中,MICA模型的预测准确率比传统的临床病理因素提升了22%,能够更准确地识别出那些手术后容易复发的高风险患者。
在免疫治疗反应预测方面,MICA模型的AUC达到了0.82,比目前临床广泛使用的PD-L1表达和肿瘤突变负荷标志物提升了24-39%,这意味着它能够帮助医生更精准地选择那些最有可能从免疫治疗中受益的患者,避免不必要的治疗和副作用。
医学AI交流群
目前小罗全平台关注量120,000+,交流群总成员4000+,大部分来自国内外顶尖院校/医院,期待您的加入!!
由于近期入群推销人员较多,已开启入群验证,扫码添加我的联系方式,备注姓名-单位-科室/专业,即可邀您入群。
一、如何从一张普通病理切片"变"出40种蛋白质图谱
HEX技术的核心创新在于,它利用先进的人工智能算法,学会了从组织的形态特征中推断出蛋白质的表达模式。
让AI学会"看"病理切片
传统的AI模型在预测分子特征时,通常是在整个组织切片的水平上进行训练的。然而,肿瘤内部存在着高度的异质性,不同区域的细胞可能具有完全不同的分子特征。这种"一刀切"的预测方法显然无法满足精准医疗的需求。
HEX采用了一种完全不同的思路。它不是预测整个组织切片的平均蛋白质表达,而是预测每个微小区域(约50微米见方)的蛋白质表达水平。
为了实现这一目标,研究人员首先对同一张组织切片进行了CODEX和H&E染色,然后将两种图像精确对齐,得到了超过75万个带有对应蛋白质表达标签的H&E图像块。
病理基础模型的强大力量
HEX的成功离不开近年来病理基础模型的飞速发展。研究人员采用了MUSK病理基础模型作为HEX的骨干网络。
这个模型已经在5000万张病理图像和10亿个病理相关文本标记上进行了预训练,学会了识别各种组织形态特征。
在MUSK模型的基础上,研究人员添加了一个三层的回归头,将视觉特征映射到40种蛋白质的表达水平。
为了提高模型的鲁棒性和泛化能力,他们还引入了两个关键技术:特征分布平滑(FDS)和自适应损失函数(ALF)。
FDS技术就像是给模型戴上了一副"降噪耳机",能够减少数据不平衡带来的负面影响。
在空间蛋白质组学数据中,有些蛋白质在几乎所有细胞中都表达,而有些蛋白质只在极少数细胞中表达。
FDS通过平滑特征分布,让模型能够更好地学习那些稀有蛋白质的表达模式。
ALF技术则像是给模型配备了一个"智能天平",能够自动调整对不同误差的惩罚力度。
在训练过程中,模型会遇到一些异常值和噪声数据。
ALF能够动态地调整损失函数,让模型不过分受这些异常值的影响,从而提高了模型的稳定性和准确性。
四步生成虚拟空间蛋白质组学
HEX的工作流程可以分为四个简单的步骤:
图像输入
将标准的H&E染色切片数字化,输入到HEX模型中。
特征提取
MUSK基础模型将H&E图像分割成小块,提取每个小块的视觉特征。
蛋白质预测
回归头根据提取的视觉特征,预测每个小块中40种蛋白质的表达水平。
图谱生成
将所有小块的预测结果拼接起来,生成完整的虚拟空间蛋白质组学图谱。
整个过程就像是给H&E图像"上色",只不过上的不是普通的颜色,而是代表不同蛋白质表达水平的"分子颜色"。
值得注意的是,HEX还支持任意空间分辨率的输出。用户可以根据自己的需求,生成从低分辨率的整体概览到高分辨率的细胞细节的各种虚拟蛋白质组学图谱。
二、2298名患者的数据验证
为了验证HEX的性能和临床价值,研究人员进行了一系列严格的实验,涉及超过7300名患者,涵盖13种癌症类型。
基准测试
首先,研究人员在斯坦福-WSI数据集上进行了五折交叉验证。
结果显示,HEX在预测40种蛋白质表达时,平均皮尔逊相关系数达到了0.790,结构相似性指数(SSIM)达到了0.949。
这意味着HEX生成的虚拟蛋白质组学图谱与真实的CODEX图谱几乎无法区分。
为了更直观地展示HEX的优势,研究人员将其与两种最先进的生成对抗网络(GAN)方法进行了对比——HEX的皮尔逊相关系数比第二名的条件GAN(CGAN)高出了46%,均方误差(MSE)降低了80%。
跨平台、跨组织类型的强大泛化能力
为了测试HEX的泛化能力,研究人员在两个独立的组织微阵列(TMA)队列上进行了验证,这两个队列包含了372个肿瘤样本。
结果显示,HEX在这两个队列上仍然保持了很高的预测准确性,平均皮尔逊相关系数分别为0.738和0.724。
更令人惊叹的是,HEX在没有进行任何微调的情况下,在一个包含34种不同组织类型的泛癌数据集上也取得了很好的效果。
这个数据集来自瑞士伯尔尼大学,使用了不同的染色协议和扫描仪。尽管存在这些差异,HEX在24个重叠的生物标志物上仍然取得了0.658的平均皮尔逊相关系数,远远超过了其他方法。
显著提高预后和免疫治疗反应预测
HEX的最终目标是改善患者的治疗效果。为了验证这一点,研究人员开发了一种名为MICA的多模态数据整合框架,将H&E图像和HEX生成的虚拟空间蛋白质组学结合起来,用于预测患者的预后和免疫治疗反应。
在预后预测方面,研究人员在五个独立的非小细胞肺癌队列(共2150名患者)上进行了测试。结果显示,MICA模型的C-index达到了0.68,比单独使用H&E图像的模型高出了21%,比传统的临床病理因素高出了22%。
这意味着MICA能够更准确地识别出那些高风险的患者,让他们能够及时接受辅助治疗。
在免疫治疗反应预测方面,研究人员在一个包含148名接受免疫检查点抑制剂治疗的晚期非小细胞肺癌患者的队列上进行了测试。
结果显示,MICA模型在预测客观反应时的AUC达到了0.82,比目前临床常用的PD-L1表达(AUC=0.66)和肿瘤突变负荷(TMB)(AUC=0.59)高出了24-39%。
这意味着MICA能够帮助医生更准确地选择那些最有可能从免疫治疗中受益的患者,避免不必要的治疗和副作用。
揭示肿瘤-免疫微环境的空间密码
HEX不仅能够做出准确的预测,还能够为我们提供生物学上的解释。通过分析虚拟空间蛋白质组学图谱,研究人员发现了一些与治疗反应密切相关的空间组织模式。
在对免疫治疗有反应的患者中,研究人员观察到了各种T细胞亚群的协调空间共定位,包括辅助性T细胞、细胞毒性T细胞和耗竭性T细胞。这表明这些T细胞之间的相互作用对于免疫治疗的成功至关重要。
而在对免疫治疗没有反应的患者中,研究人员则观察到了免疫抑制性的肿瘤相关巨噬细胞和中性粒细胞的聚集。这些细胞会形成一个"免疫抑制屏障",阻止效应T细胞进入肿瘤内部,从而导致免疫治疗失败。
这些发现不仅加深了我们对肿瘤免疫微环境的理解,还为开发新的治疗策略提供了重要的线索。
三、HEX如何重塑精准医疗的未来
HEX技术的出现,标志着数字病理和精准医疗进入了一个全新的时代。它不仅解决了空间蛋白质组学技术成本高、可扩展性差的问题,还为我们提供了一种全新的方式来研究和理解癌症。
改变肿瘤研究和临床实践
在研究领域,HEX将使空间蛋白质组学研究从"奢侈品"变成"常规工具"。
以前,由于成本和技术的限制,研究人员只能在少数样本上进行空间蛋白质组学分析。现在,有了HEX,研究人员可以在成千上万的样本上进行大规模的空间蛋白质组学研究,这将大大加速我们对癌症生物学的理解。
在临床实践中,HEX将使精准医疗更加普及。目前,大多数医院都已经配备了H&E染色和数字化切片扫描设备。这意味着HEX技术可以很容易地集成到现有的临床工作流程中,不需要额外的设备和人员培训。
未来,每一位癌症患者都可以通过HEX技术获得详细的分子特征分析,从而得到更加个性化的治疗方案。
从肺癌到全癌种,从40种到全蛋白质组
虽然目前HEX主要在非小细胞肺癌中进行了验证,但研究人员已经证明它可以扩展到其他33种组织类型。未来,HEX有望应用于所有常见的癌症类型,为更多的患者带来福音。
此外,目前HEX只能预测40种蛋白质的表达。但研究人员已经证明,通过微调,HEX可以很容易地扩展到新的蛋白质标志物。
未来,随着技术的不断发展,HEX有望能够预测整个蛋白质组的表达,为我们提供更加全面的肿瘤分子特征信息。
更令人兴奋的是,HEX技术还可以与其他多组学数据进行整合,如基因组学、转录组学和代谢组学。这将使我们能够从多个维度全面了解肿瘤的生物学特征,为开发更加有效的治疗方法提供坚实的基础。
让每一张病理切片都能讲述完整的故事
一百多年前,当苏木精和伊红第一次被用于组织染色时,没有人能够想到,这两种简单的染料会成为现代医学的基石。
今天,当人工智能与传统的H&E染色相遇时,我们正在见证另一场医学革命的诞生。
HEX技术就像是一把神奇的钥匙,为我们打开了通往癌症空间生物学世界的大门。它让每一张普通的病理切片都能够讲述一个完整的故事,告诉我们肿瘤的起源、发展和未来的走向。
在这个故事中,我们不仅能够看到癌细胞的形态,还能够看到它们与周围环境的相互作用,看到免疫系统与肿瘤之间的激烈战斗。
HEX提供了一种低成本、可扩展的方法来研究空间生物学,并使可解释的生物标志物的发现和临床转化成为可能,从而推动精准医疗的发展。我们有理由相信,在不久的将来,HEX技术将成为癌症诊疗的常规工具,为每一位癌症患者带来新的希望。
