当前位置: 首页 > news >正文

Lancet Digital Health(IF=24.1)德国德累斯顿工业大学医学院:深度学习评估结直肠癌的基因型-表型相关性

01

文献信息

本次分享的文献是由德国德累斯顿工业大学 Else Kröner-Fresenius 数字健康中心Jakob Nikolas Kather教授团队联合德国海德堡国家肿瘤疾病中心、奥地利维也纳医科大学、美国梅奥诊所、世界卫生组织国际癌症研究机构等10余家机构与2025年8月在柳叶刀子刊《Lancet Digital Health》(中科院1区,IF=24.1)上发表的研究“Assessing genotype−phenotype correlations in colorectal cancer with deep learning: a multicentre cohort study”即利用深度学习评估结直肠癌的基因型 - 表型相关性:一项多中心队列研究,开发并验证一种多靶点Transformer深度学习模型,利用结直肠癌H&E染色的数字病理切片同时预测多种基因突变与分子标志物状态(如MSI、BRAF、KRAS、RNF43、BMPR2等),以探索基因型–表型之间的联系。研究包含来自七个独立队列共1912例患者,模型实现了对多种遗传改变的高精度预测,并揭示了与MSI形态学特征共享的深度学习可解释模式。

02

研究背景

1. 研究问题

现有基于深度学习的结直肠癌分子标志物预测研究存在两大局限:

单一目标聚焦:多数研究仅针对单个标志物(如MSI、BRAF、KRAS),缺乏对多种基因改变的系统预测,无法满足临床对多靶点评估的需求;

混淆效应忽视:未充分考虑基因改变的共现性(如BRAF突变与MSI常同时出现)及共享形态学特征(如MSI与BRAF突变均关联黏液分化)对预测结果的干扰,可能导致模型偏倚。

2. 研究难点

数据稀缺:缺乏覆盖多人群、多中心的“病理切片-全基因组测序”匹配数据集,难以支撑多目标模型训练;

资源消耗大:传统单目标模型需为每个预测靶点单独训练,耗时且占用大量计算资源,临床转化效率低。

3. 解决思路

构建多目标Transformer架构,实现“一次训练、多靶点预测”,降低资源消耗;

整合多中心队列数据(含测序与病理信息),覆盖更多基因改变类型;

通过共现分析和形态学可视化,量化基因共现与共享形态学的影响,提升模型解释性。

03

研究目标

  • 开发基于深度学习的多目标模型,从结直肠癌HE染色切片中同时预测多种基因改变及表型(包括MSI、超突变、BRAF、RNF43、KRAS等);

  • 验证模型在外部队列中的通用性,并比较其与单目标模型的性能差异

  • 分析基因改变的共现模式及与形态学特征的关联,揭示基因型-表型相互作用机制;

  • 评估模型的临床应用潜力,为结直肠癌精准诊断提供工具。

04

模型架构

多目标Transformer模型架构

Transformer编码器-解码器架构

图像预处理:将全切片图像(WSI)分割为224×224像素的tiles(对应256×256μm组织区域),通过亮度阈值(≥224)和Canny边缘检测(边缘像素≤2%)剔除背景和模糊tiles;

特征提取:使用预训练的CTransPath特征提取器(固定参数,不微调)提取每个tile的768维特征向量;

特征降维:通过全连接层将768维特征投影到512维,降低模型复杂度并提升计算效率;

编码-解码

编码器:处理降维后的tile特征,生成编码token;

解码器:将编码token解码为对应每个预测目标的1×512维“类别token”(每个token对应一个基因或表型);

预测输出:通过全连接层将类别token转换为0-1的预测分数(0=野生型/阴性,1=突变型/阳性);

损失函数:采用加权交叉熵损失(权重为突变频率的倒数),解决罕见突变的类别不平衡问题。

05

数据和方法

研究数据

数据规模与来源

共纳入1912例结直肠癌患者,来自7个独立队列,分为训练集(731例·)、主要测试集(645例)和外部验证集(536例):

数据类型

病理数据:HE染色病理切片(数字化为WSI,分辨率100000×50000像素);

分子数据:全面面板测序数据(覆盖356个基因),包括:

表型:MSI状态(分为MSI和MSS,按Liu等标准定义)、超突变状态;

基因改变:BRAF、RNF43、KRAS、TP53、APC、BMPR2等基因突变(非沉默突变);

临床数据:年龄、性别、种族、肿瘤分期等人口统计学和临床特征。

数据预处理

分子数据:剔除每个类别样本数<20的靶点,确保模型稳定性;连续型靶点按阈值离散化;

病理数据:匿名化处理,统一WSI格式;

研究方法

1.模型训练与验证策略

训练流程:基于训练集(731例)进行七折交叉验证,筛选中位性能最优的模型;将7个模型的预测结果平均,作为最终输出;

性能评估指标:主要用AUROC(受试者工作特征曲线下面积),辅以AUPRC(精确召回曲线下面积)、灵敏度、特异度,应对类别不平衡;

模型比较:通过DeLong检验(双侧)比较多目标模型与单目标模型(针对9个主要靶点)的AUROC差异;比较“含MSI目标的多目标模型”与“不含MSI目标的多目标模型”,评估MSI对预测的影响。

2.共现分析

对GECCO队列的完整基因数据,采用层次聚类(欧氏距离,Ward方法)将基因按共现模式分组;

关联规则挖掘识别基因改变与MSI的共现规律(如“BRAF突变→MSI概率升高”),量化共现强度。

3.可解释性分析

热图生成:用Grad-CAM生成WSI热图,可视化模型关注的高贡献区域(红色=高贡献,蓝色=低贡献);

TopTile分析:提取每个靶点的前20个高注意力tiles,手动审查其形态学特征(如肿瘤结构、细胞类型);

类别token交互:分析解码器中不同靶点类别token的相关性,评估靶点间的预测干扰。

4.统计分析

描述性统计:总结队列人口学和临床特征;

亚组分析:按“MSI/MSS”和“突变/野生型”将样本分为4个亚组,用Mann-Whitney检验(组内)和Wilcoxon检验(组间)分析预测分数差异;

图 1:实验设计、队列特征与预测分析示意图

06

结果与分析

1.模型性能:多目标模型优于或匹配单目标模型

在主要测试集(CRA+WHI)中,多目标模型在关键靶点上表现优异:

外部验证集(TCGA+CPTAC)中,模型性能稳定,如MSI的AUROC在TCGA为0.87、WHI为0.94,BRAF在CRA为0.83。

图 3:多目标Transformer在GECCO外部队列的性能评估

2.基因共现:两大集群区分MSI/MSS关联靶点

层次聚类将基因分为2个核心集群(图2):

集群1:与MSS相关,包括TP53、KRAS、APC,突变频率高但AUROC较低(0.65-0.72);

集群2:与MSI高度共现,包括BRAF、BMPR2、ZNRF3、RNF43,AUROC较高(0.75-0.88),且超突变与该集群显著关联(关联规则支持度>0.8)。

图 2:GECCO队列结直肠癌基因改变共现分析

3.形态学关联:MSI相关形态是预测核心驱动因素

高AUROC靶点(如MSI、BRAF)的预测高度依赖MSI特征形态:髓样生长、大量肿瘤浸润淋巴细胞(TILs)、黏液分化(图6);

集群1靶点(如KRAS)的高注意力区域对应“绒毛状腺瘤伴高级别异型增生”(与已知KRAS突变关联形态一致);

亚组分析显示:在MSS亚组中,集群2靶点(如BMPR2)突变罕见(仅3例),模型区分突变/野生型的能力弱;而在MSI亚组中,预测分数与真实状态高度一致。

图 4:多目标模型的亚组预测分数评估

4.可解释性:模型聚焦肿瘤区域,减少无关干扰

热图显示模型主要关注肿瘤实质区域,对背景、笔痕(病理医生标注痕迹)的注意力极低(<5%);

图 5:代表性样本的预测热图

展示5个GECCO外部验证集样本(A-E)的 “HE切片+热图+预测分数”

样本 5A(WHI 1031786,KRAS 预测)

样本 5B(WHI 1031557,BRAF 预测)

样本 5C(WHI 1031553,超突变预测)

样本 5D(CRA 5531,KRAS 预测)

样本 5E(WHI 1031672,超突变预测)


Top Tile分析验证:MSI的高贡献tiles多为“髓样癌+TILs”,BRAF的高贡献tiles多为“黏液分化区域”,与病理特征一致。

图 6:关键预测靶点的顶级Tile验证

07

讨论

1. 创新方向

技术创新:首次构建“多目标Transformer架构”用于结直肠癌多基因预测,实现“一次训练、多靶点覆盖”,降低计算资源消耗;

方法创新:整合共现分析与形态学可视化,量化基因-形态学关联,填补了“深度学习模型黑箱”的解释性空白;

数据创新:使用1912例多中心数据(含5个GECCO队列+2个公共队列),覆盖更多人群和基因类型,提升模型泛化性。

2. 临床价值

低成本预筛查:HE切片是临床常规检查,无需额外测序,可作为结直肠癌分子标志物的“初筛工具”,减少不必要的高价测序(如仅对模型预测阳性者进行验证);

资源有限地区适配:无需复杂设备,仅需数字化切片即可运行,适合医疗资源不足地区;

诊断流程优化:同时提供多个靶点结果(如MSI、BRAF、RNF43),帮助医生快速制定精准治疗方案(如BRAF突变患者可选用BRAF抑制剂)。

3. 局限性

罕见突变性能不足:样本量<20的罕见突变(如ALK、SMG1)预测AUROC<0.6,需更大样本量优化;

人群代表性不足:队列中白人占75.8%,黑人(4.3%)、亚裔(1.7%)占比低,可能存在种族偏倚;

形态学依赖的局限:模型高度依赖MSI相关形态,对“无典型MSI形态的突变”(如MSS型BRAF突变)预测准确性较低;

4. 技术亮点

特征提取优化:采用预训练的CTransPath提取器,无需微调即可获得高质量病理特征,减少训练成本;

类别不平衡处理:加权交叉熵损失有效解决罕见突变的样本稀缺问题;

可解释性增强:Grad-CAM热图+Top Tile病理审查,使模型预测与临床病理特征对应,提升医生信任度。

http://www.jsqmd.com/news/901328/

相关文章:

  • 2026年靠谱的盐城激光耐高温加工/激光加工/激光局部淬火加工/齿轮激光表面修复加工厂家选择推荐 - 行业平台推荐
  • ALFI:CPU-GPU异构并行架构在潜指纹识别中的极致性能优化实践
  • 速腾聚创RS-M1激光雷达开箱实测:从拆箱到上电,手把手教你避坑布线
  • MySQL/PostgreSQL实战:你的表设计真的规范吗?手把手教你用SQL语句检测范式违反
  • FreeRTOS的configMAX_SYSCALL_INTERRUPT_PRIORITY:你的API安全调用边界设对了吗?
  • Windows 11/10下CUDA 12.1与PyTorch 2.0+的黄金搭档:手把手教你搭建能跑模型的GPU环境
  • Mac本地语音AI助手:基于Ollama与3-Model Chain的完整实现
  • 量子退火求解双目标旅行小偷问题:ε约束法与QUBO建模实践
  • Sci. Adv.(IF=12.5)首都医科大学宣武医院卢洁等团队:一种用于预测乳腺癌新辅助化疗病理完全缓解的多模态全自动系统
  • 怎么用投票小程序创建微信投票(云帆投票三步搞定) - 投票小程序
  • Cortex-M3字节序机制与优化实践
  • Unity游戏开发实战:手把手教你用C#复刻Townscaper的有机网格生成(附完整源码)
  • MathType装完Word里不显示?可能是Office的‘信任中心’在搞鬼,5分钟教你设置好
  • 告别PyCharm红色波浪线:快速修复第三方库识别失败的3种实用方法(含Pythonw.exe选择指南)
  • OpenAPI x-agent-trust扩展:为AI智能体构建API信任机制
  • 2026年质量好的自贡非遗传统花灯/LED花灯/户外花灯/国潮花灯实力工厂推荐 - 品牌宣传支持者
  • MySQL排序规则(Collation)详解:从一次SQL注入报错讲起,如何避免和排查字符集问题
  • Agiwo框架:从工具调用到工作流编排的AI应用架构设计
  • 别再瞎调了!ACfly飞控ADRC参数整定保姆级指南(附Simulink仿真避坑)
  • STM32CubeMX外部中断配置避坑指南:从引脚模式到回调函数,新手常犯的5个错误
  • 从手动整理到智能检索:我用AI工具管理素材库的实践
  • 从庞贝到元宇宙:如何用Blender和Unreal Engine 5重建一座2000年前的古城
  • Nolex:基于本地正则与AI检测的浏览器插件,守护AI交互中的敏感数据安全
  • 从‘调包侠’到‘造轮子’:手把手教你用irGSEA包的思路,打造自己的单细胞分析R包
  • 告别有线烧录:手把手教你用MQTT+HTTP为STM32设备打造无线OTA升级系统(附状态机源码)
  • 使用 Taotoken CLI 工具一键配置多开发环境下的 API 访问密钥
  • 2026年质量好的激光加工/激光熔覆加工/盐城激光耐高温加工批量采购厂家推荐 - 品牌宣传支持者
  • 蓝桥杯单片机DS18B20温度测量:从数据手册到四位小数显示的完整代码解析(含负数处理)
  • 临床验证有效率83.6%的AI冥想引导模板(N=1,247 RCT数据):含5种脑波同步频率精准匹配策略
  • 2026年Snyk与GitLab深度集成:DevSecOps实战配置与优化指南