当前位置：首页 > news >正文

Lancet Digital Health（IF=24.1）德国德累斯顿工业大学医学院：深度学习评估结直肠癌的基因型-表型相关性

news 2026/5/28 5:53:13

文献信息

本次分享的文献是由德国德累斯顿工业大学 Else Kröner-Fresenius 数字健康中心Jakob Nikolas Kather教授团队联合德国海德堡国家肿瘤疾病中心、奥地利维也纳医科大学、美国梅奥诊所、世界卫生组织国际癌症研究机构等10余家机构与2025年8月在柳叶刀子刊《Lancet Digital Health》（中科院1区，IF=24.1）上发表的研究“Assessing genotype−phenotype correlations in colorectal cancer with deep learning: a multicentre cohort study”即利用深度学习评估结直肠癌的基因型 - 表型相关性：一项多中心队列研究，开发并验证一种多靶点Transformer深度学习模型，利用结直肠癌H&E染色的数字病理切片，同时预测多种基因突变与分子标志物状态（如MSI、BRAF、KRAS、RNF43、BMPR2等），以探索基因型–表型之间的联系。研究包含来自七个独立队列共1912例患者，模型实现了对多种遗传改变的高精度预测，并揭示了与MSI形态学特征共享的深度学习可解释模式。

研究背景

1. 研究问题

现有基于深度学习的结直肠癌分子标志物预测研究存在两大局限：

单一目标聚焦：多数研究仅针对单个标志物（如MSI、BRAF、KRAS），缺乏对多种基因改变的系统预测，无法满足临床对多靶点评估的需求；

混淆效应忽视：未充分考虑基因改变的共现性（如BRAF突变与MSI常同时出现）及共享形态学特征（如MSI与BRAF突变均关联黏液分化）对预测结果的干扰，可能导致模型偏倚。

2. 研究难点

数据稀缺：缺乏覆盖多人群、多中心的“病理切片-全基因组测序”匹配数据集，难以支撑多目标模型训练；

资源消耗大：传统单目标模型需为每个预测靶点单独训练，耗时且占用大量计算资源，临床转化效率低。

3. 解决思路

构建多目标Transformer架构，实现“一次训练、多靶点预测”，降低资源消耗；

整合多中心队列数据（含测序与病理信息），覆盖更多基因改变类型；

通过共现分析和形态学可视化，量化基因共现与共享形态学的影响，提升模型解释性。

研究目标

开发基于深度学习的多目标模型，从结直肠癌HE染色切片中同时预测多种基因改变及表型（包括MSI、超突变、BRAF、RNF43、KRAS等）；

验证模型在外部队列中的通用性，并比较其与单目标模型的性能差异；

分析基因改变的共现模式及与形态学特征的关联，揭示基因型-表型相互作用机制；

评估模型的临床应用潜力，为结直肠癌精准诊断提供工具。

模型架构

多目标Transformer模型架构

Transformer编码器-解码器架构

图像预处理：将全切片图像（WSI）分割为224×224像素的tiles（对应256×256μm组织区域），通过亮度阈值（≥224）和Canny边缘检测（边缘像素≤2%）剔除背景和模糊tiles；

特征提取：使用预训练的CTransPath特征提取器（固定参数，不微调）提取每个tile的768维特征向量；

特征降维：通过全连接层将768维特征投影到512维，降低模型复杂度并提升计算效率；

编码-解码：

编码器：处理降维后的tile特征，生成编码token；

解码器：将编码token解码为对应每个预测目标的1×512维“类别token”（每个token对应一个基因或表型）；

预测输出：通过全连接层将类别token转换为0-1的预测分数（0=野生型/阴性，1=突变型/阳性）；

损失函数：采用加权交叉熵损失（权重为突变频率的倒数），解决罕见突变的类别不平衡问题。

数据和方法

研究数据

数据规模与来源

共纳入1912例结直肠癌患者，来自7个独立队列，分为训练集（731例·）、主要测试集（645例）和外部验证集（536例）：

数据类型

病理数据：HE染色病理切片（数字化为WSI，分辨率100000×50000像素）；

分子数据：全面面板测序数据（覆盖356个基因），包括：

表型：MSI状态（分为MSI和MSS，按Liu等标准定义）、超突变状态；

基因改变：BRAF、RNF43、KRAS、TP53、APC、BMPR2等基因突变（非沉默突变）；

临床数据：年龄、性别、种族、肿瘤分期等人口统计学和临床特征。

数据预处理

分子数据：剔除每个类别样本数<20的靶点，确保模型稳定性；连续型靶点按阈值离散化；

病理数据：匿名化处理，统一WSI格式；

研究方法

1.模型训练与验证策略

训练流程：基于训练集（731例）进行七折交叉验证，筛选中位性能最优的模型；将7个模型的预测结果平均，作为最终输出；

性能评估指标：主要用AUROC（受试者工作特征曲线下面积），辅以AUPRC（精确召回曲线下面积）、灵敏度、特异度，应对类别不平衡；

模型比较：通过DeLong检验（双侧）比较多目标模型与单目标模型（针对9个主要靶点）的AUROC差异；比较“含MSI目标的多目标模型”与“不含MSI目标的多目标模型”，评估MSI对预测的影响。

2.共现分析

对GECCO队列的完整基因数据，采用层次聚类（欧氏距离，Ward方法）将基因按共现模式分组；

用关联规则挖掘识别基因改变与MSI的共现规律（如“BRAF突变→MSI概率升高”），量化共现强度。

3.可解释性分析

热图生成：用Grad-CAM生成WSI热图，可视化模型关注的高贡献区域（红色=高贡献，蓝色=低贡献）；

TopTile分析：提取每个靶点的前20个高注意力tiles，手动审查其形态学特征（如肿瘤结构、细胞类型）；

类别token交互：分析解码器中不同靶点类别token的相关性，评估靶点间的预测干扰。

4.统计分析

描述性统计：总结队列人口学和临床特征；

亚组分析：按“MSI/MSS”和“突变/野生型”将样本分为4个亚组，用Mann-Whitney检验（组内）和Wilcoxon检验（组间）分析预测分数差异；

图 1：实验设计、队列特征与预测分析示意图

结果与分析

1.模型性能：多目标模型优于或匹配单目标模型

在主要测试集（CRA+WHI）中，多目标模型在关键靶点上表现优异：

外部验证集（TCGA+CPTAC）中，模型性能稳定，如MSI的AUROC在TCGA为0.87、WHI为0.94，BRAF在CRA为0.83。

图 3：多目标Transformer在GECCO外部队列的性能评估

2.基因共现：两大集群区分MSI/MSS关联靶点

层次聚类将基因分为2个核心集群（图2）：

集群1：与MSS相关，包括TP53、KRAS、APC，突变频率高但AUROC较低（0.65-0.72）；

集群2：与MSI高度共现，包括BRAF、BMPR2、ZNRF3、RNF43，AUROC较高（0.75-0.88），且超突变与该集群显著关联（关联规则支持度>0.8）。

图 2：GECCO队列结直肠癌基因改变共现分析

3.形态学关联：MSI相关形态是预测核心驱动因素

高AUROC靶点（如MSI、BRAF）的预测高度依赖MSI特征形态：髓样生长、大量肿瘤浸润淋巴细胞（TILs）、黏液分化（图6）；

集群1靶点（如KRAS）的高注意力区域对应“绒毛状腺瘤伴高级别异型增生”（与已知KRAS突变关联形态一致）；

亚组分析显示：在MSS亚组中，集群2靶点（如BMPR2）突变罕见（仅3例），模型区分突变/野生型的能力弱；而在MSI亚组中，预测分数与真实状态高度一致。

图 4：多目标模型的亚组预测分数评估

4.可解释性：模型聚焦肿瘤区域，减少无关干扰

热图显示模型主要关注肿瘤实质区域，对背景、笔痕（病理医生标注痕迹）的注意力极低（<5%）；

图 5：代表性样本的预测热图

展示5个GECCO外部验证集样本（A-E）的 “HE切片+热图+预测分数”

样本 5A（WHI 1031786，KRAS 预测）

样本 5B（WHI 1031557，BRAF 预测）

样本 5C（WHI 1031553，超突变预测）

样本 5D（CRA 5531，KRAS 预测）

样本 5E（WHI 1031672，超突变预测）

Top Tile分析验证：MSI的高贡献tiles多为“髓样癌+TILs”，BRAF的高贡献tiles多为“黏液分化区域”，与病理特征一致。

图 6：关键预测靶点的顶级Tile验证

讨论

1. 创新方向

技术创新：首次构建“多目标Transformer架构”用于结直肠癌多基因预测，实现“一次训练、多靶点覆盖”，降低计算资源消耗；

方法创新：整合共现分析与形态学可视化，量化基因-形态学关联，填补了“深度学习模型黑箱”的解释性空白；

数据创新：使用1912例多中心数据（含5个GECCO队列+2个公共队列），覆盖更多人群和基因类型，提升模型泛化性。

2. 临床价值

低成本预筛查：HE切片是临床常规检查，无需额外测序，可作为结直肠癌分子标志物的“初筛工具”，减少不必要的高价测序（如仅对模型预测阳性者进行验证）；

资源有限地区适配：无需复杂设备，仅需数字化切片即可运行，适合医疗资源不足地区；

诊断流程优化：同时提供多个靶点结果（如MSI、BRAF、RNF43），帮助医生快速制定精准治疗方案（如BRAF突变患者可选用BRAF抑制剂）。

3. 局限性

罕见突变性能不足：样本量<20的罕见突变（如ALK、SMG1）预测AUROC<0.6，需更大样本量优化；

人群代表性不足：队列中白人占75.8%，黑人（4.3%）、亚裔（1.7%）占比低，可能存在种族偏倚；

形态学依赖的局限：模型高度依赖MSI相关形态，对“无典型MSI形态的突变”（如MSS型BRAF突变）预测准确性较低；

4. 技术亮点

特征提取优化：采用预训练的CTransPath提取器，无需微调即可获得高质量病理特征，减少训练成本；

类别不平衡处理：加权交叉熵损失有效解决罕见突变的样本稀缺问题；

可解释性增强：Grad-CAM热图+Top Tile病理审查，使模型预测与临床病理特征对应，提升医生信任度。

查看全文

http://www.jsqmd.com/news/901328/

2026年靠谱的盐城激光耐高温加工/激光加工/激光局部淬火加工/齿轮激光表面修复加工厂家选择推荐 - 行业平台推荐

ALFI：CPU-GPU异构并行架构在潜指纹识别中的极致性能优化实践

速腾聚创RS-M1激光雷达开箱实测：从拆箱到上电，手把手教你避坑布线

MySQL/PostgreSQL实战：你的表设计真的规范吗？手把手教你用SQL语句检测范式违反

FreeRTOS的configMAX_SYSCALL_INTERRUPT_PRIORITY：你的API安全调用边界设对了吗？

Windows 11/10下CUDA 12.1与PyTorch 2.0+的黄金搭档：手把手教你搭建能跑模型的GPU环境

Mac本地语音AI助手：基于Ollama与3-Model Chain的完整实现

量子退火求解双目标旅行小偷问题：ε约束法与QUBO建模实践

Sci. Adv.（IF=12.5）首都医科大学宣武医院卢洁等团队：一种用于预测乳腺癌新辅助化疗病理完全缓解的多模态全自动系统

怎么用投票小程序创建微信投票（云帆投票三步搞定） - 投票小程序

Cortex-M3字节序机制与优化实践

Unity游戏开发实战：手把手教你用C#复刻Townscaper的有机网格生成（附完整源码）

MathType装完Word里不显示？可能是Office的‘信任中心’在搞鬼，5分钟教你设置好

告别PyCharm红色波浪线：快速修复第三方库识别失败的3种实用方法（含Pythonw.exe选择指南）

OpenAPI x-agent-trust扩展：为AI智能体构建API信任机制

2026年质量好的自贡非遗传统花灯/LED花灯/户外花灯/国潮花灯实力工厂推荐 - 品牌宣传支持者

MySQL排序规则（Collation）详解：从一次SQL注入报错讲起，如何避免和排查字符集问题

Agiwo框架：从工具调用到工作流编排的AI应用架构设计

别再瞎调了！ACfly飞控ADRC参数整定保姆级指南（附Simulink仿真避坑）

STM32CubeMX外部中断配置避坑指南：从引脚模式到回调函数，新手常犯的5个错误

从手动整理到智能检索：我用AI工具管理素材库的实践

从庞贝到元宇宙：如何用Blender和Unreal Engine 5重建一座2000年前的古城

Nolex：基于本地正则与AI检测的浏览器插件，守护AI交互中的敏感数据安全

从‘调包侠’到‘造轮子’：手把手教你用irGSEA包的思路，打造自己的单细胞分析R包

告别有线烧录：手把手教你用MQTT+HTTP为STM32设备打造无线OTA升级系统（附状态机源码）

使用 Taotoken CLI 工具一键配置多开发环境下的 API 访问密钥

2026年质量好的激光加工/激光熔覆加工/盐城激光耐高温加工批量采购厂家推荐 - 品牌宣传支持者

蓝桥杯单片机DS18B20温度测量：从数据手册到四位小数显示的完整代码解析（含负数处理）

临床验证有效率83.6%的AI冥想引导模板（N=1,247 RCT数据）：含5种脑波同步频率精准匹配策略

2026年Snyk与GitLab深度集成：DevSecOps实战配置与优化指南

相关文章：