当前位置：首页 > news >正文

A deep learning model to predict RNA-Seq expression of tumours from whole slide images

news 2026/3/26 19:28:03

一、先用一句人话讲清这篇论文

这篇论文想回答的问题是：

病理图像里，是否藏着足够多的分子信息，以至于 AI 只看 H&E 染色切片，就能猜出很多基因的表达情况？

传统流程是：

肿瘤组织 → 做病理切片 → 医生看形态 如果还想知道基因表达 → 还要单独做 RNA-Seq

这篇论文想变成：

肿瘤切片图像 → AI → 直接预测 RNA-Seq 表达谱

作者用 TCGA 的配对数据训练模型：每个病人同时有whole-slide image（WSI）和对应的RNA-Seq。他们最后证明，模型确实能在很多癌种里预测出相当数量的基因表达，还能把某些基因的高表达区域“画”回切片上，形成热图；而且学到的内部表示还能帮助小样本场景下的 MSI 状态预测。

二、你必须先懂的生物学基础

2.1 基因为什么“工作”时会产生 RNA？

先把细胞想成一家工厂。

DNA：总说明书，长期保存
基因：说明书里某一段具体功能的指令
RNA：从说明书抄出来的工作副本
蛋白质：真正执行功能的成品或机器零件

细胞一般不会反复直接“拿总说明书去车间干活”，而是先把某段 DNA 的内容抄成 RNA，再根据 RNA 去制造蛋白质。这个过程就是：

DNA → RNA → Protein

所以当我们说“某个基因在工作”，本质上是说：
这段 DNA 正在被读取和转录，因而会产生对应的 RNA。

2.2 RNA 多，为什么常常表示基因更活跃？

因为 RNA 可以理解成“这段基因被调用了多少次”的痕迹。

比如：

如果一个基因经常被细胞使用，就会产生很多对应 RNA
如果一个基因几乎不用，就会产生很少 RNA
如果一个基因不表达，RNA 可能接近 0

所以测量 RNA 的数量，就能近似反映：

这个基因在这个样本里活跃到什么程度

论文里要预测的正是这种gene expression，也就是基因表达量。作者用的是 TCGA 的 RNA-Seq 表达数据，并保留了30,839 个中位表达非零的编码/非编码基因作为预测目标。

2.3 RNA-Seq 到底是什么？

RNA-Seq 可以理解成一种“给样本里所有 RNA 做统计”的技术。它的核心目标不是只看某一个基因，而是尽可能全面地得到一张表：

每个基因 → 对应多少 RNA

所以最终会得到一个表达谱，例如论文图 1 里画出的那种“一个样本对应很多基因、每个基因一个数值”的表格概念。

如果用最直白的话说：

RNA-Seq 就是在问：这个肿瘤样本里，每个基因分别说了多少话。

2.4 RNA-Seq 实验逻辑是什么？

对初学者来说，理解到这个层次就够了：

从组织样本中提取 RNA
把 RNA 转换成便于测序的形式
机器读出大量序列片段
把这些片段匹配回参考基因组
统计每个基因匹配到多少片段

于是可以得到：

TP53 的 RNA 多不多
CD3D 的 RNA 多不多
MKI67 的 RNA 多不多

论文里使用的是归一化后的 RNA-Seq 表达值，并对表达量做了log10(1+a)变换，原因是原始表达跨越多个数量级，如果直接做回归，模型会被那些特别高表达的基因主导。

2.5 这里有个重要现实问题：RNA-Seq 测到的是“整块组织的混合结果”

这点和整篇论文最相关。

一块肿瘤切片对应的组织里，通常不只有癌细胞，还混有：

免疫细胞
纤维组织
血管相关细胞
正常组织成分

所以 RNA-Seq 给出的，不是某个局部区域、也不是某单个细胞的表达，而是：

整块样本的混合表达结果

而论文的图像输入又是整张切片。也就是说，模型面对的是：

输入：有空间结构的整张病理图
标签：没有空间分辨率的整张样本 RNA 表达

这正是它必须用弱监督思路的原因。

三、这篇论文到底做了什么

作者从 TCGA 收集了匹配的 WSI 和 RNA-Seq 数据，共8725 名患者、28 种癌症类型，并用这些数据训练一个叫HE2RNA的深度学习模型。模型目标是：从 H&E 染色的 whole-slide image 预测对应样本的 RNA-Seq 表达谱。训练和评估使用了五折交叉验证。

作者把这个模型最终做成了三种能力：

Transcriptome prediction：从图像预测转录组
Virtual spatialization：把预测的基因表达“画”回到图像不同位置
Transfer learning / transcriptomic representation：把模型内部学到的表示转移到其他任务上，例如 MSI 预测

四、病理图像为什么可能预测基因表达？

这是整篇论文最本质的问题。

作者的逻辑并不是“图像直接等于基因”，而是中间有一条生物学链条：

基因表达变化 → 影响细胞行为 → 影响组织结构 → 最终体现在病理形态上

举例：

如果免疫相关基因表达高，切片中往往会出现更多免疫细胞浸润
如果细胞周期/增殖相关基因表达高，组织中可能出现更活跃的分裂模式
如果某些上皮标记相关基因表达高，对应区域可能更像上皮组织

作者的结果也确实支持这一点：他们发现模型最稳定预测成功的一大类基因，与免疫和 T 细胞调节相关；在特定癌种中，又能预测与细胞周期、DNA 损伤应答等通路相关的基因。

五、输入数据是怎么处理的：WSI、tile、feature

5.1 WSI 是什么？

WSI 是whole-slide image，也就是把整张病理切片扫描成超高分辨率数字图像。论文提到，一张 WSI 可达到10 万 × 10 万像素量级。

这就带来一个问题：
图太大，不能直接整张送进神经网络。

5.2 tile 是什么？

所以作者先把每张大切片切成很多小块，叫tiles。
论文里每个 tile 对应实际组织大小是112 × 112 微米，在图像上是224 × 224 像素。

他们用 Otsu 算法去掉白色背景，只保留真正含组织的 tile，并且每张 slide 最多采样8000 个 tile。

你可以把一张 WSI 想成一张超大地图，而 tile 就是把地图切成很多小格子。

5.3 CNN 在这里到底做了什么？

作者并没有从原始像素开始端到端训练一个超大的 CNN。
他们的做法是先用预训练的 ResNet50从每个 tile 提取特征，每个 tile 变成一个2048 维特征向量。这样，一张 slide 最终就可以表示成：

8000 × 2048

的矩阵。

5.4 这一步为什么用 CNN？

因为 CNN 很擅长从图像中提取多层次视觉模式：

前层：边缘、颜色变化、局部纹理
中层：细胞核密度、腺体轮廓、炎症样区域
高层：更复杂的组织学结构

所以在这篇论文里，CNN 更像一个“自动显微镜特征提取器”。
它不直接输出基因表达，而是先把每个 tile 压缩成 2048 维的图像语义描述。

六、supertile 到底是什么，为什么要有它？

这是你之前重点问过的，我这里完整讲。

论文第一阶段为了提升训练效率，没有一开始就用每张图的全部 8000 个 tile，而是先做了一个预处理，把 tile 聚成100 个 clusters，称为supertiles。作者明确说这一步受到了SLIC思想启发，但具体实现是：用k-means根据 tile 在 slide 上的位置做聚类，然后对同一簇内 tile 的 2048 维特征取平均。这样，每张 slide 就从8000 × 2048降成了100 × 2048。

所以 supertile 不是病理学上的天然实体，而是算法里的中间层：

一个 supertile = 一群空间上相近的 tile 的平均表示

6.1 为什么这么做？

原因很现实：

全量 TCGA 数据非常大
直接用10,514 slides × 8000 tiles × 2048 features训练，计算代价很高
把每张 slide 先压成 100 个 supertiles，可以显著加速训练

论文写得很直接：这是在“性能与训练时间之间折中”的方案。作者先在 supertile 预处理后的全 TCGA 数据上训练 200 个 epoch，然后只在少数器官上再用 full-scale data 微调。

6.2 supertile 会不会丢信息？

会丢一部分空间精细度，所以作者后面在做精细的空间定位和某些特定基因热图时，又会回到更细的 full-scale tile 级别。论文也写到：用于 spatialization 的 supertile/ tile 数越多，空间分辨率越高；极限情况是把 8000 个 tile 全部分开处理。

所以你可以把 supertile 理解为：

训练大规模多癌种转录组预测时的“压缩版输入”
细粒度空间可视化时再用更高分辨率 tile

七、HE2RNA 的模型结构到底是什么？

作者明确说，HE2RNA 的主体是一个MLP（multilayer perceptron，多层感知机），它被应用在每个 tile 或 supertile 上。输入矩阵大小是ntiles × 2048，输出矩阵大小是ntiles × ngenes。也就是说：模型会对每个 tile、每个基因产出一个预测分数。

这点很重要：
HE2RNA 不是“整张图进来，直接输出一串基因值”；而是：

每个 tile / supertile → 都先各自产生对每个基因的预测 → 再聚合成 slide-level prediction

7.1 MLP 是什么？

MLP 就是最经典的全连接神经网络。

如果说 CNN/ResNet50 负责把图片变成一串 2048 维特征，
那 MLP 就负责学习：

这串图像特征，如何映射到很多基因表达的预测值

作者解释说，之所以不用简单线性回归，是因为 MLP 可以做多任务学习，利用多个基因之间的相关性。论文还提到，从实现角度看，这相当于对 slide 数据应用一系列kernel size = 1 的 1D convolution。激活函数用的是ReLU，层间用了dropout。

7.2 为什么这算“多任务学习”？

因为模型不是预测一个基因，而是同时预测上万个基因。
论文里 transcriptome prediction 阶段针对的是 30,839 个基因。

所以这不是：

输入图像 → 输出一个标签

而是：

输入图像 → 输出一整条转录组表达谱

这就是多任务学习：
一个共享的模型，同时完成很多相关的预测任务。

八、为什么它叫“弱监督学习”？

这是整篇论文最难但也最关键的一点。

8.1 什么叫强监督？

最普通的图像分类就是强监督：

输入：一张猫的图
标签：猫

输入和标签是一一对齐的。

8.2 这篇论文为什么不是强监督？

因为模型内部其实在处理很多 tile，但是它没有 tile 级标签。
它真正拥有的标签只有：

整张 slide 的 RNA-Seq 表达值

换句话说，它知道：

这张切片整体上 CD3D 表达高

但它不知道：

到底是左上角高 还是中间高 还是右下角高

所以：

输入层面是局部 tile
标签层面却只有整张 slide

这就是弱监督。论文也明确称它是multitask weakly supervised approach。

8.3 用一个直觉例子理解

想象你吃一锅火锅，然后给整锅打分 9 分。
但我现在想训练一个模型，让它知道：

牛肉贡献了多少
豆腐贡献了多少
蘑菇贡献了多少

问题是你没有给每种食材单独打分，只给了“整锅 9 分”。

那模型只能通过很多很多不同火锅的统计规律去反推：

哪些局部模式更可能对应高总分

这就是这篇论文的情况：
有 slide 总标签，没有 tile 局部标签。

九、聚合（aggregation）具体是怎么做的？

这是你前面第二个重点问题，我这里讲到最完整。

论文说得非常清楚：模型先输出每个 gene、每个 tile 的分数，但真实值只有 slide 级，所以 tile 预测必须先聚合，才能和真实 RNA-Seq 做比较。

9.1 训练阶段不是简单平均，而是“随机 top-k 平均”

论文使用的聚合策略是：

对某个基因，把一张 slide 上所有 tile/supertile 的预测分数从高到低排序
在每次训练迭代时，随机从一个候选列表里抽一个k
只取最高的 k 个 tile 预测做平均，作为这个基因在该 slide 上的预测值

论文给出的公式是：

[
S(k)=\frac{1}{k}\sum_{i=1}^{k} s_i
]

其中 (s_i) 是按从大到小排序后的 tile 预测分数。

9.2 这个 k 从哪来？

对 supertile 预处理数据（100 个 supertile），k从
(1, 2, 5, 10, 20, 50, 100)中随机采样
对 full-scale 数据（8000 个 tile），k从
(10, 20, 50, 100, 200, 500, 1000, 2000, 5000)中随机采样

9.3 为什么这么设计？

作者的直觉是：他们预测的是log gene expression，所以表达最高的那些局部区域应该贡献更大。与其把所有 tile 一视同仁平均，不如让模型更关注“最可能高表达的区域”。

从机器学习角度看，这还有两个好处：

强调最相关区域
通过随机 k 增加任务难度，减少过拟合，起到正则化作用

论文也明确说，这种stochastic aggregation会增加任务难度，从而降低 overfitting。

9.4 推理阶段怎么做？

训练时随机抽 k；
但推理时，作者会把所有可能的 k 对应的 slide-level prediction 先分别算出来，再对这些结果取平均：

[
S=\frac{1}{|L|}\sum_{k\in L}S(k)
]

论文说明，这等价于一种带权平均：预测高的 tile 会被赋予更大的权重。

所以你之前问“论文里说 weighted mean，到底怎么实现”，更准确的说法是：

不是先手写一组固定权重，而是先做多种 top-k 平均，再把这些 top-k 结果平均；其效果等价于对 tile 预测做一种偏向高分 tile 的加权平均。

十、整个训练流程到底是什么？

把所有部分拼起来，一张 slide 在 HE2RNA 里大致是这样流动的：

WSI → 切成很多 tile → 用 Otsu 去掉背景 → 用 ResNet50 提取每个 tile 的 2048 维特征 → （大规模训练时）按位置聚成 100 个 supertile，并平均特征 → 把每个 tile / supertile 的 2048 维向量送入 MLP → 得到每个 tile / gene 的预测分数 → 用 stochastic top-k aggregation 聚成 slide-level gene prediction → 和真实 RNA-Seq 表达计算损失 → 反向传播更新参数

训练上，作者使用了：

Adam optimizer
学习率3 × 10^-4
supertile 预处理时 batch size = 16
full-scale 时 batch size = 4
五折交叉验证
全 TCGA 上最多训练 200 epoch，并用验证集相关性早停。

十一、Pearson correlation 到底是什么，论文为什么用它？

论文最主要的性能指标是Pearson correlation coefficient，记作 R。作者是按癌种分别、对每个基因计算：模型预测值与真实 RNA-Seq 值在病人之间的相关性。

11.1 它测量的到底是什么？

不是“值一模一样”，而是：

真实值高的时候，预测值是否也高；真实值低的时候，预测值是否也低。

也就是“同步涨跌程度”。

R = 1：完全正相关
R = 0：没有线性相关
R = -1：完全负相关

所以 Pearson R 更看重趋势对不对，而不一定要求绝对数值一模一样。

11.2 为什么这里不用准确率？

因为基因表达是连续值，不是“有/没有”的分类标签。
连续回归问题更适合用：

相关性
均方误差
排序一致性

这篇论文选择 Pearson correlation 来衡量“预测表达与真实表达是否同步变化”。

十二、论文结果到底有多好？

作者报告，在 Holm–Šidák 多重比较校正下，平均每种癌症可显著预测3627 个基因；若用 Benjamini–Hochberg 调整，则平均可达12,853 个基因。结果会随癌种样本量变化很大：数据越多，统计显著所需的相关性阈值越低。比如 DLBC 只有 44 个样本，只显著预测了 7 个基因；而 LUNG 有 1046 个样本，可显著预测 15,391 个基因。

从图 2 的分析看，很多最容易预测的基因与免疫和 T/NK 细胞浸润有关，比如 C1QB、NKG7、C1QA、CD53 等。

此外，作者还按通路看结果。对于癌症 hallmark 相关基因集，HE2RNA 对B 细胞免疫和 T 细胞免疫通路的预测尤其强，在 28 个癌种里分别有75% 和 86%的癌种，其通路平均相关性显著优于随机基因集。

十三、为什么免疫相关基因最容易预测？

从论文结果看，这是最稳定的一类信号。原因很好理解：

免疫细胞浸润会显著改变组织形态
在 H&E 图上，淋巴细胞往往有相对清晰的形态特征
所以图像更容易“看出”免疫相关表达

论文的 pathway analysis 也支持这一点：跨癌种稳定预测成功的 156 个基因，富集在Th1/Th2 activation、TCR signaling、CD28 signaling、iCOS-iCOSL signaling等免疫通路。

十四、Virtual Spatialization 到底是什么？

这是你之前问“完全没懂”的地方，我这里把它讲到透。

14.1 一句话版本

虽然真实 RNA-Seq 只有整张切片的总表达，但模型可以给每个 tile 一个分数，把这些分数画回原图，于是形成“这个基因大概在哪些区域高表达”的热图。

论文图 1 里把它列为 HE2RNA 的第二项能力：对每个预测成功的基因，可以在切片上计算 tile-level score，并把它解释为该 tile 的预测表达，用来生成 heatmap。

14.2 为什么叫“virtual”？

因为这不是真正实验测得的空间转录组。
真实的空间转录组技术是直接测不同空间位置的 RNA。

而这篇论文只有：

H&E 图像
整张 slide 的 RNA 标签

所以每个 tile 的表达是模型推断出来的，不是直接测出来的，因此叫：

virtual spatialization / virtual spatialization map。

14.3 它在技术上怎么实现？

其实很简单：

平时做 slide-level 训练时，需要把 tile 结果做 aggregation
但当你要画空间热图时，直接省略 aggregation
把每个 tile 的分数当作该 tile 的预测表达

论文方法部分明确写道：
为了生成 virtual spatialization map，作者simply omit this aggregation step and interpret the score of a tile as the predicted gene expression for this tile。

所以 Virtual Spatialization 的本质就是：

把原本只用于中间计算的 tile 分数，直接可视化。

十五、这个热图不是“瞎画”吗？作者怎么验证它是真的？

这是论文最漂亮的部分之一。

15.1 T 细胞验证：CD3

作者选了 T 细胞相关基因：CD3D、CD3E、CD3G、CD247。在外部 LIHC 样本上，他们做了同一张切片的 H&E-CD3 双染，然后比较：

H&E 图上模型预测的 CD3 表达热图
CD3 免疫染色里真实的 T 细胞数量

结果 tile-level 相关性达到Rtile = 0.51，p < 10^-4。而且预测值最高的 100 个 tile 里，T 细胞中位数是36，而整张切片 28,123 个 tile 的中位数只有4。

这说明：

模型认为“CD3 高”的地方，真实 T 细胞确实更多。

15.2 B 细胞验证：CD19 / CD20

作者也构建了 B-cell model，并在 H&E-CD20 双染切片上验证。结果：

T-cell model 对 B 细胞数量的相关性：Rtile = 0.19
B-cell model 对 B 细胞数量的相关性：Rtile = 0.23

而在多个阈值下区分“B 细胞较多 tile”的 ROC-AUC 上，B-cell model 也通常优于 T-cell model，比如在最高阈值n = 11时，B-cell model AUC 达到0.89，T-cell model 为0.81。

这说明模型不仅能看出“这里有淋巴细胞”，还在一定程度上区分了T 细胞 vs B 细胞。

15.3 淋巴细胞 tile 分类验证

作者还在一个包含 86 张 CRC 切片的标注 tile 数据集上验证，发现用这些免疫相关基因预测值来区分“淋巴细胞 tile”和其他类别 tile，整体 AUC 达到0.94。

15.4 上皮区域验证

在 PESO 前列腺上皮分割数据集上，作者训练预测TP63、KRT8、KRT18，再把 tile-level 预测和真实上皮 mask 的面积比例比较，得到Rtile = 0.41，p < 10^-4。

15.5 增殖区域验证：MKI67

在独立的 LIHC 数据集（369 张 slide，194 名患者）上，作者训练了MKI67预测。结果发现，高 MKI67 预测 tile 几乎总位于肿瘤区：预测最高的 10,000 个 tile 中有94%在肿瘤区，而整套数据里肿瘤 tile 只占57%。按 slide 区分肿瘤 vs 健康组织的平均 AUC 为0.65，中位 AUC 为0.67；在 BCLC stage C 的晚期肿瘤中，AUC 平均值升到0.74。此外，sample-wise 的 MKI67 预测还能以AUC = 0.80区分 BCLC stage C 与 A/B。

十六、Transcriptomic representation 是什么？

作者在图 1 和 MSI 部分都强调了一个概念：
HE2RNA 在学“图像 → 转录组”的过程中，不只是吐出预测值，还会在最后隐藏层学到一个低维表示，论文称之为transcriptomic representation。它对应的是网络最后隐藏层的特征向量。

直觉上，这个向量可以理解为：

模型压缩总结出来的、最有助于解释转录组信息的图像表示

它比原始图像特征更“分子化”，因为它是在预测转录组任务中学出来的。

十七、MSI 那部分到底做了什么？

17.1 MSI 是什么？

论文介绍，MSI（microsatellite instability）是由于 DNA 复制错误修复失败，导致微卫星区域不稳定的现象。MSI-H已被认为与免疫治疗响应有关，因此在结直肠癌、胃癌等肿瘤中具有临床意义。

17.2 作者的想法

他们并不是只想证明“图像能预测转录组”，还想证明：

学到的 transcriptomic representation 真的有用。

所以他们设计了一个“医院 A / 医院 B”的模拟流程：

在 hospital A 的数据上，只训练 transcriptome prediction
把学到的 transcriptomic representation 拿到 hospital B
在 hospital B 的少量样本上训练 MSI 分类器
与“直接用 WSI 做 MSI 分类”相比，看谁更好

17.3 具体模型怎么设？

在 MSI 任务中，作者用了简化版 HE2RNA：
每张 slide 先把所有 tile 的 ResNet50 表示做平均，相当于只保留1 个 supertile。然后用一个两层隐藏层 MLP（1024、256）预测 28,334 个基因。这个 256 维隐藏层表示，就是迁移到 hospital B 的 transcriptomic representation。

然后在 hospital B 上，作者比较：

直接基于 WSI 平均特征训练的 MSI 分类器
基于 transcriptomic representation 训练的 MSI 分类器
基于 autoencoder 低维表示训练的分类器

17.4 结果说明了什么？

结论是：

当 hospital B 训练样本很多时，直接用 WSI 做 MSI 分类并不差，甚至在某些数据集上略好
当 hospital B 样本少时，先在 hospital A 学转录组，再迁移 transcriptomic representation 到 hospital B，效果更好

例如在 regime 2（hospital B 只占 25% 数据）时：

TCGA-CRC-DX：Transcriptomic 0.81 vs WSI 0.71 vs Kather 方法 0.68
TCGA-CRC-KR：0.79 vs 0.72 vs 0.63
TCGA-STAD：0.66 vs 0.63 vs 0.65

这说明 transcriptomic representation 在小样本场景下确实能提供更有用的先验。

十八、这篇论文真正的创新点是什么？

我认为有四个层次。

18.1 创新 1：从“预测单一分子特征”走向“系统预测转录组”

在这篇论文前，已经有工作尝试从病理图像预测：

基因突变
肿瘤突变负荷
某些特定分子标签

而这篇论文把目标升级成：
系统性预测 RNA-Seq profile。

18.2 创新 2：把弱监督 tile-level 预测做成可解释热图

因为模型先有 tile 级预测，再做聚合，所以它天然能把预测值映射回空间位置。论文不是只报数字，还用 CD3/CD20 双染和外部数据验证了空间热图的真实性。

18.3 创新 3：学到一个可迁移的 transcriptomic representation

这让模型不只是“一个预测器”，而更像一个先在大规模分子任务上预训练、再迁移到小样本临床任务的表征学习器。

18.4 创新 4：把病理形态和分子层面真正接上了

它给出的不是“纯黑箱的诊断标签”，而是一个更强的论点：

病理图像里确实包含广泛的分子信号。

这对计算病理学是很重要的一步。

十九、这篇论文有哪些局限，你读的时候要警惕什么？

虽然论文很强，但不能神化。至少有下面几类局限。

19.1 标签是 bulk RNA，不是空间真值

模型学的是：

整张图
对应整块样本的总 RNA

所以 tile-level 热图本质上仍然是推断，不是真实空间转录组。作者虽然做了外部验证，但验证规模仍然有限，比如 CD3 和 CD20 双染各只做了单张双染 slide。

19.2 性能受样本量影响很大

论文结果非常依赖癌种数据量。小癌种由于样本少，显著预测的基因数会急剧下降，例如 DLBC 只有 7 个显著基因，而大癌种 LUNG 则很多。

这说明模型并不是“什么癌种都一样强”。

19.3 模型擅长的可能主要是形态信号很强的基因

比如免疫相关基因、增殖相关基因，因为它们的形态后果更明显。
而那些对组织形态影响不直接、或空间上更隐蔽的基因，可能就不容易预测。

这一点也能从 housekeeping gene 的对照实验看出来：
这些表达变化很小、缺乏明显病理形态差异的基因，模型预测并不优于随机基因集。

19.4 Pearson 高，不等于数值完全精确

模型主要说明“趋势能跟上”，即真实高时预测也高；但这不等于绝对表达量逐点精确重建。论文核心指标也是相关性，而不是绝对误差。

19.5 临床可用性还需要更大规模、更外部的验证

虽然 MSI 转移学习结果很有意思，但离真正临床部署还需要更多：

多中心外部验证
更严格的批次/扫描仪差异测试
更清晰的亚组分析
与现有临床流程的成本-收益比较

这些在论文里并没有完全解决。

二十、如果你现在要把这篇论文复述给别人，最标准的说法

你可以这样讲：

这篇论文提出了 HE2RNA，一个基于数字病理的深度学习模型。作者利用 TCGA 中 8725 名患者、28 个癌种的配对 WSI 和 RNA-Seq 数据，训练模型从 H&E 全切片图像预测转录组表达。技术上，作者先把 WSI 切成 tile，用 ResNet50 提取每个 tile 的 2048 维特征，在大规模训练阶段再把空间相近的 tile 聚成 100 个 supertile；随后用 MLP 对每个 tile/supertile、每个基因输出预测分数，并通过随机 top-k 平均的弱监督聚合方式得到 slide-level 表达预测。模型在多癌种中平均可显著预测数千个基因，尤其对免疫相关和细胞周期相关基因表现较好。由于模型保留了 tile-level 分数，作者还能把基因表达“画”回切片，形成 virtual spatialization heatmap，并用 CD3/CD20 双染、上皮分割和 MKI67 数据做了外部验证。进一步地，作者把模型学到的 transcriptomic representation 迁移到 MSI 预测任务，在小样本场景下优于直接基于 WSI 的分类方法。