当前位置：首页 > news >正文

基于可解释AI与核形态分析的淋巴瘤辅助诊断系统实践

news 2026/5/9 13:21:09

1. 项目概述：当AI显微镜遇见淋巴瘤诊断

在病理诊断领域，淋巴瘤的精准分型一直是个“老大难”问题。作为一名长期与病理切片打交道的从业者，我深知，面对一张张在显微镜下看似相似、实则暗藏玄机的淋巴组织图像，即使是经验丰富的病理医生，有时也需要借助复杂的免疫组化、流式细胞甚至分子检测来最终定夺。这个过程耗时、耗力，且高度依赖专家的主观经验。LymphoML这个项目，正是我们团队尝试用可解释人工智能（XAI）和核形态定量分析这两把“新钥匙”，去打开淋巴瘤亚型自动化、标准化诊断大门的一次深度实践。

简单来说，LymphoML的核心思路是：我们不满足于让AI当一个“黑箱”分类器，仅仅给出一个“霍奇金淋巴瘤”或“弥漫大B细胞淋巴瘤”的结论。我们更希望它像一位严谨的病理学助手，不仅能告诉你“是什么”，还能清晰地指出“为什么”——是哪些细胞核的形态特征（比如核的不规则程度、染色质的粗糙度）导致了这样的判断。这背后，是将传统的病理形态学观察，转化为数百个可量化的数字特征，再通过可解释的机器学习模型，找出其中最具鉴别力的“指纹”，最终构建一个既准确又透明的辅助诊断系统。

这个项目适合谁？如果你是病理科医生或技师，想了解AI如何量化你日常观察的细节；如果你是医学AI的研究者或开发者，关心如何在医疗领域构建可信赖的模型；或者你是一名对“AI+医疗”交叉领域感兴趣的技术爱好者，希望看到一个从临床问题出发、到技术实现、再到结果解读的完整案例，那么接下来的内容，或许能给你带来一些直接的参考和启发。

2. 整体设计思路：从“经验之谈”到“数据指纹”

传统的淋巴瘤诊断，很大程度上依赖于病理医生的“模式识别”经验。医生通过显微镜，观察细胞核的大小、形状、染色深浅，核仁是否明显，以及细胞的排列方式等，在心中形成一个综合判断。这个过程精妙但模糊，难以标准化和传承。LymphoML的设计初衷，就是要把这种模糊的“经验之谈”，转化为清晰可比的“数据指纹”。

2.1 为什么选择核形态特征作为突破口？

在众多病理特征中，我们首先聚焦于细胞核的形态。这是基于几个核心考量：

诊断基石：在淋巴瘤的诊断中，细胞核的异型性（ atypia ）是判断良恶性、区分亚型的关键依据。例如，滤泡性淋巴瘤的细胞核通常有裂沟，而套细胞淋巴瘤的细胞核则更规则。
可量化性强：相较于更复杂的组织结构（如“星空现象”）或免疫表型，核的轮廓、面积、纹理等特征更容易从数字病理图像中精确提取和测量。
技术成熟度：计算机视觉在细胞核分割和特征提取方面有相对成熟的方法，为我们提供了可靠的技术起点。

2.2 可解释AI（XAI）的必要性：建立临床信任的关键

在医疗场景中，模型的“黑箱”特性是阻碍其落地应用的最大障碍之一。医生无法信任一个只给结论、不给依据的AI。因此，我们决定从项目伊始就将可解释性作为核心设计原则，而非事后补充。这意味着：

过程透明：我们希望模型能展示，是图像中的哪些区域（哪些细胞）对决策贡献最大。
特征可理解：模型依赖的应该是病理医生能够理解的形态学特征（如“核周长与面积比”代表核的不规则度），而非难以解释的深层神经网络特征。
决策可追溯：对于每一个病例的预测，都能回溯到具体的特征数值和贡献度，方便医生复核和验证。

基于以上思路，我们没有直接采用端到端的深度学习方法（如直接用整张切片训练一个CNN分类器），而是设计了一个**“特征工程 + 可解释模型”** 的两阶段流水线。这虽然可能在绝对精度上稍逊于某些最先进的深度学习模型，但在可解释性、稳定性和医生接受度上具有显著优势。

3. 核心流程拆解：四步构建诊断流水线

LymphoML的实现可以清晰地分为四个核心阶段，下图概括了从一张原始病理切片到最终诊断报告的全过程：

flowchart TD A[输入: 数字病理全切片图像 WSI] --> B[阶段一: 图像预处理与细胞核分割] B --> C[“阶段二: 核形态特征提取<br>（几何、纹理、强度数百维特征）”] C --> D[“阶段三: 特征选择与模型训练<br>（SHAP分析选择关键特征<br>训练可解释分类器如XGBoost）”] D --> E[阶段四: 诊断输出与可视化解读] E --> F[“输出: 亚型诊断预测<br>+ 关键特征贡献度报告<br>+ 可视化热图”]

3.1 阶段一：图像预处理与细胞核精准分割

这是所有后续分析的基础，也是最容易出错的环节。我们的目标是从高分辨率的数字病理全切片图像（Whole Slide Image, WSI）中，准确地“抠出”每一个淋巴细胞核。

实操要点与避坑指南：

颜色归一化：不同医院、不同扫描仪产生的WSI，其染色深浅和色调差异巨大。直接处理会导致特征提取偏差。我们采用了基于稀疏非负矩阵分解（SNMF）的方法进行颜色归一化，将所有图像调整到一个标准的染色空间，这一步至关重要，实测能提升后续模型约5-8%的泛化性能。
感兴趣区域（ROI）提取：一张WSI巨大（通常超过10亿像素），且包含大量无关区域（如脂肪、血管、坏死组织）。我们首先使用一个轻量级的组织分类网络（如MobileNetV2）或基于Otsu阈值化的简单方法，快速定位富含淋巴细胞的肿瘤区域（Tumor Region），只对这些区域进行高精度分析，极大减少了计算量。
细胞核分割：这是核心挑战。我们对比了多种算法：
- 传统方法：如基于颜色反卷积（分离苏木精和伊红染色）后的阈值分割+分水岭算法。优点是速度快、可解释，但对重叠核和染色不均的切片效果不佳。
- 深度学习方法：采用U-Net或HoVer-Net等专门为病理图像设计的网络进行语义分割。HoVer-Net能同时输出核的分割图、分类图（区分上皮细胞、淋巴细胞等）以及每个核的垂直/水平距离图，非常适合后续的特征提取。我们的选择是HoVer-Net，因为它提供了更丰富的上下文信息。
注意：训练分割模型需要大量精细标注的核轮廓数据。我们使用了公开数据集（如MoNuSeg）进行预训练，再用自有数据微调。标注质量直接决定分割精度，建议由至少两名病理医生背对背标注，取交集作为金标准。

3.2 阶段二：核形态特征提取——将视觉转化为数字

分割出成千上万个细胞核后，我们对每一个核计算一组特征向量。这相当于为每个核创建了一份“量化体检报告”。我们主要提取三类特征：

几何形态特征：描述核的形状和大小。
- 基础特征：面积、周长、长轴、短轴。
- 形状描述符：偏心率（圆形度）、紧密度、凸包面积比、Hu矩不变性。例如，“核不规则指数”可以用(周长^2) / (4 * π * 面积)来计算，值越大于1，形状越不规则。
纹理特征：描述核内染色质的分布模式，这对区分不同亚型至关重要。
- 灰度共生矩阵（GLCM）特征：从核区域内计算对比度、相关性、能量、同质性等。例如，小淋巴细胞淋巴瘤的染色质通常呈“块状”或“凝集”状，其GLCM对比度会较高。
- 局部二值模式（LBP）：捕捉核染色质的局部纹理模式。
强度特征：描述核的染色深浅。
- 平均灰度值、灰度标准差、最大/最小灰度值。苏木精染色的深度可以间接反映染色质的密度。

实操心得：单个核的特征维度可能达到上百维。对于每个病例（一张WSI），我们通常计算所有核特征的统计量（如均值、标准差、中位数、偏度、峰度）来代表该病例的整体形态学模式。例如，“核面积的平均值”和“核不规则指数的标准差”可能成为区分亚型的关键。

3.3 阶段三：特征选择与可解释模型训练

现在，我们有了一个高维特征矩阵（样本数 × 特征数）。直接扔进模型会导致维度灾难和过拟合。这里，可解释AI工具SHAP发挥了核心作用。

基于SHAP的特征选择：
- 我们先用一个简单的树模型（如LightGBM）在所有特征上训练一个基线模型。
- 然后计算每个特征对每个预测结果的SHAP值。SHAP值量化了每个特征对模型输出（相对于基线）的贡献度。
- 分析全局SHAP重要性，我们筛选出对区分淋巴瘤亚型贡献最大的前20-30个特征。这个过程本身就有很强的解释性：我们可以告诉医生，模型主要依赖的是“核周长变异系数”、“染色质同质性均值”等这些具体、可理解的形态指标。
模型选型与训练：
- 为什么不是深度学习分类器？尽管CNN在图像分类上很强大，但其决策过程难以追溯到具体的形态学特征。我们选择了XGBoost作为核心分类器。原因如下：
  - 天然的可解释性：XGBoost可以输出特征重要性，并且其决策路径（通过决策树）相对容易理解。
  - 与SHAP完美结合：树模型与SHAP的计算效率高，解释清晰。
  - 对小样本数据友好：在医学领域，标注数据通常有限，XGBoost在中小规模数据集上往往表现稳健。
- 我们将数据按病例划分为训练集、验证集和独立测试集（严格保证同一个病人的所有切片只在同一个集合中，防止数据泄露）。
- 使用网格搜索或贝叶斯优化对XGBoost的超参数（如学习率、树深度、子样本比例）进行调优。

3.4 阶段四：诊断输出与可视化解读

这是将模型结果“翻译”给医生的最后一步，也是建立信任的关键。

预测与置信度：模型输出预测的亚型（如DLBCL, FL, MCL等），同时给出预测概率。我们设定一个置信度阈值（如0.85），低于此阈值的病例，系统会标记为“需人工复核”，避免盲目自信。
生成可解释报告：
- 特征贡献瀑布图：对于单个病例，生成SHAP瀑布图，直观展示是哪些特征将该病例的预测从基线值“推”向了最终结果。例如，报告显示：“该病例被预测为DLBCL，主要因为其‘核面积标准差’（增大）贡献了+0.3概率，‘核圆形度均值’（减小）贡献了+0.2概率。”
- 病例间对比：可以将当前病例的特征值与训练集中典型亚型的特征分布进行比较，用箱线图等形式展示“您的病例在核不规则度上更接近DLBCL群体，而远离FL群体”。
可视化热图：虽然我们的模型基于核特征，但我们可以将重要核的SHAP值映射回原始WSI图像上，生成热力图。高亮显示那些对决策贡献最大的细胞核（例如，贡献DLBCL诊断的核被标为红色），让医生一目了然地看到模型的“注意力”所在。

4. 实操细节与参数化实现

4.1 细胞核分割的实战代码片段

以下是我们使用HoVer-Net推理的核心步骤简化示例：

import torch from hover_net.models.hovernet.net_desc import create_model from hover_net.infer.tile import process_tile # 1. 加载预训练模型 model = create_model('hovernet', 'consep') checkpoint = torch.load('path/to/hovernet_consep.pth') model.load_state_dict(checkpoint['desc']) model.eval() # 2. 将WSI切分成小图块（Tile）进行处理 tile_size = 256 stride = 128 for tile, coord in extract_tiles_from_wsi(wsi_path, tile_size, stride): # 3. 预处理：归一化、转Tensor tile_tensor = preprocess(tile).to(device) # 4. 模型推理 with torch.no_grad(): outputs = model(tile_tensor) # outputs 包含：核预测图、水平/垂直距离图、分类图 # 5. 后处理：将网络输出转换为核的实例分割图 nuclei_inst_map = post_process(outputs) # 6. 将每个图块的实例图拼接回WSI级的大图 assemble_inst_map(nuclei_inst_map, coord)

关键参数说明：

tile_size：需要与模型训练时一致，通常为256x256或512x512。
stride：滑动窗口的步长。小于tile_size意味着有重叠，可以提高分割的连续性，但会增加计算量。我们通常设置为tile_size的一半。
后处理：HoVer-Net的后处理（将距离图转为实例）是关键，涉及距离阈值、分水岭等参数，需要根据自己数据的染色特点进行微调。

4.2 特征提取与数据集构建

分割后，我们得到每个核的轮廓掩膜。特征提取示例：

import cv2 import numpy as np from skimage import feature, measure def extract_nuclei_features(mask, original_image): """从一个核的掩膜中提取特征""" features = {} # 几何特征 contours, _ = cv2.findContours(mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE) cnt = contours[0] area = cv2.contourArea(cnt) perimeter = cv2.arcLength(cnt, True) features['area'] = area features['perimeter'] = perimeter features['circularity'] = (4 * np.pi * area) / (perimeter ** 2) if perimeter > 0 else 0 # 从原图裁剪出核区域，计算纹理和强度 nucleus_region = cv2.bitwise_and(original_image, original_image, mask=mask) gray_region = cv2.cvtColor(nucleus_region, cv2.COLOR_RGB2GRAY) # 强度特征 features['mean_intensity'] = np.mean(gray_region[mask > 0]) features['std_intensity'] = np.std(gray_region[mask > 0]) # 纹理特征 (GLCM) # 注意：GLCM通常在整张图像或大区域上计算更稳定，对于单个小核，结果可能噪声较大。 # 一种实践是对整个病例的核区域聚合计算纹理，或使用LBP。 distances = [1] angles = [0, np.pi/4, np.pi/2, 3*np.pi/4] glcm = feature.graycomatrix(gray_region, distances, angles, symmetric=True, normed=True) features['contrast'] = feature.graycoprops(glcm, 'contrast').mean() features['homogeneity'] = feature.graycoprops(glcm, 'homogeneity').mean() return features

构建病例级特征向量：

import pandas as pd case_features = [] for case_id in all_cases: nuclei_features_list = [] # 存储该病例所有核的特征 for nucleus_mask in extract_nuclei_for_case(case_id): feats = extract_nuclei_features(nucleus_mask, case_image) nuclei_features_list.append(feats) # 计算统计量 df_nuclei = pd.DataFrame(nuclei_features_list) case_feature_vector = {} for col in df_nuclei.columns: case_feature_vector[f'{col}_mean'] = df_nuclei[col].mean() case_feature_vector[f'{col}_std'] = df_nuclei[col].std() case_feature_vector[f'{col}_median'] = df_nuclei[col].median() case_feature_vector['diagnosis'] = get_ground_truth(case_id) # 金标准标签 case_features.append(case_feature_vector) # 最终得到模型可用的数据集 dataset_df = pd.DataFrame(case_features)

4.3 模型训练与SHAP解释

import xgboost as xgb import shap from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report, confusion_matrix # 准备数据 X = dataset_df.drop('diagnosis', axis=1) y = dataset_df['diagnosis'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42) # 训练XGBoost model = xgb.XGBClassifier( n_estimators=200, max_depth=6, learning_rate=0.05, subsample=0.8, colsample_bytree=0.8, random_state=42, use_label_encoder=False, eval_metric='mlogloss' ) model.fit(X_train, y_train) # 评估 y_pred = model.predict(X_test) print(classification_report(y_test, y_pred)) # SHAP解释 explainer = shap.TreeExplainer(model) shap_values = explainer.shap_values(X_train) # 1. 全局特征重要性 shap.summary_plot(shap_values, X_train, plot_type="bar") # 2. 单个病例解释 (瀑布图) case_idx = 0 # 选择测试集中的一个病例 shap.waterfall_plot(explainer.expected_value[0], shap_values[0][case_idx], X_train.iloc[case_idx]) # 3. 依赖图：看某个特征如何影响预测 shap.dependence_plot('nuclear_area_std', shap_values[0], X_train, interaction_index=None)

5. 常见问题、挑战与优化策略

在实际开发和验证LymphoML的过程中，我们遇到了不少典型问题，以下是我们的排查经验和解决方案。

5.1 分割失败：细胞核粘连或断裂

问题现象：分割结果中，多个核被合并成一个实例（粘连），或一个核被分成多个部分（断裂）。
原因分析：
- 粘连：染色过深、核间距过小、分割阈值过低。
- 断裂：染色过浅、核内染色质不均、分割阈值过高或后处理分水岭过分割。
解决方案：
1. 优化预处理：强化颜色归一化，确保染色一致性。尝试不同的颜色反卷积向量（如Macenko方法）。
2. 调整后处理参数：对于HoVer-Net，仔细调整将距离图转换为实例图时的阈值和分水岭参数。这是一个经验性的过程，需要在验证集上反复调试。
3. 使用更先进的网络：可以尝试像Cellpose这样更通用的生物图像分割模型，或者使用带注意力机制的改进U-Net。
4. 数据增广：在训练分割模型时，加入模拟粘连和断裂的增广策略，提升模型鲁棒性。

5.2 特征提取不稳定：同一亚型内差异过大

问题现象：同一诊断亚型的病例，提取出的特征分布非常分散，导致模型难以学习到清晰的判别边界。
原因分析：
- 病例异质性：淋巴瘤本身存在瘤内异质性，同一张切片不同区域的细胞形态可能有差异。
- 技术变异：制片、染色、扫描环节引入的差异。
- 无关细胞干扰：分割时未能完全去除巨噬细胞、成纤维细胞等非淋巴细胞的核。
解决方案：
1. 细胞核分类：在分割后，增加一个核分类步骤。可以训练一个小的CNN分类器，区分淋巴细胞核、粒细胞核、上皮细胞核等。只保留淋巴细胞核进行特征提取。这能显著提升特征的纯净度。
2. 区域采样策略：不从整张切片随机采样核，而是由病理医生或在模型辅助下，在最具代表性的肿瘤区域（如浸润最密集处）划定多个小区域（ROI），只分析这些区域内的核。这能减少瘤内异质性的影响。
3. 特征标准化：对提取的病例级统计特征（如均值、标准差）进行Z-score标准化或分位数归一化，以减小批次效应。

5.3 模型过拟合与泛化能力差

问题现象：在训练集上准确率很高（>95%），但在独立测试集或外部验证集上性能骤降。
原因分析：医学数据量小，特征维度相对较高；数据可能来自单一中心，分布有偏。
解决方案：
1. 严格的特征选择：利用SHAP、LASSO等方法将特征数量压缩到20-30个最具判别力的，这是防止过拟合最有效的手段之一。
2. 使用简单的模型：坚持使用XGBoost、随机森林等传统机器学习模型，而非参数巨大的深度学习模型。
3. 外部验证：务必使用来自不同医院、不同扫描仪、不同染色流程的完全独立的病例集进行最终测试。这是检验模型泛化能力的金标准。
4. 集成学习：可以训练多个基于不同特征子集或不同ROI采样策略的模型，进行软投票集成，提升稳定性。

5.4 可解释结果不被临床医生接受

问题现象：虽然输出了SHAP值和特征重要性，但病理医生反馈“这些特征和我们肉眼看的不是一回事”或“无法理解”。
原因分析：计算机提取的量化特征（如“GLCM对比度”）与医生描述的定性特征（如“染色质呈椒盐状”）存在语义鸿沟。
解决方案：
1. 开展联合工作会议：与病理医生一起，查看SHAP筛选出的Top特征。将高贡献度的特征与具体的细胞图像对应起来。例如，展示“核不规则指数”高的细胞核在显微镜下是什么样子。这个过程能帮助医生建立“数据特征-视觉形态”的映射。
2. 提供视觉证据：将可解释性输出与可视化紧密结合。不仅给出热力图，还可以自动筛选出最具代表性的“典型”细胞核图像（例如，对预测为DLBCL贡献最大的前10个核），并排展示给医生。
3. 迭代特征设计：根据医生反馈，尝试设计更符合其认知习惯的特征。例如，模仿医生“核仁是否明显”的判断，可以设计一个“核内最亮区域与核平均亮度之比”的特征。

6. 项目总结与未来展望

LymphoML项目走到今天，其价值已经超越了单纯构建一个分类模型。它更像是一座桥梁，连接了计算病理学的量化精确性与临床病理学的经验直觉。我们最大的体会是，在医疗AI项目中，技术上的最优解，不一定是临床上的最优解。一个准确率稍低但解释性极强的模型，往往比一个准确率更高但完全黑箱的模型更容易被接受，也更能融入实际工作流。

从技术角度看，基于手工特征和可解释模型的道路，在目前医学数据有限、标注成本高昂的背景下，仍然是一条稳健且高效的路径。它让我们能够更聚焦于医学问题本身，而不是陷入“堆数据、调参数”的无限循环。

当然，这条路也有其局限。手工特征的设计依赖于先验知识，可能无法捕捉到一些人类尚未总结或难以言表的微妙模式。未来的方向，很可能是融合路径：利用深度神经网络强大的特征学习能力，自动从图像中提取丰富的表示，但同时通过注意力机制、概念瓶颈模型等技术，将这些深度特征与可解释的病理学概念（如核多形性、核分裂像等）关联起来，实现“深度性能”与“浅层解释”的结合。

此外，将核形态特征与更高维的组织结构特征（如细胞的空间排列、间质比例）、以及临床信息（如年龄、乳酸脱氢酶水平）进行多模态融合，构建更全面的诊断预测系统，也是极具潜力的方向。

最后，分享一个在部署阶段的小技巧：我们开发了一个轻量级的Web界面，允许病理医生上传WSI，系统在后台运行分析后，不仅返回诊断建议，还生成一份图文并茂的PDF报告，包含关键特征对比图、SHAP解释图和代表性细胞图像。这份报告可以直接附在病理诊断书后面，作为AI辅助诊断的依据，极大地简化了医生的工作流程，也增加了结果的透明度和可信度。技术的终点，永远是更好地服务于人。

查看全文

http://www.jsqmd.com/news/783124/