当前位置：首页 > news >正文

首尔国立大学的这项新技术让病理分析效率提升百倍

news 2026/7/24 14:11:48

这项由首尔国立大学与OGQ公司、LG CNS联合开展的研究，以预印本形式于2026年5月28日发布在arXiv平台，编号为arXiv:2605.29429。研究提出了一种名为"Chain-of-Prompts（CoP，提示链）"的全新框架，专门解决医学图像中细胞自动识别与分割这一长期困扰研究者的难题。

**一场没有终点的"点名"游戏**

病理医生每天面对的显微镜图像，往往密密麻麻地排布着数百甚至数千个细胞。要让计算机准确识别并勾勒出每一个细胞的轮廓，传统做法就像班主任在一张大合影前挨个点名——对着照片里的每一张脸逐一确认，"这是小明，这是小红，这是小刚……"当一张图里有几百张脸时，这份工作量之大可想而知。

然而医学图像分析的现实需求恰恰如此。计算病理学（通俗地说，就是用计算机代替人眼来分析病理切片）是现代医学诊断中越来越重要的工具，而其中最基础的环节之一，就是"细胞实例分割"——不仅要找到图像里有哪些细胞，还要精确勾勒出每个细胞的边界，就像用马克笔把照片里每个人的轮廓都描出来，而且每个人的线条不能相互重叠混淆。

现有的计算机视觉模型在处理这个问题时面临一个根本性困境。那些专门为细胞分析训练的模型，本质上是靠"死记硬背"来工作的：研究者花大量时间标注特定类型的细胞，模型就把这些细胞的长相记住，以后看到类似的就认出来。这套方法在训练时见过的细胞上表现不错，但一旦遇到没见过的细胞类型，性能就会急剧下滑。就像一个只见过中国人脸的人，突然被送到北欧，认人的准确率就会大打折扣。

在原论文给出的具体数字中，这种"认生"程度令人印象深刻。以文章中演示的一张含有未见过细胞类型的病理图像为例，某个无监督训练的方法得到的AJI（一种衡量分割准确度的指标，数值越高越好，满分为1）只有0.133，某个经过完整监督训练的方法也只达到0.228。AJI这个数值可以理解为"计算机勾勒的细胞轮廓与真实轮廓的重合程度"——分数越低，说明计算机要么漏掉了很多细胞，要么把边界画得乱七八糟。

近年来，以SAM（Segment Anything Model，"分割任何东西"模型）为代表的通用交互式分割模型提供了另一种思路。这类模型不需要专门学习某种细胞，只需要用户用鼠标点一下目标，它就能自动勾勒出轮廓。理论上这解决了"认生"问题，因为不管什么类型的细胞，只要点一下，模型就能处理。然而问题也随之而来：一张有245个细胞的图像，就需要点击245次。把这个乘以临床实践中每天要处理的大量病理切片，这个方案的可操作性几乎为零。

正是在这个背景下，首尔国立大学的研究团队提出了一个简洁而巧妙的问题：有没有可能只点击一次，就让计算机自动找到图像里所有同类细胞？

**冰山下的秘密：AI眼中的细胞世界早已分门别类**

这个想法成立的关键，在于研究团队发现了SAM图像编码器（可以理解为模型"看图"的那只眼睛）的一个此前未被充分利用的特性。

SAM的工作流程可以用一个简单的比方来理解。假设你是一位经验丰富的鉴宝师，当一件文物被端到你面前时，你首先会用眼睛扫一遍整件物品，在脑子里形成一个全面的印象——这是瓷器还是青铜器，是哪个朝代的风格，各个部位有什么特征。这个"扫描建模"的过程，对应的就是SAM的图像编码器。之后，当客户指着某个具体部位问"这里有没有裂纹"，你才开始针对性地回答，这对应的是SAM接收用户点击后进行的解码过程。

研究团队注意到，SAM的图像编码器在"扫描建模"这一步，已经在内部悄悄完成了一件了不起的事：它把同一类型的细胞，在其内部的特征空间里聚在了一起。特征空间可以理解为一个多维的"坐标系"，不同的细胞在这个坐标系里各占一个位置，而同类细胞会自然地聚集在相邻的区域。

研究团队用UMAP（一种把高维数据可视化的技术）把这种聚集现象展示了出来。在SAM编码器的低分辨率特征图中，三种不同类型的细胞（分别有16个、72个和157个样本）在图上形成了三个泾渭分明的聚集区域，不同类型之间几乎没有混淆。这个特性完全是自发产生的，不需要任何专门针对细胞的训练，也不需要提前告诉模型"这里有几种细胞"。SAM的编码器只是在做它本来的工作——尽可能全面地理解图像中的每一个细节——却无意间完成了细胞分类这件事。

这个发现是整个研究的基石。如果同类细胞在特征空间里是聚在一起的，那么理论上，只要找到一个细胞的特征，就能通过计算"相似度"找到所有与它相似的细胞。这就像在一个陌生城市里找同乡：只要你知道老乡的口音、习惯、穿着，就能在人群中慢慢辨认出其他说同样方言的人，而不需要每一个人都先自我介绍。

**两个维度的"侦察网络"**

然而，把这个理论想法转化为实际可用的系统，并不像说起来那么简单。研究团队遇到了两个紧密相连的技术难题，而他们设计的解决方案——正是CoP框架的核心。

SAM的图像编码器会产生两种分辨率的特征图。高分辨率特征图就像一张放大了四倍的地图，能清楚地看到每一条街道和每一栋建筑，但对于"这个街区属于哪个城区"这样的问题回答得不太准确。低分辨率特征图则像缩小了十六倍的全局地图，能清晰地划分各个城区的边界，但具体到每条街道就模糊了。

用在细胞识别上，高分辨率特征图能精确定位每一个细胞的具体位置，即使细胞挨得很紧也能分辨，但它会把背景组织中和细胞外观有几分相似的区域也标记出来，产生大量"误报"。低分辨率特征图能准确地只响应目标类型的细胞，把它们和其他类型的细胞区分开，但分辨率太低，相邻的细胞往往会被混在一起，边界模糊。

这两个特征图就像两个各有专长的侦探：一个眼神极好，能发现细微线索，但有时候会把无辜路人当嫌疑人；另一个判断力强，能准确锁定真正的目标，但对具体地点的描述总是不太精确。

研究团队提出的**层级相似度门控（HSG）**机制，本质上就是让这两个侦探"联合办案"。具体做法是：先分别计算用户点击位置在高分辨率特征图和低分辨率特征图中的相似度分布，然后把两张相似度图做逐元素相乘。这个操作的效果相当于用低分辨率图的准确判断力来"过滤"高分辨率图中的误报——只有同时被两张图都认可的位置，才能通过这个"双重审核"。

过滤之后，还需要确定哪些像素点是细胞的中心位置，而不仅仅是细胞的某个边缘部分。研究团队采用了连通成分标记（CCL）的方法——可以理解为把过滤后地图上连成片的"高亮区域"各自圈出来，然后找到每个区域的重心。这些重心点就构成了一批"可信点集合"，每一个可信点都对应着一个很可能是同类细胞的位置。

实验数据表明，这套双重过滤机制的精准度相当高，在整个迭代过程中始终保持在96%以上——也就是说，100个被标记出来的点里，至少有96个确实是目标细胞。

**从"点"到"面"的接力赛**

HSG解决了"如何高精度地找到同类细胞"的问题，但只靠初始点击周围的相似度计算，往往只能覆盖图像的一小片区域。距离初始点击位置较远的细胞，由于图像中局部组织环境各异，特征相似度会自然衰减，单次查找可能遗漏。

为了解决覆盖范围不足的问题，研究团队设计了**最远点递归（FPR）**机制。这套机制的逻辑非常直觉化：每次HSG产生了一批可信点之后，不是停下来，而是从这批可信点里挑选一个"距离所有已经用过的提示点最远"的点，把它作为新的出发点，重新运行HSG，发现更多之前没找到的细胞，再把新发现的细胞合并进可信点集合里……如此循环，直到某一轮运行之后没有发现任何新的细胞为止。

这个策略可以用"探险队开路"来理解。一支探险队从某个已知的据点出发，先把附近区域都探查清楚，记录下所有可信的补给点。然后，他们从这些补给点里选择距离最远的那一个作为下一个出发地，继续向未知领域推进。每次都选最远的地方出发，保证了不会在同一片区域反复兜圈子，而是尽可能地向整张地图的各个角落延伸。

值得注意的是，在选择下一个出发点时，距离的计算是在图像的物理坐标上进行的，而不是在抽象的特征空间里。这个细节很关键，因为在特征空间里的"距离"可能会随着迭代而产生漂移，导致探索方向出现偏差；而物理坐标上的距离则始终对应着图像上真实的空间位置，保证每次递归都在探索真正意义上"还没去过的地方"。

当递归终止后，所有轮次累积下来的可信点集合，就会被送入SAM的解码器，为每一个可信点生成对应的细胞分割掩码。如果某些相邻细胞对应的掩码有重叠，则通过IoU大于0.5的非极大值抑制来去重，最终得到一套干净的细胞实例分割结果。

整个CoP框架就这样构成了一个完整的闭环：一次点击触发HSG，HSG产生可信点集，FPR从可信点集里选出最远点再次触发HSG，如此循环直至全图覆盖，最后统一解码输出。

**数字背后的故事：97%的点击省下来了**

研究团队在七个标准测试数据集上对CoP进行了全面评估，结果从多个角度印证了这套方法的实用价值。

在三个带有细胞类型标注的数据集上，CoP展现出了最核心的能力。CoNIC数据集包含六种不同类型的细胞，CoNSeP包含四种，GlaS则是一个结肠腺体分割数据集。在这些数据集上，与最先进的基础模型SAM3（2026年ICLR发表）进行对比时，SAM3采用逐实例点击（每个细胞点一次）的方式，CoP只需每种细胞类型点一次。

具体数字方面，在CoNIC数据集上，SAM3逐实例点击的AJI为0.641，而CoP的方式得到了0.579，相当于保留了90%的性能；在CoNSeP上，SAM3得0.411，CoP得0.374，同样在90%以上；在GlaS上，SAM3得0.327，CoP得0.292，比例相似。与此同时，CoP仅需大约3次点击（每种细胞类型一次），而逐实例方式需要几百次——文中以含有245个细胞的图像为例，从245次降低到3次，减少了约97%的标注工作量。

与此同时，CoP的表现全面超越了那些需要大量标注数据进行完整训练的监督学习方法。CellViT是目前细胞分割领域最强的监督模型之一，在CoNIC数据集上的AJI只有0.371，显著低于CoP的0.579。这意味着，仅靠3次点击，没有任何额外训练，CoP就超过了一个经过精心训练的专门模型。

文章中还展示了那些试图用文字描述（比如输入"cell"这个单词）或视觉参考图片来代替点击的方法的表现。这些方法要么在某些数据集上完全失效（AJI为0），要么表现极为不稳定。这是因为文字或图片提示依赖模型在训练时学到的特定领域对应关系，而不同细胞类型的病理图像差异巨大，这种对应关系往往无法泛化。相比之下，点击提示直接查询的是图像编码器的底层特征，绕过了领域特定的对齐机制，因此能在各种细胞类型上稳定工作。

在另外四个不含细胞类型标注的数据集（MoNuSeg、TNBC、CryoNuSeg、CPM-17）上，由于每张图里的细胞形态比较单一，CoP只需一次点击即可。结果更为惊人：CoP保留了99%以上的逐实例点击性能。在TNBC数据集上，SAM3逐实例方式得到AJI 0.752，CoP得到0.750，差异几乎可以忽略不计。

**每个零件的贡献：拆解来看才能理解整体**

研究团队还进行了系统性的消融实验，逐一验证每个设计选择的必要性。这些实验以CoNIC数据集为主要测试场景。

去掉FPR递归机制，只保留HSG做一次性查找，AJI从0.579急剧下降到0.203，下降幅度高达65%。这个数字直观地说明，单次查找只能覆盖初始点击附近的细胞，而递归扩展才是实现全图覆盖的关键。

在FPR的选点策略上，研究团队比较了"选最远点"、"选最近点"和"选中间点"三种方案。最远点策略得到AJI 0.579，最近点策略只有0.492，中间点方案得0.515。最近点和中间点的失败原因是相同的：它们倾向于在已经探索过的区域附近打转，无法有效向未覆盖的区域推进。

在HSG的特征融合设计上，单独使用高分辨率特征图（不经过低分辨率图过滤）时，AJI降到0.463，因为大量来自背景组织的误报会在每一轮递归中被当成新的出发点传播，精度在第15轮迭代时已经跌破0.6。单独使用低分辨率特征图时，AJI更低，只有0.351，因为分辨率太低导致提示点定位不准确，很多点落在细胞边界甚至背景上。两者结合的方案在整个迭代过程中把精度维持在0.96以上，同时保持了与高分辨率图相当的召回率。

初始点击位置的敏感性方面，研究团队用30个不同的随机种子重复了所有CoNIC实验，得到的AJI均值为0.579，标准差仅为0.003。这说明CoP对于用户具体点击了哪个细胞这个问题相当鲁棒，不需要用户特别精准地点到某个"最佳位置"。

文章也诚实地指出了这套方法的局限。CoP依赖于SAM本身的分割能力——如果有某个细胞即使给了准确的点击，SAM也无法正确分割出来，那CoP也同样无能为力。此外，CoP的前提假设是同类细胞在特征空间里有相对一致的外观，如果某种细胞类型内部形态变化极大，这个假设可能不成立，系统表现就会下降。

**运行速度：15秒内处理完毕**

研究团队还给出了具体的运行时间数据，这对实际应用来说同样重要。所有实验都在一张NVIDIA RTX A6000显卡上进行。对于一张1000×1000像素的输入图像，SAM图像编码大约需要2秒，这是一次性的固定开销。之后，每次用户点击触发的CoP流程（HSG传播加上FPR迭代直至收敛）平均耗时约4秒，其中每一次FPR单步迭代大约170毫秒。对于一张含有三种细胞类型的图像，整个过程（不含编码时间）在15秒以内完成。由于CoP完全在特征空间中运算，没有任何反向传播，所占用的内存开销也很小。

**说到底，这项研究的价值在哪里**

归根结底，首尔国立大学这支团队做的事情，是发现并利用了一个一直存在却被忽视的规律：一个强大的视觉模型在"看懂"图像的过程中，已经顺带完成了细胞分类的工作，只是从来没有人设计过一套方法来把这份"顺带工作"的成果提取出来加以利用。

从实际应用角度看，这项研究意味着病理分析工作的交互成本可以从"标注几百个细胞"降低到"为每种细胞类型点一次"。对于临床病理医生来说，一天可能需要分析大量切片，这种效率提升的意义相当具体。对于研究者来说，这套方法无需重新训练，可以直接适用于他们遇到的任何新型细胞，不再受限于训练数据。

这也引出一个值得思考的问题：那些强大的通用视觉模型，究竟在它们的特征空间里悄悄编码了多少人类还没充分利用的结构化信息？或许下一个突破，不是来自更大的模型，而是来自对现有模型内部特征的更聪明的使用方式。有兴趣深入了解这项工作的读者，可以通过arXiv编号2605.29429查阅完整论文。

---

Q&A

Q1：Chain-of-Prompts方法需要用户具备什么专业背景才能使用？

A：Chain-of-Prompts对用户的专业要求很低。用户只需要在图像中识别出有哪几种细胞类型，然后对每种类型点击一次，系统就会自动完成后续所有的细胞识别和轮廓勾勒工作。点击位置也不需要特别精准，实验表明用30个不同的随机位置测试，结果的波动极小（标准差仅0.003），说明随便点一下同类细胞中的任意一个都可以。

Q2：CoP在什么情况下会失效或表现变差？

A：CoP有两个主要局限。第一，它依赖底层的SAM模型，如果某个细胞即使给了精准的点击，SAM本身也无法正确分割出来，那CoP也帮不上忙。第二，CoP假设同一类型的细胞在外观特征上比较一致，如果某种细胞类型内部形态差异极大，系统识别同类细胞的能力就会下降。在形态均一的细胞类型上，一次点击就能覆盖99%以上；在形态多样的混合类型场景中，需要每种类型各点一次，性能保留在90%以上。

Q3：Chain-of-Prompts和直接让AI自动检测所有细胞有什么区别？

A：直接让AI自动检测（比如用"cell"这个词作为文字提示，或提供参考图片）依赖模型在训练时学到的特定对应关系，遇到训练时没见过的细胞类型往往完全失效，在多个数据集上AJI直接变为0。Chain-of-Prompts则通过用户提供的一次点击绕过了这个问题，直接查询模型的底层特征，不依赖任何领域特定的训练，因此对未见过的细胞类型也能稳定工作，这正是它相比纯自动化方法的核心优势所在。

查看全文

http://www.jsqmd.com/news/951843/