当前位置：首页 > news >正文

（2026|腾讯，UniADet，解耦分类/分割，解耦层级特征）单个无语言基础模型足以实现通用视觉异常检测

news 2026/7/29 12:42:33

One Language-Free Foundation Model Is Enough for Universal Vision Anomaly Detection

论文地址：https://arxiv.org/abs/2601.05552

项目页面：https://github.com/gaobb/UniADet（论文审稿中，暂未开源）

进 Q 学术交流群：922230617 或加 CV_EDPJ 进 W 交流群

1. 引言

2. 相关工作

3. 方法

3.1. 重新思考视觉-语言模型在异常检测中的作用

3.2. 解耦分类与分割

3.3. 解耦层级特征

3.4. 结合少样本正常图像的 UniADet

3.5. 训练与推理

4. 实验

4.1. 实验设置

4.2. 与零样本方法的对比

4.3. 与少/全样本方法的对比

4.4. 消融研究

1. 引言

视觉异常检测是计算机视觉的一项基础任务，应用广泛。传统异常检测方法通常需要在特定正常图像上进行大量训练才能检测异常。然而，这种范式在开放世界和隐私敏感的场景中，其适应性和可扩展性较差。

近年来，得益于强大的视觉-语言模型，零样本或少样本异常检测因无需在目标领域训练而备受关注。

过去两年，涌现了大量基于 CLIP 的零样本和少样本异常检测方法，并在多个领域展现了出色的性能。
尽管如此，这些方法要么陷入复杂的提示工程，要么需要设计精巧的适配模块，要么依赖复杂的训练策略（如下图 a 所示）。这些问题从根本上限制了它们的灵活性和通用性，尤其是迁移到纯视觉基础模型（例如，DINOv3）的能力。
这引出了一个关键的、未被探索的问题：视觉-语言模型对于通用异常检测（Universal visual anomaly detection，AD）是否真的必要？

语言依赖型零样本自动对齐与本文的无语言依赖通用异常检测（UniADet）的比较。UniADet：

构造简单（仅学习与任务相关的权重）、
参数效率高（约 0.001M 可学习参数）、
通用性强（能适应多种基础模型）、
效果显著（超越了最先进的零样本/少量样本甚至全样本自动对齐方法）。

最近的 MetaUAS 展示了在合成图像上训练的纯视觉模型可以实现强大的单样本性能，无需视觉-语言模型。但遗憾的是，它无法扩展到零样本场景。此外，语言应独立于视觉感知。

因此，本文想探索，在没有语言提示的情况下，通用异常检测（包括零样本和少样本）能达到何种程度。

2. 相关工作

无监督异常检测：传统无监督异常检测方法（如基于 embedding 的、基于判别式的、基于重建的）需要在足够多的正常图像上训练，在新类别上泛化能力差，且为每个新场景重新训练成本高昂，限制了其快速适应性。

零样本异常检测：

近期通过利用强大的视觉-语言模型取得了显著进展。代表性工作如 WinCLIP、AnomalyCLIP、AdaCLIP 等。
然而，本文认为这些方法引入的额外修改（如复杂提示、适配器）增加了不必要的模型复杂性，并可能降低原始 CLIP 模型的鲁棒表征能力。

少样本异常检测：少样本异常检测专注于仅使用少量正常图像进行模型学习或适应。

早期工作性能落后于无监督方法。
视觉-语言模型的整合最近带来了显著提升，如 WinCLIP+、InCtrl、PromptAD 等。UniVAD 结合了多个预训练模型（如 RAM、Grounding DINO、SAM、CLIP、DINOv2）实现了卓越的少样本性能，但需要多个模型。
相比之下，本文旨在探索仅使用单个基础模型，以训练自由且计算高效的方式实现少样本异常检测。

3. 方法

问题定义：目标是开发一个通用的异常检测框架，无需在目标数据集上训练或微调，即可检测跨域异常。

在零样本设置下，模型不能使用目标域的任何数据。
在少样本设置下，每个目标类别可提供少量正常图像。

3.1. 重新思考视觉-语言模型在异常检测中的作用

一个典型的视觉-语言模型由一个视觉编码器 F(θ_v ; ⋅) 和一个文本编码器 T(θ_t ; ⋅) 组成。为简单起见，省略了原始参数，而 θ_v 和 θ_t 是为视觉异常检测中的任务适应而引入的可选可学习参数。

视觉编码器提取输入查询图像 X_q 的表示，产生全局图像 token x_q 和局部 patch token F_q：

文本编码器使用两类别（two-class）文本提示 T_f 或可学习 embedding T_l 生成一个表示 “正常” 和 “异常” 概念的权重矩阵，其中，i = {f, l}。

然后通过计算该权重与 patch / 图像特征的相似度来得到像素级异常图 Y 和图像级异常分数 y：

如上表所示，现有的这些方法高度依赖文本编码器（T），限制了其可扩展性，使其仅能应用于视觉-语言模型，无法扩展到纯视觉模型（如 DINOv3）。此外，这些现有的方法倾向于将多个组件整合起来以实现良好的性能，这往往会导致模型复杂度的增加。相反，本文想探索通过大幅简化这些组件，实现一个简单、通用、可扩展的异常检测框架。

注意到在上述公式中，异常分割（Y）和分类（y）使用的是共享权重 W。

该权重目前由文本提示或可学习 embedding 输入文本编码器获得。这暗示可以直接学习这个权重，从而完全移除文本编码器及其相关组件。

现代基础模型具有很强的泛化能力，因此视觉编码器的可学习参数也可能是冗余的。

通过这两个简化，本文实现了一个极其简单且通用的零样本异常检测框架，它移除了表 1 中的大部分组件，只需基于基础模型提取的特征来学习权重 W。

3.2. 解耦分类与分割

图 3：CLIP ViT-L/14@336px 特征在 MVTec 测试集（榛子）上的 t-SNE 可视化。

（a）从第 24 block 中提取的全局图像 token（x_q）和局部图像 patch token（F_q）的 t-SNE embedding 图。该可视化清晰地显示了图像（全局）token 和图像 patch（局部）token 的正常/异常分布之间存在显著差异。
（b）从第 6 和第 24 block 中提取的局部图像 patch token 的 t-SNE embedding 图。这两个不同的层次结构层中的正常和异常特征分布也存在显著差异。

许多最先进的零样本异常检测方法中，图像异常分类和像素异常分割共享相同的权重。然而，这可能不是最优的，因为全局图像 token 和局部 patch token 的流形本质上是不同的。

图 3(a) 的可视化实验表明，

正常和异常 token 的决策超平面在图像和 patch 这两种表示之间存在显著差异。
这种差异在视觉语言模型（例如 CLIP）以及纯视觉的自监督模型（例如 DINOv2 和 DINOv3）中也得到了一致的观察。

为了解决图像级分类和像素级分割之间的学习冲突，本文将共享权重解耦为一对专用权重。

这带来了两个显著优势：

第一，从根本上解决了局部和全局 token 流形差异导致的学习冲突；
第二，比使用复杂视觉或文本适配器的现有方法更简单高效。

3.3. 解耦层级特征

密集视觉感知任务通常利用基础模型的多尺度特征。大多数零/少样本异常检测工作也使用多尺度特征，并为这些层级特征共享相同的权重。

不同尺度的特征编码了不同的语义，因此嵌入到不同的流形中，如图 3(b) 所示。

为了有效缓解层级特征差异带来的冲突，本文将解耦概念扩展到来自不同块的所有特征，最终形成多层专用解耦。

这确保了每个层的异常分类和分割都能学习到其最优决策边界，而不受不同特征流形的干扰。

无语言依赖的 UniADet 框架。

UniADet 将全局图像异常分类和局部图像 patch 分割解耦，使得它们的权重能够在不同层次的特征中独立学习。
一旦训练完成，它能够识别任何异常图像并分割出异常区域，还能处理仅需少量样本或甚至无需样本即可识别的正常图像。

3.4. 结合少样本正常图像的 UniADet

仅使用解耦权重的 UniADet 在检测通用异常（例如，划痕或者孔洞）方面有效，但难以处理那些仅相对于特定正常参考图像定义的异常（例如，缺失的电池单元）。

受 PatchCore 的记忆库和 WinCLIP 的参考关联的启发，本文构建了一个多尺度正常记忆库，将框架扩展到少样本设置。

首先为每个尺度存储少量（K = {1, 2, 4}）正常图像的局部 patch 特征。

对于查询图像，其少样本异常分数由相应尺度特征与记忆库中最近邻特征的余弦距离计算得出。

然后通过简单的平均获得最终的少样本异常图，并融合零样本预测更新这个异常图。

最后，通过融合零样本异常分数和少样本异常预测来得到最终图像异常分数。

3.5. 训练与推理

训练时，

遵循 AnomalyCLIP，使用交叉熵损失优化全局图像异常分类权重 W^l_{cls}，使用 Focal 和 Dice 损失优化局部 patch 异常分割权重 W^l_{seg}。
此外，本文引入了类别感知图像增强（Class-Aware image Augmentation，CAA）来增强鲁棒性。

推理时，根据零样本或少样本设置，使用上述相应的公式计算像素级异常图和图像级异常分数。

类别感知图像增强包含网格拼接（Grid Mosaic）与网格裁剪（Grid Cropping）：

1）网格拼接：给定一张候选图像及其对应类别，从训练集中随机采样与该图像类别相同的 n^2 − 1 张额外图像，将其拼接成一个 n×n 的网格，从而构建出一张增强图像。

为保证图像级正常/异常样本的比例不偏，根据当前图像的标签（即正常或异常）采用不同的采样策略。
若候选图像为正常图像，则随机采样同类别下的正常图像作为拼接组件；
若候选图像为异常图像，则随机采样同类别下可能同时包含正常与异常图像的样本。
这种条件采样的方式对于维持正常与异常图像的比例、使模型聚焦于定义异常的真正上下文差异至关重要。

2）网格裁剪：为获得多样的尺度表示，并有效模拟多图像拼接所带来的分辨率降低，引入了网格裁剪增强。具体而言，

首先将当前图像随机划分为 n×n 的网格，再随机选取其中一个图像 patch 作为增强后的输入。
为保证在此过程中正常与异常样本的分布比例不变，对正常图像和异常图像采用不同的策略。
对于正常图像，随机选择一个图像块；
对于异常图像，则严格只选择包含异常区域的图像 patch。
这种有针对性的采样策略，能够确保模型在定位任务中获得可靠的监督信号，同时在多种尺度和分辨率下有效学习特征。

4. 实验

4.1. 实验设置

数据集：涵盖工业检测和医疗诊断两个领域。

工业领域包括 MVTec、VisA、BTAD、DTD、KSDD 和 Real-IAD 等 6 个基准。
医疗领域仅评估零样本，包括脑肿瘤检测（HeadCT、BrainMRI、Br35H）、皮肤病变分割（ISIC）、胃肠道息肉分割（ClinicDB、ColonDB、Kvasir、Endo）等。

评估指标：

使用 AUROC、AUPR 等指标评估图像分类和像素分割性能。
特别强调像素 AUPR 更适合异常分割任务。

训练和测试协议：

遵循近期工作，使用 VisA 的测试数据训练 UniADet，并在其他数据集上评估零/少样本性能。
评估 VisA 时，则使用 MVTec 的测试数据进行训练。

对比方法：与多种最先进的零/少样本异常检测方法进行对比，包括 WinCLIP、AnomalyCLIP、AdaCLIP、Bayes-PFL 等。

4.2. 与零样本方法的对比

零样本工业异常检测：

实验证明，本文的无语言 UniADet 在图像分类上显著优于依赖语言提示和文本编码器的方法。
无语言特性使本文能无缝切换到更强大的纯视觉基础模型（如 DINOv2、DINOv3），在像素级分割上取得绝对领先性能，这证明自监督视觉基础模型在提取细粒度表示方面优于语言监督的 CLIP。
在具有挑战性的大规模工业基准 Real-IAD 上，本文也取得了最佳性能，证实了框架的稳定性和可扩展性。

零样本跨领域医疗异常检测：

直接将工业辅助数据集上训练的框架应用于医疗异常检测
本文的 UniADet 始终优于大多数最先进方法，进一步验证了其跨领域泛化能力。

复杂度与效率：

通过模型参数的数量（冻结的基础模型 + 可学习的组件）来衡量复杂度，
通过单张图像的前向推理时间来衡量效率
UniADet 的可学习参数极少，推理速度最快，且从零样本扩展到少样本时几乎不增加额外参数和推理时间。

4.3. 与少/全样本方法的对比

单样本和少样本结果显示了几个关键优势：

以最小资源实现最先进性能：如图 5 所示，单样本 UniADet 仅使用单个纯视觉基础模型，性能显著超越利用视觉-语言模型的方法。
与模型集成方法竞争：如图 6 所示，仅使用单个基础模型，就达到了与集成多个强大模型的 UniVAD 相当的性能，突显了本文设计的架构和计算效率。
挑战最先进的全样本方法：如图 6 所示，仅用少量无训练的正常图像，性能就显著超越了早期的全样本方法，并在具有挑战性的 Real-IAD 上超越了当前最佳的全样本方法。这清楚地展示了基础模型在开放世界少样本异常检测中的强大潜力。