无监督工业缺陷检测新SOTA!HLGFA高低分辨率引导,MVTec AD刷到98%!
点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内有20多门3D视觉系统课程、300+场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎加入!
0. 这篇文章干了啥?
这篇文章提出了 HLGFA,一种基于高低分辨率引导的特征对齐的无监督工业异常检测框架,旨在解决现有方法难以同时保留全局结构一致性和局部细节保真度的问题。该框架通过对正常样本的高、低分辨率表示之间的跨分辨率特征一致性进行建模来学习常态,而非依赖像素级别的重建。具体来说,双分辨率输入通过共享的冻结主干网络处理以提取多级特征,高分辨率表示被分解为结构和细节先验,通过条件调制和门控残差校正来引导低分辨率特征的细化,推理时将异常识别为跨分辨率对齐失效的区域。此外,文章还引入了一种噪声感知的数据增强策略,以抑制工业环境中常见的干扰因素引起的响应。文章的主要贡献包括:提出了一种通过跨分辨率特征不一致性识别异常的无监督异常检测框架;设计了一种结构 - 细节解耦的引导对齐模块,可在不更新主干参数的情况下实现稳定的跨分辨率特征对齐;引入了噪声感知的数据增强策略,以提高工业场景中的鲁棒性并减少误报。实验部分在标准基准 MVTec AD 数据集上进行,结果表明 HLGFA 在图像级和像素级指标上均取得了最佳的整体性能,在像素级平均精度上始终优于竞争方法,显示出对背景噪声的更强鲁棒性和对误报响应的更好抑制能力。消融实验进一步证实了结构先验、细节先验和噪声感知数据增强的互补贡献。未来,作者将探索将跨分辨率对齐扩展到多模态输入和基础模型,以及自适应一致性建模,以进一步提高鲁棒性和异常置信度估计。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:HLGFA: High–Low Resolution Guided Feature Alignment for Unsupervised Anomaly Detection
作者:Han Zhou, Yuxuan Gao, Yinchao Du, Xuezhe Zheng
作者机构:Innolight Technology Research Institute
论文链接:https://arxiv.org/pdf/2602.09524
2. 摘要
无监督工业异常检测(UAD)对于现代制造业检测至关重要,在该领域中,缺陷样本稀缺,且需要可靠的检测方法。在本文中,我们提出了 HLGFA,这是一种高低分辨率引导的特征对齐框架,它通过对正常样本的高分辨率和低分辨率表示之间的跨分辨率特征一致性进行建模来学习正常模式,而不依赖于像素级重建。双分辨率输入由一个共享的固定主干网络处理,以提取多级特征,高分辨率表示被分解为结构先验和细节先验,通过条件调制和门控残差校正来引导低分辨率特征的细化。在推理过程中,异常自然地被识别为跨分辨率对齐失败的区域。此外,我们引入了一种感知噪声的数据增强策略,以抑制工业环境中常见的干扰引起的响应。在标准基准测试上进行的大量实验证明了 HLGFA 的有效性,在 MVTec AD 数据集上实现了 97.9%的像素级 AUROC 和 97.5%的图像级 AUROC,优于具有代表性的基于重建和基于特征的方法。
3. 效果展示
图6:MVTec AD 数据集上异常定位定性对比。从左至右:输入图像、真值掩膜(GT)、HLGFA(本文)、NGAL、CRAD、AnomalyCLIP 与 RD4AD。HLGFA 生成的异常响应更紧致、更准确,与真值区域对齐更好,同时有效抑制了正常区域的虚假激活。
4. 主要贡献
我们提出了一种无监督异常检测框架,该框架通过跨分辨率特征不一致来识别异常。
我们设计了一个结构 - 细节解耦的引导对齐模块,该模块无需更新骨干网络参数即可实现稳定的跨分辨率特征对齐。
我们引入了一种噪声感知的数据增强策略,以提高工业场景中的鲁棒性并减少误报。
5. 基本原理是啥?
基于跨分辨率特征对齐的无监督异常检测框架该框架 HLGFA 不依赖像素级重建,而是通过对正常样本的高分辨率和低分辨率表示之间的跨分辨率特征一致性进行建模来学习正常模式。输入图像构建高、低分辨率视图,通过共享的冻结主干提取多尺度特征,利用可学习的引导模块对低分辨率特征进行对齐,推理时将跨分辨率对齐失败的区域检测为异常。
高低分辨率特征引导策略利用高分辨率(HR)和低分辨率(LR)特征的不对称表示特性,HR 表示为 LR 特征的细化提供结构和细节先验。对输入图像构建高、低分辨率视图,经共享主干编码器得到多阶段特征表示,先对 LR 特征进行空间调整以匹配 HR 特征,再引入可学习的引导对齐算子,用 HR 特征作为引导信号调制和校正 LR 特征,推理时将跨分辨率一致性被破坏的空间区域检测为异常,通过计算异常得分来量化异常程度。
结构 - 细节解耦引导针对高分辨率表示中全局结构和细粒度细节共存导致直接用 HR 特征引导不稳定的问题,将 HR 特征分解为结构先验和细节先验。结构先验通过多尺度深度卷积从更深层 HR 特征提取,用于建模稳定的全局布局;细节先验通过空间对齐和轻量级通道投影从较浅层 HR 特征导出,保留信息丰富的局部线索并抑制高频噪声。两者结合成统一的引导表示,对 LR 特征进行基于 FiLM 的变换调制,再采用轻量级门控残差校正机制得到细化的 LR 特征。推理时,利用结构先验的稳定性估计空间可靠性,对异常响应进行调制。
噪声感知的数据增强为解决现实工业检测中正常样本含有的干扰因素(如毛发、污渍等)影响跨分辨率特征对齐导致误报的问题,在训练时对正常样本注入稀疏点噪声和结构化条纹噪声进行数据增强,且噪声同时应用于高、低分辨率视图,促使模型关注稳定的结构语义而非局部噪声,减少误报检测。
骨干网络选择经验表明,在该框架下 ResNet 风格的骨干网络(尤其是 Wide - ResNet 变体)表现优于 DenseNet 和 ConvNeXt 架构。这是因为残差连接实现的空间扩散特征传播有助于促进层间平滑和连贯的特征响应,对跨分辨率对齐有益;而强调特征重用或局部深度卷积的架构会放大纹理级噪声,不利于稳健的异常检测。
训练目标所有训练目标仅在正常样本上计算,以确保模型学习正常数据的特征。核心目标是通过最小化高分辨率特征和对齐后的低分辨率特征之间的余弦相似度损失来强制跨分辨率特征对齐。为提高在噪声或模糊条件下的鲁棒性,还增加了一些轻量级辅助正则化项,包括焦点加权的 l1 特征一致性项、基于 Jensen - Shannon 散度的分布级一致性约束、Gram 矩阵匹配损失,以及可选的基于分类的辅助损失。整体训练目标是这些损失项的加权和。
6. 实验结果
文章围绕所提出的用于无监督工业异常检测的高 - 低分辨率引导特征对齐框架(HLGFA)展开了一系列实验,以下是对实验结果的总结:
实验设置
数据集:采用标准工业异常检测基准 MVTec AD,包含 15 类物体和纹理缺陷。仅使用正常图像进行类别无关的训练。
模型配置:使用在 ImageNet 上预训练的冻结 Wide - ResNet - 50 骨干网络,输入分辨率为 640×640 。
训练参数:采用 Adam 优化器,学习率从 0.001 到 0.0001 进行余弦退火,训练 100 个 epoch,批次大小为 32 ,仅在正常样本上训练。推理时无需内存库或参考样本,直接根据跨分辨率特征不一致性计算异常图。
与现有技术的整体比较
定量结果:在图像级和像素级指标上,HLGFA 均取得最佳整体性能。在像素级平均精度(AP - P)方面,始终优于竞争方法,表明其对背景噪声具有更强的鲁棒性,能更好地抑制误报响应。具体而言,在 MVTec AD 数据集上实现了 97.9% 的像素级 AUROC 和 97.5% 的图像级 AUROC 。
定性结果:HLGFA 生成的异常图更紧凑、准确,与真实缺陷区域的对齐效果更好,同时避免了正常结构上的虚假激活。
特征对齐损失的消融研究
单一损失效果:仅使用余弦相似度提供了较强的基线,但定位能力有限,表现为较低的像素级 AP 和 PRO 分数。
辅助损失影响:直接添加 Jensen - Shannon(JS)散度会导致性能略有下降,因为它强制全局分布一致性,可能过度正则化对齐并抑制对异常检测至关重要的细微差异;Gram 矩阵损失通过捕获高阶特征相关性,持续改善像素级指标;l1 损失通过强制逐元素一致性和稳定跨分辨率对应关系,带来最显著的性能提升。
组合损失优势:结合所有损失组件可获得最佳整体性能,不同损失起到互补正则化的作用,使定位精度和鲁棒性更优。
方法的每类别分析
整体表现:HLGFA 在图像级检测准确率上表现稳定,平均 AP - I 为 99.2% ,同时在纹理和物体类别上均保持较强的像素级定位性能。
特定类别表现:在一些具有挑战性的类别(如 grid、capsule 和 screw)中,尽管规则纹理和小缺陷常导致严重误报,该方法仍能保持稳定的 AP - P 和 PRO 分数,突显了结构 - 细节引导对齐的有效性。
7. 总结 & 未来工作
本文提出了一种基于跨分辨率引导特征对齐的无监督异常检测框架 HLGFA。与显式建模正常外观的基于重建或内存的方法不同,HLGFA 利用高分辨率和低分辨率表示之间的固有不对称性,将它们的对齐不一致性转化为可靠的异常信号。HLGFA 的关键见解是高分辨率特征保留稳定的结构语义,而低分辨率特征倾向于过度泛化到正常模式。通过引入结构 - 细节解耦引导机制,HLGFA 在高分辨率监督下细化低分辨率表示,增强对细微异常的敏感性,同时保持定位精度。因此,异常表现为跨分辨率对齐失效的区域,而不是从可能不可靠的重建误差中推断出来。
在 MVTec AD 上的大量实验验证了 HLGFA 的有效性,证明了其在图像和像素级别上始终具有强大的性能,在像素级定位指标(如 AUROC、PRO 和 F1 分数)方面有特别显著的提升。消融研究进一步证实了结构先验、细节先验和噪声感知数据增强的互补作用。从工业角度来看,HLGFA 非常适合实际的自动光学检测(AOI)应用:它只需要正常样本进行训练,利用预训练的骨干网络而无需特定任务的微调,并基于特征不一致性生成稳定、可解释的异常图。这些特性使得 HLGFA 特别适用于具有多样缺陷和稀缺异常数据的工业场景。
在未来的工作中,我们将探索将跨分辨率对齐扩展到多模态输入和基础模型,以及进行自适应一致性建模,以进一步提高鲁棒性和异常置信度估计。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉方向论文辅导来啦!可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。
添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。
