当前位置：首页 > news >正文

【CVPR26-马连博-东北大学】面向增量式统一多模态异常检测：基于信息瓶颈视角增强多模态去噪

news 2026/6/18 18:11:01

文章：Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

代码：https://github.com/longkaifang/IB-IUMAD

单位：东北大学

一、问题背景

在工业质检场景中，多模态异常检测（MAD）是核心技术，通过RGB图像+深度图像识别产品表面缺陷。传统方案存在两大痛点：

单模型单品类：一个产品训练一个模型，算力消耗大、内存占用高、扩展性极差。
单模型多品类：虽能用一个模型检测多品类，但新增产品时会出现灾难性遗忘——学会新类别，就丢掉旧类别的检测能力。

现有研究普遍忽略一个关键问题：虚假特征与冗余特征会大幅加剧遗忘，且多模态融合会让这一问题被放大，模型更容易把无关信息当成有效特征，导致越学越乱。

基于此，本文聚焦增量统一多模态异常检测（IUMAD）任务，目标是打造一个“单模型、多品类、可持续增量学习、不遗忘”的工业质检框架。

二、方法创新

本文提出IB‑IUMAD框架，核心是从信息瓶颈视角做多模态降噪，用两大核心模块解决“虚假特征干扰+冗余信息拖累”，从根源缓解灾难性遗忘。

1. 整体设计思路

把“降噪”作为核心，分别处理两类噪声：

物体间虚假特征耦合：不同产品特征缠在一起，产生干扰。
多模态融合冗余信息：RGB与深度图融合后混入大量无用信息。

2. 核心创新模块1：Mamba解码器（去虚假特征）

作用：解开不同物体间的特征耦合，阻止虚假特征互相干扰。
结构：高效状态空间模块（ESSM）+ 深度可分离卷积（DwConv）+ 注意力机制。
原理：

对RGB/深度图做细粒度特征提取，保留关键细节。
引入标签信息做分类监督，强制模型区分不同物体。
把解耦后的特征送入重建网络，让重建过程不受干扰。

效果：从源头切断虚假特征生成，避免学新类时打乱旧类特征。
3. 核心创新模块2：信息瓶颈融合模块（IBFM，滤冗余特征）
- 作用：对多模态融合特征做“提纯”，只保留判别性信息，剔除冗余。
- 原理：
1. 先用级联+交叉注意力完成RGB与深度特征融合。
2. 引入信息瓶颈正则化，用互信息衡量特征有效性。
3. 优化目标：最大化与标签相关的有效信息，最小化条件冗余信息。
4. 用KL散度作为损失函数，实现精准特征过滤。
效果：融合后特征更干净，模型记忆负担更低，遗忘大幅减少。
4. 总损失函数设计
框架采用多损失联合优化，兼顾重建、分类、信息瓶颈约束：
- 分类损失：约束Mamba解码器，解耦物体特征。
- 融合重建损失：保证多模态特征重建质量。
- 信息瓶颈损失：过滤冗余，保留判别信息。所有损失权重均衡设置，训练稳定易收敛。
三、实验结果
实验在MVTec 3D‑AD（真实工业）、Eyecandies（合成）两大数据集上完成，设置4种增量学习场景：10‑0、9‑1、6‑4、6‑1，对比IUF、CDAD等SOTA方法。
1. 增量学习性能
- 在6‑1（4步）设置下，IB‑IUMAD在MVTec 3D‑AD上： I‑AUROC/AUPRO提升**3.5%/2.9%，遗忘率FM降低5.8%/1.5%**。
- 多模态（RGB+3D）效果显著优于单模态，证明降噪与融合设计有效。
2. 统一检测性能
- 10‑0（零增量）设置下，多模态I‑AUROC达**91.0%（MVTec）、80.6%**（Eyecandies），超越UniAD、DiAD、MambaAD等统一检测方法。
3. 计算效率
- 内存占用降低44倍，推理速度提升41倍，兼顾精度与轻量化，适合工业部署。
4. 消融实验
- 同时使用Mamba+IBFM，性能与抗遗忘能力最优；
- 交叉注意力融合方式优于加法、拼接、LinearGLU等方案。
四、优势与局限
优势
1. 首次提出：首个面向多模态的增量统一异常检测框架。
2. 降噪思路：从信息瓶颈做特征提纯，直击遗忘根源。
3. 性能强劲：精度、遗忘率、速度、内存全面优于SOTA。
4. 工业友好：单模型适配多品类，支持持续增量更新，不用重训。
局限
1. 依赖RGB+深度双模态数据，纯单模态场景优势减弱。
2. 超参数需少量调优，极端复杂表面纹理仍有优化空间。
3. 未覆盖视频流时序异常检测，未来可扩展。
五、一句话总结
IB‑IUMAD从信息瓶颈视角构建多模态降噪框架，用Mamba解耦虚假特征、信息瓶颈过滤冗余信息，实现工业质检场景下“单模型、多品类、增量学习、不遗忘”的高效异常检测，精度与效率双优。