当前位置: 首页 > news >正文

【CVPR26-马连博-东北大学】面向增量式统一多模态异常检测:基于信息瓶颈视角增强多模态去噪


文章:Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

代码:https://github.com/longkaifang/IB-IUMAD

单位:东北大学


一、问题背景

在工业质检场景中,多模态异常检测(MAD)是核心技术,通过RGB图像+深度图像识别产品表面缺陷。传统方案存在两大痛点:

  1. 单模型单品类:一个产品训练一个模型,算力消耗大、内存占用高、扩展性极差。

  2. 单模型多品类:虽能用一个模型检测多品类,但新增产品时会出现灾难性遗忘——学会新类别,就丢掉旧类别的检测能力。

现有研究普遍忽略一个关键问题:虚假特征与冗余特征会大幅加剧遗忘,且多模态融合会让这一问题被放大,模型更容易把无关信息当成有效特征,导致越学越乱。

基于此,本文聚焦增量统一多模态异常检测(IUMAD)任务,目标是打造一个“单模型、多品类、可持续增量学习、不遗忘”的工业质检框架。

二、方法创新

本文提出IB‑IUMAD框架,核心是从信息瓶颈视角做多模态降噪,用两大核心模块解决“虚假特征干扰+冗余信息拖累”,从根源缓解灾难性遗忘。

1. 整体设计思路

把“降噪”作为核心,分别处理两类噪声:

  • 物体间虚假特征耦合:不同产品特征缠在一起,产生干扰。

  • 多模态融合冗余信息:RGB与深度图融合后混入大量无用信息。

2. 核心创新模块1:Mamba解码器(去虚假特征)

  • 作用:解开不同物体间的特征耦合,阻止虚假特征互相干扰。

  • 结构:高效状态空间模块(ESSM)+ 深度可分离卷积(DwConv)+ 注意力机制。

  • 原理

  1. 对RGB/深度图做细粒度特征提取,保留关键细节。

  2. 引入标签信息做分类监督,强制模型区分不同物体。

  3. 把解耦后的特征送入重建网络,让重建过程不受干扰。

  • 效果:从源头切断虚假特征生成,避免学新类时打乱旧类特征。

  • 3. 核心创新模块2:信息瓶颈融合模块(IBFM,滤冗余特征)

    • 作用:对多模态融合特征做“提纯”,只保留判别性信息,剔除冗余。

    • 原理

    1. 先用级联+交叉注意力完成RGB与深度特征融合。

    2. 引入信息瓶颈正则化,用互信息衡量特征有效性。

    3. 优化目标:最大化与标签相关的有效信息,最小化条件冗余信息。

    4. 用KL散度作为损失函数,实现精准特征过滤。

  • 效果:融合后特征更干净,模型记忆负担更低,遗忘大幅减少。

  • 4. 总损失函数设计

    框架采用多损失联合优化,兼顾重建、分类、信息瓶颈约束:

    • 分类损失:约束Mamba解码器,解耦物体特征。

    • 融合重建损失:保证多模态特征重建质量。

    • 信息瓶颈损失:过滤冗余,保留判别信息。 所有损失权重均衡设置,训练稳定易收敛。

    三、实验结果

    实验在MVTec 3D‑AD(真实工业)、Eyecandies(合成)两大数据集上完成,设置4种增量学习场景:10‑0、9‑1、6‑4、6‑1,对比IUF、CDAD等SOTA方法。

    1. 增量学习性能

    • 在6‑1(4步)设置下,IB‑IUMAD在MVTec 3D‑AD上: I‑AUROC/AUPRO提升**3.5%/2.9%,遗忘率FM降低5.8%/1.5%**。

    • 多模态(RGB+3D)效果显著优于单模态,证明降噪与融合设计有效。

    2. 统一检测性能

    • 10‑0(零增量)设置下,多模态I‑AUROC达**91.0%(MVTec)、80.6%**(Eyecandies),超越UniAD、DiAD、MambaAD等统一检测方法。

    3. 计算效率

    • 内存占用降低44倍,推理速度提升41倍,兼顾精度与轻量化,适合工业部署。

    4. 消融实验

    • 同时使用Mamba+IBFM,性能与抗遗忘能力最优;

    • 交叉注意力融合方式优于加法、拼接、LinearGLU等方案。

    四、优势与局限

    优势

    1. 首次提出:首个面向多模态的增量统一异常检测框架。

    2. 降噪思路:从信息瓶颈做特征提纯,直击遗忘根源。

    3. 性能强劲:精度、遗忘率、速度、内存全面优于SOTA。

    4. 工业友好:单模型适配多品类,支持持续增量更新,不用重训。

    局限

    1. 依赖RGB+深度双模态数据,纯单模态场景优势减弱。

    2. 超参数需少量调优,极端复杂表面纹理仍有优化空间。

    3. 未覆盖视频流时序异常检测,未来可扩展。

    五、一句话总结

    IB‑IUMAD从信息瓶颈视角构建多模态降噪框架,用Mamba解耦虚假特征、信息瓶颈过滤冗余信息,实现工业质检场景下“单模型、多品类、增量学习、不遗忘”的高效异常检测,精度与效率双优。

http://www.jsqmd.com/news/643469/

相关文章:

  • 后端接收并解析合约回执信息【FISCOBCOS】
  • 第四讲:曲面 Pattern 缺陷检测的核心几何机制——两层配准与注册集、测量集的角色分工
  • org.openpnp.vision.pipeline.stages.DetectLinesHough
  • 谁在定义企业级Agent标准?一次硬核测评给出了答案
  • 财务法务福音!Qwen3-VL-30B智能合同字段提取保姆级教程
  • AI人体骨骼关键点检测作品集:多场景骨架图生成,效果直观一目了然
  • 像素史诗效果展示:研报生成过程中的‘能量值’反馈与推理稳定性监测
  • 4月15日成都地区振鸿产焊管(Q235B;内径DN15-200mm)现货报价 - 四川盛世钢联营销中心
  • 移动端架构演进
  • MySQL8.0升级到MySQL8.4避坑:密码插件问题
  • Qwen2.5-VL-7B-Instruct快速上手:网页截图→响应式HTML→CSS样式生成
  • Pixel Epic智识终端入门教程:动态卷轴流式输出与中断续写功能详解
  • 忍者像素绘卷:天界画坊Proteus仿真联动:为电子设计添加像素艺术界面
  • UiPath003 创建基本库
  • Ubuntu 20.04下快速配置Fcitx框架与谷歌拼音输入法
  • 2026年行业内二次元投影仪生产公司,影像测量仪/2.5次元测量仪/二次元检测仪/三次元测量仪,二次元投影仪研发哪个好 - 品牌推荐师
  • JS逆向|猿人学逆向反混淆练习平台第13题加密分析
  • Gemma-3-12b-it API封装教程:FastAPI接口开发与图文请求适配
  • OpenClaw人人养虾:openclaw logs
  • 亚洲美女-造相Z-Turbo创意工坊案例:独立艺术家用其生成NFT系列《东方十二时辰》
  • 2026奇点大会多模态翻译系统深度拆解(语音-文本-图像三模态联合推理引擎首次公开)
  • 【仅限首批读者】AIAgent隐私合规自检工具包(含12项自动扫描规则+OWASP AI-Top10映射矩阵)限时开放下载
  • 可灵会员邀请码6B3CRST3TFBL
  • Qwen3-32B长文本处理实战:128K上下文,轻松分析整本电子书
  • Java的java.util.random.RandomGenerator随机数算法实现细节
  • 196.删除重复的电子邮箱
  • MiniCPM-o-4.5-nvidia-FlagOS构建智能知识库:结合向量数据库实现精准问答
  • Nanbeige4.1-3B应用场景:制造业设备维修手册QA系统,支持PDF/图片OCR混合输入
  • 单细胞蛋白组Abseq联合流式技术,深度解锁肿瘤与感染免疫差异奥秘
  • PySide6多线程避坑指南:手把手教你用QMutex和QWaitCondition安全地暂停与恢复线程