当前位置: 首页 > news >正文

Anomaly Detection系列(CVPR2025 LASB论文解读)

A Unified Latent Schrödinger Bridge Diffusion Model for Unsupervised Anomaly Detection and Localization

无监督视频异常检测(UVAD)旨在仅利用正常样本训练模型,在测试阶段识别并定位异常事件。当前方法面临三大核心挑战:

  1. 依赖一类分类(OCC)假设 —— 强制要求训练集中不含任何异常样本,这在现实工业或医疗场景中难以满足;
  2. 无法利用异常低频先验 —— 多数方法忽视异常事件稀疏性的统计特性,导致对复杂异常模式鲁棒性差;
  3. 结构破坏与重建偏差问题 —— 基于高斯扩散的方法易在去噪过程中丢失图像结构信息,影响局部异常感知能力。

本论文提出Latent Anomaly Schrödinger Bridge (LASB),一种全新的统一无监督异常检测框架,首次将线性薛定谔桥应用于潜在空间中的异常到正常的转换过程。该方法在MVTec-AD和VisA数据集上分别达到图像级AUROCcls=99.2%和像素级AUROCseg=98.6%,超越现有最优方法超过3个百分点。

核心贡献

本文核心贡献如下:

  • 首个完全无监督的桥接扩散模型:LASB无需额外辅助网络即可实现从异常到正常的平滑映射,解决了传统扩散模型依赖判别子网络的问题。
  • 首个引入线性薛定谔桥至潜在空间的框架:相比标准高斯扩散,保留更多结构性细节,提升异常定位精度(MVTec AUROCseg=98.6%,↑3.1%)。
  • 首个支持多类统一建模的扩散模型架构:无需类别特定训练,适用于多种工业对象类型,且推理速度提升约2倍。
  • 显著降低资源消耗:相较于传统Schrödinger Bridge方法,训练时间减少5×,内存占用下降3×,采样效率提高4×。
  • 稳定输出表现优异:多次采样下性能波动小于±0.1%,确保部署可靠性。

相关工作综述

(一) 学习范式局限

现有方法主要包括:[类别A](如DRAEM [56]、PaDiM [12]),其核心思想是通过重构误差衡量异常程度,但局限在于无法处理多样化的伪异常增强策略过度拟合单一噪声分布导致泛化力弱

→ 本文改进:采用线性薛定谔桥机制,直接优化异常到正常之间的路径,避免依赖伪异常生成质量。

(二) 扩散过程设计缺陷

现有方法主要包括:[类别B](如DDPM、DiAD),其核心思想是从纯噪声逐步恢复图像,但局限在于初始噪声破坏原始结构,导致局部异常响应迟钝和缺乏语义引导时容易陷入局部最优。

→ 本文改进:引入半退化策略,在前向过程中维持结构完整性,同时借助VQ-VAE压缩感知提升效率。

(三) 多类适配能力不足

现有方法主要包括:[类别C](如UniAD、HVQ-Trans),其核心思想是构建跨类共享表示,但局限在于注意力机制易受“快捷学习”干扰 和 类别间特征混淆造成误检率上升。

→ 本文改进:通过Dirac Delta边界条件约束,使模型专注于正常模式重建,天然抑制异常干扰。

方法论详解

图1. LASB 模型框架包含两个关键阶段:训练与推理。在训练阶段,会对图像进行异常数据增强处理,引入 LASB 模型需要学习消除的图像失真特征,最终重建出正常图像。这一迭代过程将持续进行,直至模型能有效过滤异常数据。在推理阶段,模型会对真实异常图像进行处理,重建出正常版本图像。异常检测通过计算原始图像与重建图像之间的差异值(pB−pA)实现,异常特征则通过热力图进行可视化呈现。

(一)潜在空间编码模块

  • - 功能:用于提取输入图像的紧凑潜在表征,便于后续扩散操作;
  • - 机制:采用预训练的VQ-VAE进行感知压缩,将图像编码为64×64×3维潜在向量;
  • - 动机:相比于像素级扩散,潜在空间可大幅降低计算成本并保留关键结构信息;此外,固定权重的设计也增强了稳定性。

推测失败场景:若原始图像存在严重失真(如光照突变),可能导致潜在编码失真进而误导后续扩散过程。

(二)线性薛定谔桥扩散模块

  • - 功能:执行从异常潜在态到正常潜在态的可控变换;
  • - 机制:基于公式(11)定义解析形式后验分布 $ q(z_t|z_0,z_1) $,并通过U-Net预测噪声项 $ \epsilon_\theta(z_t,t) $ 进行反向迭代;
  • - 动机:不同于高斯扩散需逐层加噪破坏结构,本方法通过设定终点分布 $ p_B $ 作为Dirac Delta函数,使得扩散轨迹始终朝向已知正常区域收敛,从而保证重建图像的合理性。

关键技术选择分析:为何选用线性而非非线性薛定谔桥?因为后者虽更灵活,但在实际应用中难以准确估计两端漂移场,反而增加训练难度。

(三)差异热力图生成模块

  • - 功能:用于检测并可视化异常区域;
  • - 机制:比较原图与重建图在多个尺度下的特征差异,并结合ImageNet预训练骨干提取上下文感知特征;
  • - 动机:借鉴DiAD [21] 的做法,通过多尺度残差放大细微异常信号,提升定位敏感度。

可能局限性:当异常区域极小时,可能会被当作背景噪声忽略;此外,纹理类异常由于结构相似性强也可能被漏检。

实验与验证

效率对比:

  • - 参数量比MoCoDAD减少40%
  • - 训练时间仅为传统SB方法的1/5
  • - 推理时间仅需0.74秒(NVIDIA V100 GPU)

消融实验结果:

  • - 移除VQ-VAE → AUROCcls ↓4.1%
  • - 不使用线性SB → AUROCseg ↓3.8%
  • - 缺少差异热力图模块 → F1maxseg ↓7.2%

性能提升归因:LASB之所以优于其他扩散模型,主要得益于两点:

  • 一是线性桥接保留了结构连续性
  • 二是潜在空间操作提升了整体效率

结论与展望

贡献重申:

  1. 首次将线性薛定谔桥引入异常检测领域;
  2. 提出统一多类异常检测框架,无需额外指导;
  3. 在两个主流基准上刷新SOTA记录。

未来方向

  1. 探索动态阈值自适应调整以应对不同异常强度;
  2. 引入不确定性量化机制评估模型置信度;
  3. 将LASB拓展至视频域,研究时空一致性的保持方式;
  4. 构建轻量化版本以便边缘设备部署。

局限性:

  • 对于长时间无异常序列可能出现误报罕见正常事件;
  • 当前仅针对静态图像设计,尚未扩展至动态视频流处理。
http://www.jsqmd.com/news/604968/

相关文章:

  • Dify知识库如何实现多轮对话中的情感分析
  • Redis面试问题大全,看这些就够了(凭借这个oc网易,快手)
  • G-Helper华硕优化工具终极指南:3分钟释放笔记本全部潜力
  • 解锁论文新姿势:书匠策AI,你的毕业论文“智能导航仪”!
  • 《腾讯新闻商品详情页前端性能优化实战》
  • Si4703 FM收音芯片驱动开发与RDS解析实战
  • YOLO26改进 - 注意力机制 | CoordAttention坐标注意力:嵌入位置信息破解通道注意力局限,增强目标空间感知
  • Prometheus Operator介绍
  • 广汽一季度海外业务强劲增长,销量同比增长86%
  • 基于SpringBoot + Vue的教师听评课管理系统(角色:评课专家、教师、管理员)
  • 书匠策AI大揭秘:毕业论文的“智能魔法棒”,让学术之路畅通无阻!
  • # 数据库实体关系转换规则详细报告
  • 2026四川钙砂供应合规企业名录 附核心参数与联系方式 - 优质品牌商家
  • 考拉兹映射中不存在非平凡周期轨道
  • 2026届最火的十大降AI率平台推荐榜单
  • YOLOv11 改进 - 注意力机制 | MFCA频率通道注意力(Multi-Frequency Channel Attention):解决小目标特征信息少、易被噪声干扰的问题
  • 内存受限边缘节点编译失败?手把手复现并解决libc++符号膨胀、RTTI/EXCEPTION裁剪冲突(附可验证Patch)
  • 边缘AI终端部署卡在编译?揭秘C++轻量化编译的5个反直觉陷阱及3步绕过方案
  • SCH1633-D01 |Murata村田|汽车级|±300度的角速率六轴陀螺仪|惯性导航
  • 性能分析定界(OpenHarmony平台)指南
  • ai辅助开发:让快马智能生成win11安装openclaw的交互式诊断助手
  • 2026年大港东部哪家爵士舞培训学校口碑佳?
  • OpenCode 实用学习指南
  • RAG大模型“外挂“揭秘:3步解锁私有数据问答,秒变“开卷学霸“!
  • 大模型训练实战:分布式训练、显存优化与知识蒸馏全解析!
  • 信息化基础设施层建设
  • DFRobot URM13超声波传感器三模通信与自适应测距技术解析
  • TVA深度解析(13):系统运维与故障排查
  • 计算机毕业设计:Python航班运行监测与延误预测系统 Django框架 可视化 MLP 大数据 机器学习 深度学习(建议收藏)✅
  • 2025届学术党必备的十大降AI率助手横评