当前位置: 首页 > news >正文

即插即用系列(代码实践) | CVPR 2025 WPFormer:小波与原型增强Transformer——表面缺陷检测SOTA,专治弱缺陷与杂乱背景

论文题目:Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect Detection

中文题目:用于像素级表面缺陷检测的小波与原型增强基于查询的 Transformer
应用任务:表面缺陷检测 (Surface Defect Detection)、工业异常检测、语义分割

论文原文 (Paper):https://openaccess.thecvf.com/content/CVPR2025/html/Yan_Wavelet_and_Prototype_Augmented_Query-based_Transformer_for_Pixel-level_Surface_Defect_CVPR_2025_paper.html
代码 (code):https://github.com/iefengyan/WPFormer

摘要
本文提取自CVPR 2024顶会论文《Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect Detection》。针对工业场景中微弱缺陷(Weak Defects)难以识别以及杂乱背景(Cluttered Backgrounds)干扰严重的痛点,复现了其核心组件——WPFormer中的WCAPCA模块。该架构创新性地将**小波变换(Wavelet Transform)引入 Transformer 的注意力机制中,利用频域信息分离噪声与边缘,同时利用原型(Prototype)**引导查询,实现了像素级的精准缺陷定位。


目录

    • 第一部分:模块原理与实战分析
      • 1. 论文背景与解决的痛点
      • 2. 核心模块原理揭秘
      • 3. 架构图解
      • 4. 适用场景与魔改建议
    • 第二部分:核心完整代码
    • 第三部分:结果验证与总结

第一部分:模块原理与实战分析

1. 论文背景与解决的痛点

在工业视觉检测中,我们经常面临两个极端难题:

  • 隐形杀手(弱缺陷):很多划痕、裂纹对比度极低,和背景几乎融为一体,普通的 CNN 或 Transformer 根本“看”不见。
  • 由于背景太花(杂乱背景):工业表面往往有复杂的纹理(如织物、金属拉丝),这些纹理在特征提取时会被误判为缺陷,导致大量虚警(False Positive)。

痛点总结:现有的 Query-based 方法(如 Mask2Former)虽然强,但缺乏对频率信息类别语义中心的显式建模,导致在困难样本上表现不佳。

2. 核心模块原理揭秘

WPFormer 提出了D2T Decoder (Dual-domain Two-stage Decoder),其中包含两个核心注意力模块。我已将其封装为即插即用的 PyTorch 类:

  • WCA (Wavelet-enhanced Cross-Attention) - 小波增强交叉注意力

  • 核心逻辑:利用离散小波变换 (DWT)将特征图分解为低频(LL)和

http://www.jsqmd.com/news/367282/

相关文章:

  • SiameseAOE中文-base惊艳效果展示:多属性并行抽取+缺省情感词识别
  • 股市估值在不同经济周期阶段的表现
  • ChatGLM3-6B私有化部署审计要点:模型来源验证、供应链安全、二进制完整性校验
  • UI-TARS-desktop实战:快速部署多模态AI助手教程
  • 惊艳效果展示:圣女司幼幽-造相Z-Turbo生成古风美女图集
  • 小白也能懂:通义千问3-Reranker-0.6B使用全攻略
  • 一键部署体验:圣女司幼幽-造相Z-Turbo文生图模型保姆级教程
  • 上下文工程在智能能源管理中的测试方法:确保系统可靠性的技巧
  • 实战分享:Qwen3-ForcedAligner-0.6B在语音处理中的惊艳表现
  • MiniCPM-V-2_6性能展示:端侧设备实时视频理解体验
  • 附文:岐金兰的补充说明:回应三个问题
  • 文脉定序代码实例:PySpark分布式批量重排序百万级文档的工程实践
  • Janus-Pro-7B保姆级教程:快速搭建你的AI视觉创作平台
  • 2026年正规的轧钢设备生产线,轧钢设备厂家,高端轧钢设备厂家选型推荐指南 - 品牌鉴赏师
  • 邀请他人管理仓库的链接地址
  • 编程技能的普及:未来的必备能力
  • Nano-Banana软萌拆拆屋:3步生成治愈系服饰拆解图,新手也能轻松上手!
  • 2026西安装修公司实力与口碑推荐榜:专注大宅与别墅装修公司 - 电商资讯
  • 委托3--委托声明比较
  • 2026年可靠的45度无扭曲轧机,连铸轧机,四辊轧机厂家优质推荐名录 - 品牌鉴赏师
  • LangGraph加持的DeerFlow:多智能体协作研究解析
  • P1147 连续正整数和
  • 数据结构杂谈
  • 零基础玩转墨语灵犀:古典美学AI翻译工具入门指南
  • 2026年专业的主机入侵检测,Linux主机安全厂商行业实力榜单 - 品牌鉴赏师
  • 3步搞定YOLO X Layout部署:文档分析从未如此简单
  • 天童凯伊,一把陪伴王女的钥匙
  • 中文通用识别新体验:万物识别镜像功能全解析
  • Qwen3-ASR-1.7B语音识别入门:从上传到输出的完整流程
  • 从零开始:用Qwen-Image-Lightning制作赛博朋克风格壁纸