当前位置: 首页 > news >正文

【CVPR26-Min Tan-杭电】基于多线索学习的伪标签进化融合与优化:用于无监督伪装检测


文章:EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection

代码:https://github.com/JSLiam94/EReCu

单位:杭州电子科技大学、浙江大学


一、问题背景

伪装目标检测的核心难点,在于目标物体与周边环境高度相似,纹理对比度低、边界交融紧密,常规的显著性检测方法难以有效识别。而无监督伪装目标检测,更是需要在无人工像素级标注的前提下完成检测,现有方法主要分为两大范式,且均存在明显瓶颈:

  1. 伪标签引导类方法:早期依赖静态伪标签生成,易引入背景噪声,后续的师生网络改进方案又忽略了图像原生感知线索,导致边界溢出、语义漂移,检测结果不准确;

  2. 特征学习类方法:通过注意力机制、环境先验等分离前景和背景特征,但缺乏伪标签的显式监督,容易造成目标边界模糊、精细纹理细节丢失。

此外,现有方法普遍将语义可靠性和纹理保真度分开优化,形成了语义与感知之间的鸿沟,进一步加剧了伪标签漂移和细节退化的问题,难以在复杂伪装场景下实现精准检测。

二、方法创新

研究团队提出的EReCu框架,基于DINO的师生网络架构,核心创新是将多线索原生感知与伪标签进化融合、局部精修相结合,让语义可靠性和纹理保真度通过相互反馈共同进化,从根本上解决了现有方法的痛点。框架包含三大核心模块,各模块协同作用、层层递进:

1. 多线索原生感知模块(MNP)

作为整个框架的基础,该模块提取图像的原生视觉先验信息,融合LBP、DoG等低层纹理特征和冻结ResNet-18提取的中层语义特征,构建多线索特征表示;同时设计多线索质量度量指标,量化前景-背景的可分离性,为后续伪标签的进化和精修提供可靠的图像原生监督信号,确保所有优化都贴合图像本身的固有特征。

2. 伪标签进化融合模块(PEF)

包含进化伪标签学习(EPL)和谱张量注意力融合(STAF)两个子模块:EPL通过深度可分离卷积实现学生浅层特征与教师深层特征的交互,结合Dice损失和MNP损失迭代优化伪标签,实现语义去噪和伪标签的动态进化;STAF则利用Tucker分解和截断SVD谱滤波,融合学生网络多层注意力图,在抑制噪声的同时保留语义和结构一致性,生成稳定的全局伪标签。

3. 局部伪标签精修模块(LPR)

针对全局伪标签易丢失边界和纹理细节的问题,利用DINO多头自注意力的空间多样性,通过目标感知注意力选择(TAS),结合注意力熵和MNP感知线索筛选出聚焦目标的注意力头;再通过局部伪标签生成(LPG),从高置信度区域生成精细的局部伪标签,结合Dice损失和交叉熵损失优化全局预测结果,恢复目标的精细纹理和边界保真度。

三大模块形成闭环:MNP为PEF和LPR提供原生线索指导,PEF生成高质量全局伪标签,LPR对全局伪标签进行局部细节精修,最终实现结构保留的伪装目标检测。

三、实验结果

为验证EReCu框架的有效性,研究团队开展了全面的实验验证,实验设置和结果均表现出优异的性能:

1. 实验设置

  • 数据集:训练集融合CAMO-Train(1000张)和COD10K-Train(3040张)无标注图像,在CHAMELEON、CAMO、COD10K、NC4K四个主流COD基准数据集上进行测试;

  • 评价指标:采用结构度量()、加权F值()、E度量()、平均绝对误差(M)四大经典指标;

  • 实现细节:以DINO-ViT-S/8为编码器,采用AdamW优化器、余弦退火学习率,在NVIDIA Tesla V100-SXM2 GPU上完成训练,保证实验的可复现性。

2. 核心结果

  • 定量性能:EReCu在四个测试数据集的所有评价指标上均达到SOTA水平,全面超越UCOD-DPL、SdalsNet等主流无监督伪装目标检测方法,以及TokenCut、FOUND等经典无监督目标分割方法,例如在CHAMELEON数据集上达0.7321、M低至0.0716,边界和细节检测精度显著提升;

  • 定性效果:在复杂伪装场景下,EReCu生成的分割掩码边界更锐利、结构细节更丰富,能有效识别深度伪影下的伪装目标,相比现有方法更贴合真实标注;

  • 消融实验:移除任一核心模块均会导致性能明显下降,MNP与EPL的组合带来最显著的性能提升,证明各模块的互补性和整体框架的合理性,所有模块的协同集成是实现高性能的关键。

四、优势与局限

1. 核心优势

  • 创新的协同优化思路:首次将多线索原生感知与伪标签的进化、精修深度结合,实现语义和感知的共同进化,填补了两者之间的鸿沟,同时解决了伪标签漂移和细节退化两大核心问题;

  • 高精度的检测效果:相比现有方法,EReCu在边界对齐、细节感知上表现更优,能在复杂伪装场景下生成更准确、更精细的分割掩码,泛化能力更强;

  • 高效的计算与设计:采用深度可分离卷积、低秩分解等轻量化操作,在保证性能的同时降低计算成本,各模块设计贴合伪装目标检测的任务特性,针对性强;

  • 良好的可复现性:公开代码和详细的实验设置,为后续无监督伪装目标检测的研究提供了可靠的基准。

2. 现存局限

  • 对纹理特征的依赖性:MNP模块依赖低层纹理特征提取,在纹理极度模糊、目标与背景几乎无纹理差异的极端伪装场景下,检测性能可能出现下降;

  • 超参数的敏感性:框架中部分阈值、可学习参数(如注意力选择的阈值、局部伪标签生成的α)需通过经验设定,在不同类型的数据集上可能需要重新调优;

  • 检测速度:相比部分轻量级无监督检测方法,EReCu因包含多层特征融合、迭代优化等步骤,在检测推理速度上仍有提升空间,暂难以满足实时检测的需求。

五、一句话总结

杭州电子科技大学与浙江大学团队提出的EReCu框架,通过多线索原生感知、伪标签进化融合和局部精修三大模块的协同作用,实现了无监督伪装目标检测中语义可靠性与纹理保真度的共同进化,在多个基准数据集上达到SOTA性能,有效提升了复杂场景下伪装目标的边界检测精度和细节感知能力,为无监督伪装目标检测的研究提供了新的思路和基准。

http://www.jsqmd.com/news/488276/

相关文章:

  • ChatGLM3-6B在医疗领域的创新应用:智能问诊与病历分析
  • Python 基于 Flask 和 Vue 的电商管理系统
  • SAP库存与固定资产导入实战:从标准价格设定到差异处理全流程
  • GTE-large部署教程:GitOps工作流(Argo CD)实现NLP服务持续交付
  • PyTorch钩子方法实战:如何用register_forward_hook提取中间层特征图(附代码避坑指南)
  • 计算机毕业设计java基于前后端分离的网上音乐推荐系统基于微服务架构的智能音乐推荐平台的设计与开发融合用户画像的个性化音乐推送系统的构建与实现
  • 设计模式-装饰器模式
  • Go语言开发的my2sql vs Python版binlog2sql:性能对比与选型指南
  • FireRed-OCR Studio保姆级教程:日志监控、性能分析与GPU利用率可视化
  • 手搓一个龙虾openClaw,window 安装教程
  • 七彩光轨重构仓储未来:智能寻物拣货系统的效率革命
  • 通义千问2.5-7B必装插件推荐:提升部署效率的5个工具
  • django基于深度学习的旅游推荐系统
  • 为什么我推荐在CentOS7上使用Python 3.12.7?性能对比与升级全攻略
  • SGLang-v0.5.6实战效果:工单处理延迟降低58%,吞吐量翻倍
  • Qwen3-14B企业级应用解析:从合同审查到报告总结的实战落地
  • CLIP-GmP-ViT-L-14效果对比评测:与传统图像检索算法的性能差异
  • AI原生企业的本质:从辅助工具到产业基因的跃迁
  • 用C语言手搓可视化排序算法:从冒泡到堆排序的10种实现(附完整代码)
  • springboot基于微信小程序的共享办公室在线预约与租赁系统的设计与实现-
  • 【AI大模型教程】GLM-TTS快速上手指南:从安装到生成,手把手教你做AI配音
  • Phi-3-Mini-128K模型服务化部署:使用Docker容器化与API封装
  • 幻境·流金BF16混合精度实操:适配A10/H100的高性能推理环境配置详解
  • 网络:6.传输层协议UDP
  • RexUniNLU中文NLU部署白皮书:从单机开发到K8s集群的可扩展架构
  • Qwen3-ASR-0.6B语音识别入门必看:自动语言检测+多格式音频支持详解
  • cv_unet_image-colorization快速部署:本地运行,隐私安全无网络依赖
  • 运维必备神器:Linux pv 命令详解(大文件进度条神器)
  • 【2026开发者生存预警】:VSCode跨端调试不再兼容旧插件——3类项目必须在Q2前完成迁移
  • 5个维度解析Lightpanda:轻量级高效无头浏览器的技术实践与价值