当前位置: 首页 > news >正文

【南京理工-AAAI26】用于跨域少样本分割的分层语义学习


文章:Bridging Granularity Gaps: Hierarchical Semantic Learning for Cross-domain Few-shot Segmentation

代码:暂无

单位:南京理工大学


引言

在计算机视觉领域,“少样本分割”一直是解决数据稀缺问题的核心技术——让AI通过少量标注样本,就能学会分割新类别物体。但现实场景中,训练数据(源领域)和实际应用数据(目标领域)往往差异巨大,比如用鸟类图片训练的模型,很难直接分割医学皮肤病变图或卫星遥感图,这就是“跨域少样本分割(CD-FSS)”的核心挑战。

一、问题背景:跨域分割的“双重鸿沟”

传统跨域少样本分割方法,大多只关注解决“风格差异”——比如把自然照片风格转换成X光片风格。但研究者们发现,还有一个关键问题被忽略了:分割粒度差异

简单说,源领域的前景(比如鸟)和背景差异明显,属于“粗粒度分割”;而目标领域的前景(比如皮肤病变区域)和背景差异极小,更接近源领域中物体内部的细粒度差异(比如鸟的羽毛颜色)。

这就导致一个尴尬的结果:AI在源领域学会了“区分大类别”,到了目标领域却连“相似物体的边界”都分不清。加上跨域带来的风格差异,双重鸿沟让现有模型的分割精度大打折扣。

二、方法创新:HSL框架的“三重buff”

为了同时解决风格差异和粒度差异,研究者提出了分层语义学习(HSL)框架,通过三个核心模块给AI装上“多维度感知能力”:

1. 双重风格随机化(DSR):给训练数据“换衣+换景”

  • 前景风格随机化:用图片中随机局部区域的风格,调整前景物体的风格,模拟目标领域中前景与背景差异小的场景,不破坏图像核心语义。

  • 全局风格随机化:通过随机卷积扰动整张图片的风格,让AI适应不同领域的视觉差异(比如从自然图到卫星图)。

  • 两者结合,让AI在训练时见过足够多的“风格变种”,减少跨域适配的难度。

2. 分层语义挖掘(HSM):让AI看懂“粗细不同的细节”

利用多尺度超像素分割(把图片分成大小不同的小区域),引导AI同时关注“粗粒度类别差异”(比如鸟 vs 背景)和“细粒度细节差异”(比如病变边缘 vs 正常皮肤)。

通过融合低-level细节特征(颜色、纹理)和高-level语义特征(类别信息),AI能自动挖掘不同粒度下的物体特征,轻松适配目标领域的分割需求。

3. 原型置信度调制阈值(PCMT):智能解决“模糊边界”

当前景和背景过于相似时,传统方法容易误判。PCMT模块会先计算AI对分割结果的“置信度”:

  • 置信度高(边界清晰):用常规阈值分割;

  • 置信度低(边界模糊):自动调整阈值,精准区分相似区域。 彻底解决了跨域场景下的分割歧义问题。

三、实验结果:四大数据集全面领先

研究者在卫星遥感图(Deepglobe)、皮肤病变图(ISIC)、胸部X光片(Chest X-ray)、自然图像(FSS-1000)四大目标领域数据集上做了测试,结果亮眼:

1. 精度碾压现有方法

  • 用ResNet-50作为骨干网络时,1-shot和5-shot设置下,比当前最优的DRA方法分别提升3.37%和3.35%;

  • 用ViT-B/16作为骨干网络时,比最优的LoEC方法分别提升3.23%和1.89%;

  • 在所有四大数据集上,均取得当前最高的mIoU(交并比)分数。

2. 效率与性能双优

相比DRA方法,HSL框架的可训练参数从59.3M降至17.2M,计算量(FLOPs)从257.0G降至226.9G,推理速度(FPS)从36.90提升至43.29,实现了“更轻量、更快、更准”。

3. 模块消融验证有效性

单独关闭任何一个模块,模型性能都会明显下降:DSR提升泛化能力,HSM增强粒度适配,PCMT解决模糊分割,三者缺一不可。

四、优势与局限

核心优势

  1. 首次聚焦“分割粒度差异”,填补了跨域少样本分割的技术空白;

  2. 无需目标领域数据微调,训练后直接部署,降低实际应用成本;

  3. 兼顾精度与效率,参数少、速度快,适合边缘设备部署;

  4. 适配多领域场景,从医学影像到卫星遥感,都能稳定发挥。

现存局限

  1. 超像素分割的尺度设置对性能有一定影响,需要根据具体场景调优;

  2. 面对极端风格差异(如抽象艺术图转医学图)时,性能提升空间有限;

  3. 低-level特征融合比例需手动设置,尚未实现完全自适应。

五、一句话总结

HSL框架通过“风格适配+粒度挖掘+智能阈值”三重创新,让AI仅靠少量源领域样本,就能精准分割不同风格、不同粒度的跨域目标,为医学影像分析、遥感图像解译等数据稀缺场景提供了高效解决方案。

http://www.jsqmd.com/news/96539/

相关文章:

  • ComfyUI与Telegraf指标采集集成:全面监控运行状态
  • AutoGPT与FastAPI集成示例:将其封装为RESTful服务供调用
  • 从GitHub克隆到本地运行:EmotiVoice语音合成模型一键部署教程
  • HunyuanVideo-Foley实战:用GitHub镜像快速搭建视频智能音效系统
  • Java Web 高校实习管理系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】
  • 基于EmotiVoice的多情感TTS系统实战:打造富有表现力的AI语音应用
  • CountUp.js数字动画库:从零到精通的终极指南
  • 如何快速搭建开源IT资产管理系统:Snipe-IT完整入门指南
  • AutoGPT支持代码执行吗?实测Python与C#脚本自动运行能力
  • EmotiVoice支持HTML5音频输出?构建网页语音播报系统的可能性
  • 无需GPU也能跑?Kotaemon CPU模式优化技巧提升推理效率
  • 如何监控LobeChat中大模型Token消耗情况
  • 15、Script-Fu 进阶与动画制作指南
  • 使用LobeChat开源框架打造专属大模型对话系统
  • Kotaemon开源项目Star破千:社区贡献者分享最佳实践
  • LobeChat配合Docker容器化提升部署灵活性
  • 开源新星Kotaemon:下一代RAG应用开发利器
  • ComfyUI与Git版本控制:管理工作流迭代历史
  • Kotaemon社区活跃度分析及其发展前景展望
  • Windows下部署EmotiVoice语音合成引擎的完整步骤
  • SpringBoot+Vue 高校教师教研信息填报系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】
  • 企业级高校竞赛管理系统管理系统源码|SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】
  • 前后端分离高校科研信息管理系统系统|SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程
  • Java Web 高校汉服租赁网站系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】
  • Realtek 8852CE无线网卡Ubuntu系统完美驱动指南
  • 基于EmotiVoice的情感语音合成系统实战:从GitHub下载到本地运行
  • 高性能RAG智能体框架Kotaemon上线,支持Docker部署与多轮对话管理
  • WinUtil:Windows系统优化与程序管理的终极工具箱
  • CSS网格生成器:零基础也能玩转专业网页布局的神器
  • AutoGPT与Neo4j图数据库整合:构建智能关系网络的知识图谱