当前位置：首页 > news >正文

【南京理工-AAAI26】用于跨域少样本分割的分层语义学习

news 2026/3/26 18:16:04

文章：Bridging Granularity Gaps: Hierarchical Semantic Learning for Cross-domain Few-shot Segmentation

代码：暂无

单位：南京理工大学

引言

在计算机视觉领域，“少样本分割”一直是解决数据稀缺问题的核心技术——让AI通过少量标注样本，就能学会分割新类别物体。但现实场景中，训练数据（源领域）和实际应用数据（目标领域）往往差异巨大，比如用鸟类图片训练的模型，很难直接分割医学皮肤病变图或卫星遥感图，这就是“跨域少样本分割（CD-FSS）”的核心挑战。

一、问题背景：跨域分割的“双重鸿沟”

传统跨域少样本分割方法，大多只关注解决“风格差异”——比如把自然照片风格转换成X光片风格。但研究者们发现，还有一个关键问题被忽略了：分割粒度差异。

简单说，源领域的前景（比如鸟）和背景差异明显，属于“粗粒度分割”；而目标领域的前景（比如皮肤病变区域）和背景差异极小，更接近源领域中物体内部的细粒度差异（比如鸟的羽毛颜色）。

这就导致一个尴尬的结果：AI在源领域学会了“区分大类别”，到了目标领域却连“相似物体的边界”都分不清。加上跨域带来的风格差异，双重鸿沟让现有模型的分割精度大打折扣。

二、方法创新：HSL框架的“三重buff”

为了同时解决风格差异和粒度差异，研究者提出了分层语义学习（HSL）框架，通过三个核心模块给AI装上“多维度感知能力”：

1. 双重风格随机化（DSR）：给训练数据“换衣+换景”

前景风格随机化：用图片中随机局部区域的风格，调整前景物体的风格，模拟目标领域中前景与背景差异小的场景，不破坏图像核心语义。
全局风格随机化：通过随机卷积扰动整张图片的风格，让AI适应不同领域的视觉差异（比如从自然图到卫星图）。
两者结合，让AI在训练时见过足够多的“风格变种”，减少跨域适配的难度。

2. 分层语义挖掘（HSM）：让AI看懂“粗细不同的细节”

利用多尺度超像素分割（把图片分成大小不同的小区域），引导AI同时关注“粗粒度类别差异”（比如鸟 vs 背景）和“细粒度细节差异”（比如病变边缘 vs 正常皮肤）。

通过融合低-level细节特征（颜色、纹理）和高-level语义特征（类别信息），AI能自动挖掘不同粒度下的物体特征，轻松适配目标领域的分割需求。

3. 原型置信度调制阈值（PCMT）：智能解决“模糊边界”

当前景和背景过于相似时，传统方法容易误判。PCMT模块会先计算AI对分割结果的“置信度”：

置信度高（边界清晰）：用常规阈值分割；
置信度低（边界模糊）：自动调整阈值，精准区分相似区域。彻底解决了跨域场景下的分割歧义问题。

三、实验结果：四大数据集全面领先

研究者在卫星遥感图（Deepglobe）、皮肤病变图（ISIC）、胸部X光片（Chest X-ray）、自然图像（FSS-1000）四大目标领域数据集上做了测试，结果亮眼：

1. 精度碾压现有方法

用ResNet-50作为骨干网络时，1-shot和5-shot设置下，比当前最优的DRA方法分别提升3.37%和3.35%；
用ViT-B/16作为骨干网络时，比最优的LoEC方法分别提升3.23%和1.89%；
在所有四大数据集上，均取得当前最高的mIoU（交并比）分数。

2. 效率与性能双优

相比DRA方法，HSL框架的可训练参数从59.3M降至17.2M，计算量（FLOPs）从257.0G降至226.9G，推理速度（FPS）从36.90提升至43.29，实现了“更轻量、更快、更准”。

3. 模块消融验证有效性

单独关闭任何一个模块，模型性能都会明显下降：DSR提升泛化能力，HSM增强粒度适配，PCMT解决模糊分割，三者缺一不可。

四、优势与局限

核心优势

首次聚焦“分割粒度差异”，填补了跨域少样本分割的技术空白；
无需目标领域数据微调，训练后直接部署，降低实际应用成本；
兼顾精度与效率，参数少、速度快，适合边缘设备部署；
适配多领域场景，从医学影像到卫星遥感，都能稳定发挥。

现存局限

超像素分割的尺度设置对性能有一定影响，需要根据具体场景调优；
面对极端风格差异（如抽象艺术图转医学图）时，性能提升空间有限；
低-level特征融合比例需手动设置，尚未实现完全自适应。

五、一句话总结

HSL框架通过“风格适配+粒度挖掘+智能阈值”三重创新，让AI仅靠少量源领域样本，就能精准分割不同风格、不同粒度的跨域目标，为医学影像分析、遥感图像解译等数据稀缺场景提供了高效解决方案。

http://www.jsqmd.com/news/96539/

相关文章：

ComfyUI与Telegraf指标采集集成：全面监控运行状态

AutoGPT与FastAPI集成示例：将其封装为RESTful服务供调用

从GitHub克隆到本地运行：EmotiVoice语音合成模型一键部署教程

HunyuanVideo-Foley实战：用GitHub镜像快速搭建视频智能音效系统

Java Web 高校实习管理系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

基于EmotiVoice的多情感TTS系统实战：打造富有表现力的AI语音应用

CountUp.js数字动画库：从零到精通的终极指南

如何快速搭建开源IT资产管理系统：Snipe-IT完整入门指南

AutoGPT支持代码执行吗？实测Python与C#脚本自动运行能力

EmotiVoice支持HTML5音频输出？构建网页语音播报系统的可能性

无需GPU也能跑？Kotaemon CPU模式优化技巧提升推理效率

如何监控LobeChat中大模型Token消耗情况

15、Script-Fu 进阶与动画制作指南

使用LobeChat开源框架打造专属大模型对话系统

Kotaemon开源项目Star破千：社区贡献者分享最佳实践

LobeChat配合Docker容器化提升部署灵活性

开源新星Kotaemon：下一代RAG应用开发利器

ComfyUI与Git版本控制：管理工作流迭代历史

Kotaemon社区活跃度分析及其发展前景展望

Windows下部署EmotiVoice语音合成引擎的完整步骤

SpringBoot+Vue 高校教师教研信息填报系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

企业级高校竞赛管理系统管理系统源码｜SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

前后端分离高校科研信息管理系统系统｜SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

Java Web 高校汉服租赁网站系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

Realtek 8852CE无线网卡Ubuntu系统完美驱动指南

基于EmotiVoice的情感语音合成系统实战：从GitHub下载到本地运行

高性能RAG智能体框架Kotaemon上线，支持Docker部署与多轮对话管理

WinUtil：Windows系统优化与程序管理的终极工具箱

CSS网格生成器：零基础也能玩转专业网页布局的神器

AutoGPT与Neo4j图数据库整合：构建智能关系网络的知识图谱