当前位置：首页 > news >正文

【武汉大学-AAAI26】S5: 遥感中的可扩展半监督语义分割

news 2026/6/29 0:42:58

文章：S5: Scalable Semi-Supervised Semantic Segmentation in Remote Sensing

代码：https://github.com/MiliLab/S5

单位：武汉大学

一、问题背景：遥感分析的“标注困境”与“规模瓶颈”

遥感图像语义分割是图像理解的核心任务，目标是给图像中每个像素精准分类，从而自动识别土地覆盖信息。但传统方法存在两大难题：

标注成本高：像素级人工标注耗时耗力，高质量训练样本获取难度大，严重限制了模型性能；
数据利用率低：地球上每天产生海量遥感影像，但大多因缺乏标注而被闲置，现有半监督学习方法（S4）又受限于小规模数据集和模型，无法发挥海量数据的价值；
模型通用性差：现有遥感基础模型（RSFMs）要么依赖稀缺的标注数据，要么难以适配多个不同场景的任务，参数冗余且部署效率低。

这些问题导致遥感图像分析的规模化应用一直难以推进，亟需一种能高效利用无标注数据、兼顾性能与通用性的新方案。

二、方法创新：S5框架的三大核心设计

针对上述痛点，研究团队提出了S5（Scalable Semi-Supervised Semantic Segmentation）框架，通过“数据集构建-模型预训练-多任务微调”的全流程创新，实现了遥感半监督学习的规模化突破：

1. 百万级数据集RS4P-1M：挑出来的“优质数据”

要训好模型，先要有好数据。S5整合了MillionAID、SAMRS等公开数据集，通过“低熵过滤+多样性扩展”策略，筛选出100万张高质量无标注遥感图像，构建了RS4P-1M数据集：

低熵过滤：优先选择模型预测“有把握”的图像，减少噪声数据影响；
多样性扩展：通过聚类算法确保图像覆盖城市、农田、海洋等不同地理场景，避免语义冗余。这一数据集既保证了伪标签质量，又兼顾了场景多样性，为后续训练打下坚实基础。

2. S4P预训练：让模型“吃透”无标注数据

S5将半监督学习（S4）升级为规模化预训练范式（S4P），采用高效的FixMatch算法：

对无标注图像做两种处理：轻度增强（缩放、翻转）和重度增强（颜色调整、模糊、裁剪）；
让模型对同一张图的两种版本预测结果保持一致，同时用少量标注数据纠正偏差，确保学习到的特征既通用又精准；
模型初始化采用MAE预训练权重，进一步提升特征提取能力。

3. MoE-MDF微调：一个模型搞定多个任务

针对传统模型“一个数据集训一个模型”的低效问题，S5提出基于“专家混合（MoE）”的多数据集微调策略：

共享专家：学习所有遥感任务的通用规律（如“道路多为长条状”）；
专属专家：针对不同数据集的特点（如城市 vs 农村场景）适配特定特征；
无需额外参数和推理延迟，就能让一个模型高效适配多个语义分割和目标检测任务，大幅降低部署成本。

三、实验结果：多项任务刷新SOTA，性能与效率双优

研究团队在6个主流遥感 benchmark（4个语义分割+2个目标检测）上做了全面测试，S5框架的表现堪称“惊艳”：

1. 语义分割任务

在Vaihingen、Potsdam等数据集上，S5的ViT-H模型mIoU（平均交并比）最高达到80.85%，OpenEarthMap数据集上更是突破70%，远超RVSA、SAMRS等现有模型；

2. 目标检测任务

在DIOR-R、DOTA-v2.0数据集上，S5的ViT-L模型mAP（平均精度）达到75.21%，比同类模型参数少一半却性能更优，对飞机、桥梁等旋转目标的检测精度显著提升；

3. 参数效率突出

S5的ViT-L模型处理多数据集时，分割参数仅为现有模型的1/3，却能保持更优性能，兼顾了“轻量性”和“强性能”；

4. 泛化能力超强

不仅在遥感图像任务中表现出色，还能迁移到自然图像分割场景，在Cityscapes、COCO等数据集上比MAE预训练模型提升2%以上，证明了其跨领域适配能力。

四、优势与局限：客观看待S5的价值与未来

核心优势

数据利用高效：首次将半监督学习规模化应用于遥感领域，激活了海量无标注数据的价值，大幅降低标注成本；
模型通用灵活：MoE-MDF策略让一个模型适配多个任务，参数冗余少，部署效率高；
性能全面领先：在多个主流 benchmark 上刷新SOTA，兼顾精度与速度，实用性强；
开源共享：后续将公开数据集、代码和模型，助力遥感AI领域的整体发展。

现存局限

数据集依赖现有资源：RS4P-1M基于公开数据集构建，部分场景的覆盖可能仍有不足；
伪标签存在噪声：尽管经过筛选，无标注数据生成的伪标签仍可能包含少量错误，对极端场景的识别精度有一定影响；
训练成本较高：百万级数据集的预训练需要较多计算资源，对中小团队的门槛较高。

五、一句话总结

S5框架通过百万级优质数据集、规模化半监督预训练和多任务高效微调的创新组合，首次实现了遥感半监督学习的规模化应用，让海量无标注遥感数据“物尽其用”，为遥感图像分析的低成本、高通用、规模化推进提供了全新解决方案。

查看全文

http://www.jsqmd.com/news/102885/

Typora代码块痛点破解万字详解

创意AI应用开发大赛：基于Google AI Studio构建创新性人工智能解决方案万字详解

用代码生成电影预告片：Python实现智能剪辑创意

EmotiVoice在元宇宙场景中的语音赋能路径

2、Linux基础命令：ls命令全解析

3、Linux 文件管理与操作全攻略

4、Linux 文件操作命令全解析

老旧电脑硬件升级万字指南：焕发新生，性能飞跃

EmotiVoice语音合成模型的推理能耗与绿色计算考量

菜鸟小师妹对着无刷电机一脸迷茫，老王神秘兮兮的递过来一颗芯片......

EmotiVoice语音合成在语音日记类APP中的情感共鸣设计

如何训练自定义情感模型接入EmotiVoice框架？

使用Docker快速启动EmotiVoice语音合成服务

EmotiVoice语音合成中的多轮对话情感连贯性维护

【第12天】12c#今日小结

使用EmotiVoice打造专属声音IP：适用于短视频与播客

EmotiVoice能否支持多人协作编辑语音项目？

set和get属性、修饰符范围

析构函数、构造函数

属性的set和get访问器，构造函数和析构函数

31、《Expect 中 spawn 命令的使用与相关问题处理》

32、Expect工具的进程与信号处理

33、Expect 脚本中的信号处理与交互命令详解

34、《深入理解 interact 命令：功能、模式与匹配机制》

35、深入探索 `interact` 命令的强大功能

36、《Interact 命令的深入应用与技巧》