当前位置: 首页 > news >正文

免训练开放词汇分割范式突破!将 SAM 3 零微调适配遥感图像分析领域,17个数据集上刷新SOTA

超高分辨率的遥感图像上的分割结果,原文链接:SAM3+遥感https://mp.weixin.qq.com/s/2Dq2vhtPjdfGcGbgnvlDag

在之前谈到开放词汇分割方案时,必然离不开免训练的 CLIP 派系和 SAM 辅助派系两大类,但前者在精确定位方面常常面临挑战,后者则通常依赖于复杂的多阶段流程。

典型的如遥感图像分析领域,上述问题更为突出。如何在包含成千上万密集小型目标(如车辆、小型建筑)与广阔无定形背景(如农田、水域)的复杂场景中,实现精准的像素级识别?

更棘手的是,真实世界的遥感应用需要处理几乎无限的视觉概念,从突发的灾害损毁到新建的城市设施,模型必须能够理解从未见过的物体类别。

具备可提示概念分割的SAM3非常适配开放词汇分割任务,但直接应用预训练的SAM3模型进行特定任务的处理可行吗?在特定领域中应用SAM3到底需不需要微调呢?

今天给大家介绍的来自西交大的一篇工作,基于 SAM 3 的统一架构提供了一个比复杂的 CLIP 集成方法更强大且更简单的基础模型,用于遥感图像分析,且完全无需额外训练!项目代码已开源、论文链接如下。

# Paper SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images # 论文 https://arxiv.org/pdf/2512.08730 # 代码 https://github.com/earth-insights/SegEarth-OV-3

一、传统方法的双难困境

长期以来,遥感开放词汇语义分割领域被两大技术路线所主导,但它们各自存在明显缺陷:

CLIP 派系:基于CLIP的免训练方法(如MaskCLIP、SCLIP)虽然避免了训练成本,但由于CLIP本身是为图像级分类设计,将其直接用于像素级定位时,往往产生粗糙、模糊的边界。

SAM 辅助派系:RemoteSAM 和 InstructSAM 利用基于SAM的流程将分割与更广泛的解耦任务统一起来。然而,这些方法通常依赖于复杂的多阶段流程需要多个独立模型协同工作,或者需要针对遥感场景仍需专门训练。

二、SAM3:统一架构的降维打击

SAM3 的架构特性与遥感场景完美适配,而且能力都是原生内置的,无需额外的训练或复杂的集成。比如密集小目标、无定形背景、类别稀疏性以及开放词汇需求都是遥感分析面临的四大挑战。

SAM3 将分割、识别、存在性判断统一在一个简洁的框架中。其中三项技术与视觉无限概念的遥感图像场景天然适配。

  • 解耦的三头架构:语义头、实例头、存在性头各司其职;

  • 可提示的概念分割:用户可通过文本描述直接指导模型;

  • 内置前景判断:存在性头能自动判断目标是否存在于场景中;

三、SegEarth-OV3:无需训练的遥感分割

遥感图像中存在两种截然不同的区域:需要像素级语义连续性的无定形物体,以及需要实例级边界精确度的可计数事物。

利用 SAM3 的实例头专门处理可计数对象,保证边界精确,利用其语义头处理无定形区域,保持土地覆盖的完整性。

另外在遥感场景中,一个完整的土地覆盖词汇表可能包含上百个类别,但单个图像块通常只包含其中少数几个。这种高类别稀疏性导致大量不必要的计算和误报。

SAM3 的存在性头提供了完美的解决方案:它能够快速判断某个概念是否存在于当前场景中,从而在早期就过滤掉大量无关类别,将计算资源集中在真正相关的识别任务上。

SegEarth-OV3 的有效性在17个遥感数据集和三个通用场景基准上进行了评估,展示了在多类语义分割和单类提取任务中的最先进性能:

  • 零训练成本:完全使用原始 SAM3 权重,无需任何微调;

  • 边界精度提升:相比 CLIP 基线上边界清晰度提升30%以上;

  • 处理效率优化:存在性过滤减少40%不必要的计算;

  • 通用性强:不仅在遥感场景有效,在自然图像分割基准上也表现优异;

SAM3 的解耦架构本身就能胜任遥感开放词汇分割,复杂流程和领域训练可能不再是必选项

文末有其他几篇遥感领域大模型的文章介绍,小伙伴们可留言区回复‘加群’进入大模型交流群、视觉应用落地交流群!

http://www.jsqmd.com/news/94513/

相关文章:

  • React Native鸿蒙开发实战(一):环境搭建与第一个应用 - 青青子衿-
  • 【紧急预警】医疗信息系统即将强制升级?PHP开发者必知的6项新合规要求
  • CBAM不是合规问题,是企业未来三年“还能不能接欧盟订单”的问题
  • 泛型实例化陷阱频发?资深架构师总结的6大避坑法则
  • 揭秘Rust与PHP扩展兼容性难题:5个关键步骤实现无缝版本对接
  • Keithley 6517B 静电计在太空实验中的应用
  • 延迟渲染中的阴影难题,如何在复杂场景下保持144FPS不掉帧?
  • 第16篇:CreamFL《Multimodal Federated Learning via Contrastive Representation Ensemble》多模态联邦学习
  • 【Laravel 13重大更新揭秘】:多模态数据校验如何重构你的验证逻辑?
  • Ollama本地缓存机制对PyTorch模型加载速度的影响
  • Laravel 13多模态事件监听实战:如何实现高响应性应用架构?
  • pwnable.kr记录
  • zookeeper基础概念及集群部署
  • GraphQL类型复用陷阱频发?3年踩坑总结出的5条黄金规则
  • Qwen3-14B与Codex在代码生成任务上的对比分析
  • QDK API文档精读实战:快速定位接口问题的黄金法则
  • Dify部署实战:用Qwen3-8B构建企业级对话机器人
  • Alpha版本测试报告
  • 【Q#编程入门指南】:掌握量子计算的5个核心示例与实战技巧
  • 掌握这4种初始化模式,轻松玩转R量子计算模拟包
  • 农业IoT系统总是掉线?,PHP设备心跳机制设计全解析
  • huggingface镜像网站推荐:快速获取gpt-oss-20b模型权重
  • AIDL进程间通信
  • ESD二极管靠谱厂家排名
  • 我在小米推了两年的方向,字节用豆包手机助手做出来了
  • 【高并发场景下的EF Core调优实战】:支撑每秒万级请求的3个关键配置
  • 手握证书,赢得先机|信创产品评估证书的办理全流程与核心价值
  • 基于单片机的智能节能台灯的设计
  • 农业物联网系统稳定性背后的秘密:PHP数据聚合周期配置最佳实践
  • 半导体分立器件静态参数测试仪系统使用价值和选型参考