当前位置: 首页 > news >正文

【港科大-郑自强组-ICCV25】CoralSRT:通过自监督引导的特征校正重新探索珊瑚礁语义分割


文章:CoralSRT: Revisiting Coral Reef Semantic Segmentation by Feature Rectification via Self-supervised Guidance

代码:https://coralsrt.hkustvgd.com/

单位:香港中文大学


一、问题背景:珊瑚的"任性生长"难倒AI

珊瑚的生长受基因、环境变化、生物竞争等多重因素影响,形状、纹理和分布极具随机性,没有固定的结构规律。相比鱼类等可通过局部特征推断整体的生物,珊瑚即使部分遮挡也无法预判完整形态,导致 segmentation 难度陡增。

现有方法存在明显短板:传统数据驱动模型依赖海量标注数据,耗费大量人力和专业知识;基于超像素的稀疏到密集转换方法难以捕捉高层语义;SAM等提示性分割模型常出现"漏标"或"误标"问题,无法适配珊瑚的无规则生长特性。这些问题严重限制了珊瑚礁监测的规模化应用。

二、方法创新:CoralSRT 用自监督校正破解痛点

研究团队提出的 CoralSRT(珊瑚自监督校正训练)方法,以"段"为核心构建分割逻辑,无需额外标注、不微调基础模型,就能实现高效语义分割。

其核心创新在于两点:一是建模段内亲和性,通过SAM 2等基础模型生成密集掩码,迫使同一段内的特征向中心值(均值或中位数)靠拢,强化珊瑚的自我相似性特征;二是借助基础模型的大规模预训练优势,通过特征聚类实现跨段亲和性建模,无需人工定义语义标签。

整个过程通过自监督校正模块 Rec(·) 完成特征优化,仅需利用基础模型已有的特征信息,就能降低珊瑚特征的随机性,让 label 传播更高效。该方法还具有任务和模型无关性,可灵活适配不同基础模型和应用场景。

三、实验结果:多项指标刷新性能上限

研究团队构建了包含264万张无标签图像的 CoralWorld 数据集,以及覆盖10个国家、1109张图像的多场景测试集,从多维度验证效果:

  1. 稀疏到密集转换:在100个标注点下,CoralSRT 结合 CoralSCOP 基础模型,mIoU 达到74.32%,远超 SAM 2的33.18%和传统方法 Fast-MSS 的28.34%;

  2. 零样本分割:在 Mosaics UCSD 数据集上,50个标注点时 mIoU 达44.66%,优于 HIL、FeatUp 等专业算法;

  3. 语义分割对比:无需训练微调的 CoralSRT‡,在100个标注点下 mIoU 达75.29%,接近甚至超越 DeeplabV3、Mask2Former 等监督学习模型;

  4. 数据适应性:即使使用 COCO-Stuff 通用数据集优化,也能实现有效分割,证明其不依赖领域特定数据。

四、优势与局限:亮点突出,仍有提升空间

核心优势

  • 零额外成本:无需人工标注、不微调基础模型,大幅降低数据收集和模型优化门槛;

  • 高灵活性:支持自定义标签集,适配不同区域的珊瑚研究需求,满足生态探索的本质目的;

  • 强泛化性:不仅适用于珊瑚礁,还能迁移到植物、细胞、生物污垢等无固定结构的分割场景;

  • 高效易实现:目标特征制备速度比同类方法 DVT 快109倍,核心代码修改量少。

现存局限

  • 无法自动生成独立珊瑚掩码,相比 CoralSRT、SAM 系列,在个体珊瑚区分上存在不足;

  • 特征校正效果依赖预训练数据的质量和覆盖度,极端场景下性能可能受影响;

  • 稀疏点选择仍会对结果产生一定影响,虽已优化但未完全消除。

五、一句话总结

CoralSRT 通过自监督特征校正,打破了珊瑚礁语义分割对海量标注和领域数据的依赖,为无固定结构目标的分割提供了高效解决方案,也为生态监测的规模化应用奠定了技术基础。

http://www.jsqmd.com/news/265005/

相关文章:

  • Altium Designer生成Gerber文件从零实现教程
  • 一键运行bert-base-chinese:智能客服文本分类实战教程
  • 5分钟上手NewBie-image-Exp0.1:零基础玩转高质量动漫生成
  • 零基础也能懂!用万物识别镜像轻松实现中文图像分类
  • Z-Image-Turbo与Flux对比:开源文生图模型性能全面评测
  • Qwen3-Embedding-0.6B教育场景案例:多语言作业自动分类系统实战
  • 万物识别模型版本升级:从旧版到PyTorch 2.5迁移指南
  • Open Interpreter艺术创作辅助:Qwen3-4B生成音乐代码部署教程
  • 批量处理图片太慢?试试cv_resnet18_ocr-detection提速秘籍
  • FRCRN语音降噪-单麦-16k镜像应用|打造全自动离线字幕方案
  • 一键卡通化:DCT-Net WebUI的完整使用教程
  • NotaGen音乐生成全解析|LLM驱动的古典符号化创作
  • DeepSeek-R1-Distill-Qwen-1.5B代码补全:IDE插件开发指南
  • 小白也能懂的通义千问2.5-7B-Instruct部署指南
  • 看完就想试!Qwen3-4B-Instruct打造的商业文案效果展示
  • BGE-M3性能优化:检索速度提升3倍技巧
  • 5分钟上手AutoGen Studio:零代码搭建Qwen3-4B智能代理
  • verl框架文档解读:安装验证全流程步骤详解
  • 没有参考文本能行吗?GLM-TTS留空字段实测
  • W5500实现PLC联网控制:从零实现教程
  • 如何扩展MGeo功能?自定义字段与额外特征添加实操指南
  • YOLOE官版镜像Conda环境配置全攻略
  • 主流手势模型评测:AI手势识别与追踪在移动端适配表现
  • 实测Qwen3-Reranker-0.6B:轻量级模型在文本排序中的惊艳表现
  • Youtu-2B代码生成能力实战:Python算法编写详细案例
  • Qwen3-VL-2B-Instruct保姆级教程:WebUI集成视觉机器人部署
  • 从0开始学Meta-Llama-3-8B-Instruct:保姆级AI对话教程
  • 多平台支持!gpt-oss-20b-WEBUI跨系统部署实测
  • FSMN-VAD医疗场景应用:问诊录音结构化处理案例
  • 无需显卡!用DeepSeek-R1在树莓派上跑通AI逻辑推理