当前位置：首页 > news >正文

【港科大-郑自强组-ICCV25】CoralSRT：通过自监督引导的特征校正重新探索珊瑚礁语义分割

news 2026/3/27 3:56:24

文章：CoralSRT: Revisiting Coral Reef Semantic Segmentation by Feature Rectification via Self-supervised Guidance

代码：https://coralsrt.hkustvgd.com/

单位：香港中文大学

一、问题背景：珊瑚的"任性生长"难倒AI

珊瑚的生长受基因、环境变化、生物竞争等多重因素影响，形状、纹理和分布极具随机性，没有固定的结构规律。相比鱼类等可通过局部特征推断整体的生物，珊瑚即使部分遮挡也无法预判完整形态，导致 segmentation 难度陡增。

现有方法存在明显短板：传统数据驱动模型依赖海量标注数据，耗费大量人力和专业知识；基于超像素的稀疏到密集转换方法难以捕捉高层语义；SAM等提示性分割模型常出现"漏标"或"误标"问题，无法适配珊瑚的无规则生长特性。这些问题严重限制了珊瑚礁监测的规模化应用。

二、方法创新：CoralSRT 用自监督校正破解痛点

研究团队提出的 CoralSRT（珊瑚自监督校正训练）方法，以"段"为核心构建分割逻辑，无需额外标注、不微调基础模型，就能实现高效语义分割。

其核心创新在于两点：一是建模段内亲和性，通过SAM 2等基础模型生成密集掩码，迫使同一段内的特征向中心值（均值或中位数）靠拢，强化珊瑚的自我相似性特征；二是借助基础模型的大规模预训练优势，通过特征聚类实现跨段亲和性建模，无需人工定义语义标签。

整个过程通过自监督校正模块 Rec(·) 完成特征优化，仅需利用基础模型已有的特征信息，就能降低珊瑚特征的随机性，让 label 传播更高效。该方法还具有任务和模型无关性，可灵活适配不同基础模型和应用场景。

三、实验结果：多项指标刷新性能上限

研究团队构建了包含264万张无标签图像的 CoralWorld 数据集，以及覆盖10个国家、1109张图像的多场景测试集，从多维度验证效果：

稀疏到密集转换：在100个标注点下，CoralSRT 结合 CoralSCOP 基础模型，mIoU 达到74.32%，远超 SAM 2的33.18%和传统方法 Fast-MSS 的28.34%；
零样本分割：在 Mosaics UCSD 数据集上，50个标注点时 mIoU 达44.66%，优于 HIL、FeatUp 等专业算法；
语义分割对比：无需训练微调的 CoralSRT‡，在100个标注点下 mIoU 达75.29%，接近甚至超越 DeeplabV3、Mask2Former 等监督学习模型；
数据适应性：即使使用 COCO-Stuff 通用数据集优化，也能实现有效分割，证明其不依赖领域特定数据。

四、优势与局限：亮点突出，仍有提升空间

核心优势

零额外成本：无需人工标注、不微调基础模型，大幅降低数据收集和模型优化门槛；
高灵活性：支持自定义标签集，适配不同区域的珊瑚研究需求，满足生态探索的本质目的；
强泛化性：不仅适用于珊瑚礁，还能迁移到植物、细胞、生物污垢等无固定结构的分割场景；
高效易实现：目标特征制备速度比同类方法 DVT 快109倍，核心代码修改量少。

现存局限

无法自动生成独立珊瑚掩码，相比 CoralSRT、SAM 系列，在个体珊瑚区分上存在不足；
特征校正效果依赖预训练数据的质量和覆盖度，极端场景下性能可能受影响；
稀疏点选择仍会对结果产生一定影响，虽已优化但未完全消除。

五、一句话总结

CoralSRT 通过自监督特征校正，打破了珊瑚礁语义分割对海量标注和领域数据的依赖，为无固定结构目标的分割提供了高效解决方案，也为生态监测的规模化应用奠定了技术基础。

http://www.jsqmd.com/news/265005/

相关文章：

Altium Designer生成Gerber文件从零实现教程

一键运行bert-base-chinese：智能客服文本分类实战教程

5分钟上手NewBie-image-Exp0.1：零基础玩转高质量动漫生成

零基础也能懂！用万物识别镜像轻松实现中文图像分类

Z-Image-Turbo与Flux对比：开源文生图模型性能全面评测

Qwen3-Embedding-0.6B教育场景案例：多语言作业自动分类系统实战

万物识别模型版本升级：从旧版到PyTorch 2.5迁移指南

Open Interpreter艺术创作辅助：Qwen3-4B生成音乐代码部署教程

批量处理图片太慢？试试cv_resnet18_ocr-detection提速秘籍

FRCRN语音降噪-单麦-16k镜像应用｜打造全自动离线字幕方案

一键卡通化：DCT-Net WebUI的完整使用教程

NotaGen音乐生成全解析｜LLM驱动的古典符号化创作

DeepSeek-R1-Distill-Qwen-1.5B代码补全：IDE插件开发指南

小白也能懂的通义千问2.5-7B-Instruct部署指南

看完就想试！Qwen3-4B-Instruct打造的商业文案效果展示

BGE-M3性能优化：检索速度提升3倍技巧

5分钟上手AutoGen Studio：零代码搭建Qwen3-4B智能代理

verl框架文档解读：安装验证全流程步骤详解

没有参考文本能行吗？GLM-TTS留空字段实测

W5500实现PLC联网控制：从零实现教程

如何扩展MGeo功能？自定义字段与额外特征添加实操指南

YOLOE官版镜像Conda环境配置全攻略

主流手势模型评测：AI手势识别与追踪在移动端适配表现

实测Qwen3-Reranker-0.6B：轻量级模型在文本排序中的惊艳表现

Youtu-2B代码生成能力实战：Python算法编写详细案例

Qwen3-VL-2B-Instruct保姆级教程：WebUI集成视觉机器人部署

从0开始学Meta-Llama-3-8B-Instruct：保姆级AI对话教程

多平台支持！gpt-oss-20b-WEBUI跨系统部署实测

FSMN-VAD医疗场景应用：问诊录音结构化处理案例

无需显卡！用DeepSeek-R1在树莓派上跑通AI逻辑推理