当前位置：首页 > news >正文

【山东大学-丛润民组-AAAI26】通过对齐器和提示器增强DINO表征用于水下实例分割

news 2026/7/12 9:50:16

文章：Empowering DINO Representations for Underwater Instance Segmentation via Aligner and Prompter

代码：https://github.com/ettof/Diveseg

单位：山东大学

一、问题背景：水下场景的AI“识别困境”

水下成像远比陆地复杂：光线被水吸收散射导致颜色失真（多偏蓝绿）、对比度低、能见度有限，再加上鱼群重叠、珊瑚密集等情况，传统技术很难精准分割目标。

此前的解决方案主要有两类短板：

传统卷积神经网络（CNN）：能力有限，面对水下复杂场景时分割精度差，边界模糊；
现有视觉基础模型（如SAM）：虽有强大泛化能力，但需要海量水下标注数据适配，且对水下高目标密度、视觉多变性的适配不足，性能提升有限。

而DINOv2这类先进的自监督视觉模型，虽在自然图像任务中表现出色，但因“领域差异过大”（没见过多少水下场景），直接套用会受背景噪声干扰，甚至漏检目标。如何让DINOv2“读懂”水下世界，成为关键突破口。

二、方法创新：两大核心模块破解适配难题

山东大学团队提出的DiveSeg框架，以DINOv2为基础，通过两个“专属工具”实现精准适配，整体架构简洁高效：

1. AquaStyle Aligner（水下风格对齐器）：解决“颜色失真”问题

水下图片和自然图片的核心差异是颜色风格，这个模块专门负责“校准”这种差异：

先通过傅里叶分解技术，提取水下图片的颜色风格特征（保留频率域的振幅信息，固定平均相位），过滤掉物体本身的干扰，只保留水下独有的色调特性；
再通过跨注意力机制，将提取的风格特征注入DINOv2模型，用少量参数微调就让模型快速适应水下视觉风格，避免颜色失真导致的识别偏差。

2. ObjectPrior Prompter（目标先验提示器）：解决“物体难寻”问题

DINOv2没见过太多水下特有物体（如珊瑚、水母），直接识别难度大。这个模块相当于给AI“划重点”：

先生成一张“黑白掩码图”，用简单的二进制标记（黑色=背景，白色=物体）告诉模型“哪里有物体”；
再将这张掩码图作为“提示信号”，通过跨注意力机制引导DINOv2聚焦目标区域，先学会区分“物体和背景”，再细分手下每个实例，大大降低学习难度。

两个模块协同工作，既让模型适应了水下的“视觉风格”，又帮模型找准了“关注重点”，完美解决了DINOv2的水下适配问题。

三、实验结果：双数据集刷新SOTA，性能全面领先

团队在UIIS和USIS10K两大主流水下实例分割数据集上做了全面测试，结果堪称“碾压级”：

1. 定量指标（核心性能参数）

2. 定性效果（视觉层面）

四、优势与局限

核心优势

性能顶尖：目前在两大数据集上都是最优表现，分割精度和边界准确性远超现有方法；
效率很高：仅用少量参数微调（DINOv2主干冻结），参数量比同类模型少40%以上，运行更高效；
通用性强：适配水下多种场景（海洋勘探、生态监测），支持7类常见水下物体识别。

现存局限

对极深水域、极低能见度的图片适配效果有待验证（现有数据集未覆盖此类极端场景）；
依赖二进制掩码图作为提示，若掩码生成不准确，可能影响最终分割效果；
暂未支持实时视频分割，在水下机器人实时作业场景的应用还需优化。

五、一句话总结

DiveSeg框架首次将DINOv2模型成功应用于水下实例分割，通过风格对齐和目标提示两大创新，用更少参数实现了更高精度的分割效果，为海洋资源勘探、水下机器人作业等场景提供了更可靠的AI视觉解决方案。

查看全文

http://www.jsqmd.com/news/96540/

【南京理工-AAAI26】用于跨域少样本分割的分层语义学习

ComfyUI与Telegraf指标采集集成：全面监控运行状态

AutoGPT与FastAPI集成示例：将其封装为RESTful服务供调用

从GitHub克隆到本地运行：EmotiVoice语音合成模型一键部署教程

HunyuanVideo-Foley实战：用GitHub镜像快速搭建视频智能音效系统

Java Web 高校实习管理系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

基于EmotiVoice的多情感TTS系统实战：打造富有表现力的AI语音应用

CountUp.js数字动画库：从零到精通的终极指南

如何快速搭建开源IT资产管理系统：Snipe-IT完整入门指南

AutoGPT支持代码执行吗？实测Python与C#脚本自动运行能力

EmotiVoice支持HTML5音频输出？构建网页语音播报系统的可能性

无需GPU也能跑？Kotaemon CPU模式优化技巧提升推理效率

如何监控LobeChat中大模型Token消耗情况

15、Script-Fu 进阶与动画制作指南

使用LobeChat开源框架打造专属大模型对话系统

Kotaemon开源项目Star破千：社区贡献者分享最佳实践

LobeChat配合Docker容器化提升部署灵活性

开源新星Kotaemon：下一代RAG应用开发利器

ComfyUI与Git版本控制：管理工作流迭代历史

Kotaemon社区活跃度分析及其发展前景展望

Windows下部署EmotiVoice语音合成引擎的完整步骤

SpringBoot+Vue 高校教师教研信息填报系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

企业级高校竞赛管理系统管理系统源码｜SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

前后端分离高校科研信息管理系统系统｜SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

Java Web 高校汉服租赁网站系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

Realtek 8852CE无线网卡Ubuntu系统完美驱动指南

基于EmotiVoice的情感语音合成系统实战：从GitHub下载到本地运行

高性能RAG智能体框架Kotaemon上线，支持Docker部署与多轮对话管理

WinUtil：Windows系统优化与程序管理的终极工具箱

CSS网格生成器：零基础也能玩转专业网页布局的神器