当前位置：首页 > news >正文

AquaticCLIP: A Vision-Language Foundation Model and Dataset for Underwater Scene Analysis

news 2026/7/25 12:02:24

AquaticCLIP：水下场景分析的视觉语言基础模型与数据集
代码链接：https:// github.com/BasitAlawode/AquaticCLIP
原文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=11380196

创新点：

1.将CLIP模型引入到水下场景分析当中，并自主构建大规模数据集，然后通过“人工+机器+清洗”的混合策略保证了文本的准确性与丰富性；

2.引入“双引导”机制（PGVE + VGTE），用学习到的视觉提示引导视觉特征聚合，再用视觉特征引导文本特征细化，实现了更深层次的跨模态交互；

3.引入对比损失，同时优化图像→文本和文本→图像两个方向的匹配概率。

主要框架：

图1 AquaticCLIP 架构和算法流程概述

（a）输入图像-文本对集合，（b）说明模型（MGPT）为图片生成文本描述，（c）输入图像被划分为多个片段，并由图像编码器 Φv 处理以生成嵌入 Pi 的片段，（d）生成的文本描述Si由文本编码器Φt处理以生成文本嵌入，（e）和（f）文本描述 Si 随后通过图像-文本说明清理模块清理，生成精细描述 Sˆ i，随后与 GT 描述 Gi 结合，生成丰富的文本描述数据 Ci，图像和文本嵌入均通过（h）视觉引导文本编码和（g）提示引导视觉编码进行细化，学习到的提示词Ei引导补丁嵌入的融合，而初始化提示Qi则用于增强视觉表现，（i）最终图像和文本特征通过跨模态对比预训练损失Lcont进行比对，确保文本与图像表示之间的关联更强。

其中cd都为典型CLIP中的处理模块，以下着重介绍g和h,这两个模块的主要作用就是加强信息的交互，对特征进一步加强：

图2 （a） PGVE：提示引导注意力机制结合了补丁特征Pi和初始化提示Qi，通过层规范化和MLP，随后是softmax，生成最终的图像特征fi。（b） VGTE：文本嵌入Ti通过视觉引导注意力机制进行细化，patch特征Pi、学习提示Ei和文本嵌入Ti连接以计算注意力Ui，这进一步增强了Ti

1.PGVE：通过引入c模块学习到的视觉特征作为K值和V值，文本提示作为查询Q值，然后进入交叉注意力模块，可以增强与初始文本提示之间的联系，进而对patch根据语义相似度来进行排序，更好的抑制无关特征，捕捉更有效的上下文关系。

2.VGTE：在模块中，丰富的文本描述Ci被输入CLIP文本编码器，以获得对应第i张图像描述的文本表示Ti，这些表征随后会通过视觉引导的注意力层进行细化，该补丁包含Pi，在PGVE模块学习到的提示词Ei被串接为Vi，Vi作为关键Kt和值Vt，而文本表示Ti作为查询，然后进入注意力模块，从而进一步优化文本特性，增强了图像与文本之间的对齐。

下面是自己书面整理的一个模块总结：

图3 模块总结

GLIP运行结果展示：

COCO数据集运行结果：

对所有物体都有一个生成框外加一个描述，但是正确率不高，并且描述的不够丰富，因为是做零样本目标检测（无需微调就能直接检测出训练时没见过的类别），和论文中的平均精度（AP）相似都为46左右。例图如下：

之后我引入了国内的大模型，可以对图片生成更具体地描述：

http://www.jsqmd.com/news/588718/

相关文章：

【豆包从入门到精通】001、初识豆包：大模型时代的入门钥匙

【教程4＞第12章＞第8节】基于FPGA的图像缩放实现——图像横向压缩仿真测试以及MATLAB辅助验证

AI算力芯片黑马！“图灵进化”完成新一轮数千万级别融资

【数据结构与算法】第26篇：静态查找（二）：插值查找与斐波那契查找

大模型Agent-应用小记【转载】

植物大战僵尸版本所有版本合集下载含杂交版融合版火影版二战版无双版抽卡版 β版等等

启动Comsol本地服务

特定域名的proxy访问

WarcraftHelper：魔兽争霸III终极优化指南 - 解决宽屏、帧率、地图限制三大痛点

【完整源码+数据集+部署教程】人脸遮挡检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

PVE虚拟环境下Ubuntu24.04.3虚拟机安装OpenClaw

2026 AI简历工具排行榜：写出专业简历，助你直通面试

MongoDB单节点转副本集（Docker安装版本）

国内支持全网手机/座机/400/95/96号码认证的服务商清单 - 企业服务推荐

9.3LED点阵屏显示动画

全域数学理论宇宙本源正式宣言（乖乖数学）

3步高效获取电子课本：tchMaterial-parser让国家中小学智慧教育平台资源轻松到手

YOLO系列算法改进 | C3k2改进篇 | 融合SACF光谱引导自适应跨层融合 | 光谱聚合与空间细节协同增强，跨层融合信息零损失，适用于多光谱遥感检测与边缘部署场景 | AAAI 2026

【完整源码+数据集+部署教程】喷嘴检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

大模型指令微调入门基础教程（非常详细），从通才到专才全景解剖，收藏这一篇就够了！

2026洛氏硬度计品牌深度盘点：金属材料行业洛氏硬度计企业推荐 - 品牌推荐大师

北美推动视频车联网市场到2030年达到2200万台

英特尔斥资142亿美元回购爱尔兰Fab 34晶圆厂股权

深度拆解 Linux Ext 系列文件系统：从硬件底层到软硬链接全流程

100天精通Android Kotlin：50个实战项目构建你的全栈技能图谱

【手把手详细教程】 Trae AI和Vscode~使用第三方中转API配置Claude ,GPT,Gemini等大模型教程

根据所给文字范围，为您提供的总结标题为：“使用栅格法结合蚁群算法规划机器人全局路径

跨境电商多平台管理 2 小时上手

黑马头条日记 | 分布式任务调度平台XXL-JOB —— XXL之力一举完成热点文章定时计算

BaiduPCS-Web技术解密：构建高效百度网盘加速工具的前后端架构深度剖析