当前位置: 首页 > news >正文

AquaticCLIP: A Vision-Language Foundation Model and Dataset for Underwater Scene Analysis

AquaticCLIP:水下场景分析的视觉语言基础模型与数据集

代码链接:https:// github.com/BasitAlawode/AquaticCLIP

原文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=11380196

创新点:

1.将CLIP模型引入到水下场景分析当中,并自主构建大规模数据集,然后通过“人工+机器+清洗”的混合策略保证了文本的准确性与丰富性;

2.引入“双引导”机制(PGVE + VGTE),用学习到的视觉提示引导视觉特征聚合,再用视觉特征引导文本特征细化,实现了更深层次的跨模态交互;

3.引入对比损失,同时优化图像→文本和文本→图像两个方向的匹配概率。

主要框架:

图1 AquaticCLIP 架构和算法流程概述

(a) 输入图像-文本对集合,(b) 说明模型(MGPT)为图片生成文本描述,(c) 输入图像被划分为多个片段,并由图像编码器 Φv 处理以生成嵌入 Pi 的片段,(d) 生成的文本描述Si由文本编码器Φt处理以生成文本嵌入,(e) 和 (f) 文本描述 Si 随后通过图像-文本说明清理模块清理,生成精细描述 Sˆ i,随后与 GT 描述 Gi 结合,生成丰富的文本描述数据 Ci,图像和文本嵌入均通过(h)视觉引导文本编码和(g)提示引导视觉编码进行细化,学习到的提示词Ei引导补丁嵌入的融合,而初始化提示Qi则用于增强视觉表现,(i) 最终图像和文本特征通过跨模态对比预训练损失Lcont进行比对,确保文本与图像表示之间的关联更强。

其中cd都为典型CLIP中的处理模块,以下着重介绍g和h,这两个模块的主要作用就是加强信息的交互,对特征进一步加强:

图2 (a) PGVE:提示引导注意力机制结合了补丁特征Pi和初始化提示Qi,通过层规范化和MLP,随后是softmax,生成最终的图像特征fi。(b) VGTE:文本嵌入Ti通过视觉引导注意力机制进行细化,patch特征Pi、学习提示Ei和文本嵌入Ti连接以计算注意力Ui, 这进一步增强了Ti

1.PGVE:通过引入c模块学习到的视觉特征作为K值和V值,文本提示作为查询Q值,然后进入交叉注意力模块,可以增强与初始文本提示之间的联系,进而对patch根据语义相似度来进行排序,更好的抑制无关特征,捕捉更有效的上下文关系。

2.VGTE:在模块中,丰富的文本描述Ci被输入CLIP文本编码器,以获得对应第i张图像描述的文本表示Ti,这些表征随后会通过视觉引导的注意力层进行细化,该补丁包含Pi,在PGVE模块学习到的提示词Ei被串接为Vi,Vi作为关键Kt和值Vt,而文本表示Ti作为查询,然后进入注意力模块,从而进一步优化文本特性,增强了图像与文本之间的对齐。

下面是自己书面整理的一个模块总结:

图3 模块总结

GLIP运行结果展示:

COCO数据集运行结果:

对所有物体都有一个生成框外加一个描述,但是正确率不高,并且描述的不够丰富,因为是做零样本目标检测(无需微调就能直接检测出训练时没见过的类别),和论文中的平均精度(AP)相似都为46左右。例图如下:

之后我引入了国内的大模型,可以对图片生成更具体地描述:

http://www.jsqmd.com/news/588718/

相关文章:

  • 【豆包从入门到精通】001、初识豆包:大模型时代的入门钥匙
  • 【教程4>第12章>第8节】基于FPGA的图像缩放实现——图像横向压缩仿真测试以及MATLAB辅助验证
  • AI算力芯片黑马!“图灵进化”完成新一轮数千万级别融资
  • 【数据结构与算法】第26篇:静态查找(二):插值查找与斐波那契查找
  • 大模型Agent-应用小记【转载】
  • 植物大战僵尸版本所有版本合集下载含杂交版 融合版 火影版 二战版 无双版 抽卡版 β版等等
  • 启动Comsol本地服务
  • 特定域名的proxy访问
  • WarcraftHelper:魔兽争霸III终极优化指南 - 解决宽屏、帧率、地图限制三大痛点
  • 【完整源码+数据集+部署教程】人脸遮挡检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]
  • PVE虚拟环境下Ubuntu24.04.3虚拟机安装OpenClaw
  • 2026 AI简历工具排行榜:写出专业简历,助你直通面试
  • MongoDB单节点转副本集(Docker安装版本)
  • 国内支持全网手机/座机/400/95/96号码认证的服务商清单 - 企业服务推荐
  • 9.3LED点阵屏显示动画
  • 全域数学理论宇宙本源正式宣言(乖乖数学)
  • 3步高效获取电子课本:tchMaterial-parser让国家中小学智慧教育平台资源轻松到手
  • YOLO系列算法改进 | C3k2改进篇 | 融合SACF光谱引导自适应跨层融合 | 光谱聚合与空间细节协同增强,跨层融合信息零损失,适用于多光谱遥感检测与边缘部署场景 | AAAI 2026
  • 【完整源码+数据集+部署教程】喷嘴检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]
  • 大模型指令微调入门基础教程(非常详细),从通才到专才全景解剖,收藏这一篇就够了!
  • 2026洛氏硬度计品牌深度盘点:金属材料行业洛氏硬度计企业推荐 - 品牌推荐大师
  • 北美推动视频车联网市场到2030年达到2200万台
  • 英特尔斥资142亿美元回购爱尔兰Fab 34晶圆厂股权
  • 深度拆解 Linux Ext 系列文件系统:从硬件底层到软硬链接全流程
  • 100天精通Android Kotlin:50个实战项目构建你的全栈技能图谱
  • 【手把手详细教程】 Trae AI和Vscode~使用第三方中转API配置Claude ,GPT,Gemini等大模型教程
  • 根据所给文字范围,为您提供的总结标题为:“使用栅格法结合蚁群算法规划机器人全局路径
  • 跨境电商多平台管理 2 小时上手
  • 黑马头条日记 | 分布式任务调度平台XXL-JOB —— XXL之力一举完成热点文章定时计算
  • BaiduPCS-Web技术解密:构建高效百度网盘加速工具的前后端架构深度剖析