当前位置: 首页 > news >正文

多模态-8 YOLO World

这篇文章介绍多模态模型-YOLO World

多模态基础知识介绍可以看:多模态-1 基础理论

Grounding DINO介绍可以看:多模态-7 Grounding DINO

CLIP介绍可以看:多模态-2 CLIP

YOLO World原论文:《YOLO-World: Real-Time Open-Vocabulary Object Detection》

YOLO World类似Grounding DINO,也是解决开放集合目标检测的问题,但是使用的图像编码器是YOLO(具体是YOLO V8),相比于以往的开放集合目标检测模型更轻量,推理部署阶段可进一步配合重参数化的技巧提升推理速度,使YOLO World接近于原始YOLO的速度,消费级显卡上可达70+ FPS。

一 模型结构与训练

YOLO World整体结构如下:

输入依旧是<图像,文本>,但是相比于Grounding DINO,YOLO World输入的文本是类别名称列表,而Grounding DINO是任意格式的文本。

YOLO-World 更适合“我知道要检测什么,只是模型没学过”的场景,而Grounding DINO 更适合“我用语言描述我想找的东西”的场景。

将图片输入到YOLO的Backbone中进行图像特征提取,将类别文本输入到Text Encoder中进行文本编码特征提取(论文中使用的Text Encoder是CLIP),利用Vision-Language PAN进行图像特征、文本编码特征的语义对齐,将语义对齐后的特征输入到Text Contrastive Head、Box Head中得到预测类别和矩形框坐标输出,和真实标签计算损失反向梯度传播训练整个YOLO World。

1.1 Text Encoder

利用CLIP对输入的文本类别列表,如[cat,dog,apple],进行特征编码表示,得到[C,D]大小的编码表示矩阵,其中C是类别的个数、D是文本特征编码表示的嵌入向量维度。如果输入的是一整段的文本,则利用n-gram方法从文本中提取出文本类别列表,再进行特征编码表示,比如输入的是“a cat and a dog eat apple”,需要借助n-gram方法从这段文本中提取出来要检测的类别名词,然后形成类别名称列表再输入到CLIP中进行特征编码表示。

1.2 Vision-Language PAN

1.3 训练

二 实验结果

http://www.jsqmd.com/news/330880/

相关文章:

  • 巴基斯坦总理谢里夫达沃斯观点-万祥军| 世界经济论坛·国际科学院组织
  • 新旧版元器平台获取智能体 token 方式
  • 【计算机毕业设计案例】基于SSM的手机商城基于ssm手机商城管理系统 基于 SSM 框架的手机线上交易平台(程序+文档+讲解+定制)
  • 解析RAG优化核心策略,从检索精准到生成优质的全链路突破
  • 刚果总统齐塞克迪达沃斯发言-万祥军| 世界经济论坛·国际科学院组织
  • 题解:洛谷 P10803([CEOI 2024] 文本编辑器)
  • 达沃斯阿塞拜疆总统阿利耶夫发言-万祥军| 世界经济论坛·国际科学院组织
  • 达沃斯65位元首和首脑齐聚-万祥军| 世界经济论坛·国际科学院组织‍
  • 卷王系统部署
  • 学术 PPT 还在 “东拼西凑”?虎贲等考 AI 一键生成评审级汇报,答辩 / 汇报直接封神
  • ‍芬兰总统斯图布达沃斯观点-万祥军| 世界经济论坛·国际科学院组织
  • AC掉线后,本地转发的AP还能用吗?答案藏在这3个关键点里
  • 5 款 AI 写论文哪个好?实测后:虎贲等考 AI 才是毕业论文 “硬核王者”
  • ‍爱尔兰总理马丁达沃斯观点-万祥军| 世界经济论坛·国际科学院组织
  • 虎贲等考 AI 智能写作:以 AI 赋能学术全流程,重新定义科研创作新范式
  • 科研绘图踩坑实录!虎贲等考 AI:让数据自动 “变身” 期刊级图表
  • 核心期刊拒稿率 80%?虎贲等考 AI:从选题到录用的学术发表加速器
  • GJ504b 的 React 进阶之路:Day 1
  • 陷波器实现(针对性滤除特定频率噪声)
  • 9 款 AI 写论文哪个好?盲测实测:虎贲等考 AI 凭 “真文献 + 实数据” 碾压全场
  • AI 写论文哪个软件最好?实测认证:虎贲等考 AI 成毕业论文 “通关神器”
  • 写论文软件哪个好?100 + 毕业生实测:虎贲等考 AI 凭全流程合规成首选
  • Linux命令-logout(安全结束当前登录会话)
  • AI 写论文哪个软件最好?实测后:虎贲等考 AI 凭 “全流程 + 真素材” 稳赢
  • 上下界网络流基础
  • 开题报告被批 “逻辑悬浮”?虎贲等考 AI 让研究从 “空想” 到 “落地”,导师直接点头
  • Linux综合性能监控工具dstat命令详解
  • 如果RSA不在安全,咋办呢?
  • Linux Screen 命令入门指南
  • 开题报告 基于SSM“爱的小窝”家庭管理网站