当前位置: 首页 > news >正文

多模态-7 Grounding DINO

这篇文章介绍多模态模型Grounding DINO

Transformer介绍可以看:深度学习基础-5 注意力机制和Transformer

多模态基础知识点可以看:多模态-1 基础理论

计算机视觉Transformer Backbone可以看:计算机视觉Transformer-1 基础结构

介绍Grounding DINO之前先说一下多模态领域中“Grounding”的含义,传统目标检测输入待检测的图片,模型输出图片中物体所在位置的矩形框和置信度(详细介绍可以看:计算机视觉-目标检测),这种模型依赖训练数据集,对于训练数据集中不包含的物体,要么检测不出来,要么给出低置信度的其它物体类别标签。多模态领域中的“Grounding”指的是模型能够检测任意用户输入文本中包含的物体,也就是输入是待检测图片+用户的检测要求,比如输入一张图片+用户的问题“图片中穿红色衣服的人在哪里”,多模态模型应该给出穿红色衣服人的坐标回答,将传统的目标检测流程变为了一个问答流程,多模态模型的Grounding能力是一项重要的评测指标,体现了模型的语义+空间理解能力,可以理解为是“开放集合目标检测(Open-Set Object Detection)”,不像传统目标检测模型一样只认识训练数据集中已标记过的类别,借助多模态能力,可以检测查询文本中要求检测的任意物体类别。

一 模型结构与训练

Grounding DINO整体结构如下:

分为4个部分

1.特征提取:分别利用图像编码器、文本编码器,提取输入<图像,文本>的特征

2.特征增强:基于交叉注意力(Cross-Attention)对齐图像编码表示和文本编码表示的语义信息

3.特征查询:根据文本编码表示从图像编码表示中筛选出和当前输入文本最相关的特征信息

4.多模态解码生成:在图像编码表示和文本编码表示的引导下,解码出当前输入对应的输出(物体所在位置坐标、类别)

1.1 特征提取和增强

首先利用图像编码器,比如ViT、Swin Transformer(相关介绍可以看:计算机视觉Transformer-1 基础结构),获取输入图像的特征编码表示,因为Grounding任务需要多尺度的特征,所以融合了图像编码器不同层的输出作为最终的图像特征编码表示。利用文本编码器,比如BERT,获取输入文本的特征编码表示。

然后利用特征增强层融合图像特征编码表示和文本特征编码表示,生成语义一致的<图像,文本>联合表示(模态对齐),特征增强层的结构如下图所示:

Deformable Self-Attention的详细介绍可以看:计算机视觉Transformer-2 目标检测

1.2 特征查询

图像特征编码表示中大部分是冗余的,比如用户可能只是提问“穿红色衣服的人在哪里”,但是图像特征编码中包含着和用户问题无关的特征,所以利用特征查询模块对图像特征编码进行筛选,将哪些和“红色”、“穿衣服的人”相关的视觉语义信息保留下来,剩下的不要了,具体做法是计算图像特征编码表示和文本特征编码表示之间的内积相似度,然后只保留Top-k个就可以,Grounding DINO最后是从10000个图像特征编码表示中保留900个作为最相关的视觉语义信息编码。

1.3 多模态解码生成

Grounding DION的解码生成流程采取的是类似DETR的方法(DETR介绍可以看:计算机视觉Transformer-2 目标检测),将特征查询筛选出来的图像特征编码表示作为Object query,输入到Decoder中,解码出目标所在的位置和类别,Decoder层的具体结构如下:

其中Cross-Modality Query就是上一步筛选出来的图像特征编码表示,经过一个Self-Attention层提取自身的特征信息作为Q,然后利用经过特征增强的图像特征编码表示和文本特征编码表示作为K、V,通过对应模态的Cross-Attention层,生成出融合输入图像、文本信息的Cross-Modality Query。Cross-Modality Query是一个[N,d-model]的矩阵,其中N是Object Query的个数,论文中设置的是N=900,d-model是嵌入向量的维度,然后将这900个query分别送到类别检测头、物体所在位置检测头,类别检测头计算query和不同文本token的内积,具有最大相似性的作为这个query的预测类别,位置检测头利用FFN计算query对应物体的所在位置框坐标,和DETR一样,匈牙利匹配算法保证预测类别不重复,每个真实类别只对应一个query,最终利用Focal Loss计算类别预测损失,L1+GIoU Loss计算检测框损失,反向传播训练整体的Grounding DINO。

二 输入文本处理

Grounding DINO最后输出的预测类别来自于用户输入的文本,而不是像以往目标检测模型的类别标签信息,那么就有一个问题,如何从用户输入的文本中提取出来应该检测的类别信息,比如用户输入了“图片中穿红色衣服的人在哪里”,起码应该提取出来“红色衣服”、“人”作为预测类别,以往的提取方式要么是整个句子作为一个表示、要么每个词语作为一个表示,Grounding DINO试了这两种方法都不怎么好,自己重新提出了一种处理方式

三 实验结果

公共数据集实验结果:

推理速度实验结果:

http://www.jsqmd.com/news/326461/

相关文章:

  • 如何为本土企业选营销伙伴?2026年青海营销策划公司深度评价与推荐,直击数字化与实效性痛点
  • 2026年湖北营销推广公司推荐:五大标杆服务商综合实力排名揭晓
  • 直接来点硬核的。今天咱们拆解一个工业级Python卡尔曼滤波器实现,代码和数据处理完全解耦,实测能直接扔进你的传感器项目里用
  • 2026年新疆营销策划公司推荐:本地化场景深度评测与权威排名解析
  • 收藏!50W+年薪大模型链路开发,往届生程序员小白转型全指南
  • 2026别错过!10个AI论文写作软件测评:本科生毕业论文+科研写作必备工具推荐
  • 【收藏必看】RAG已死?上下文工程崛起!2025-2026大模型技术演进全景图,开发者必读
  • 2026年数学建模美赛C题
  • 【必收藏】使用RAG提升大模型回答准确性:从数据质量、检索策略到生成优化的完整指南
  • 必收藏|AI Agent落地核心!记忆系统详解(小白+程序员入门大模型必备)
  • 2026年湖南营销推广公司推荐:全域智能运营时代下的效果保障与成本控制实战评测
  • 2026年浙江营销推广公司推荐:技术全栈与效果保障维度评价,涵盖多行业场景与增长确定性痛点
  • 2026年江西营销推广公司推荐:技术全栈与效果保障维度评价,涵盖多行业场景与增长确定性痛点。
  • 【硬核干货】SQL 注入漏洞原理与防御实战,入门到精通全解析!
  • 【必学收藏】Agentic RAG完全指南:构建更智能的LLM应用系统
  • 完整教程:AI学习之Anthropic的访谈者工具
  • 4.blender现有模型建模
  • 2026年新疆营销策划公司推荐:技术整合能力横向排名,解决策略与执行脱节行业痛点
  • 2025年最值得买的阿胶糕定制品牌口碑推荐,膏方类产品/阿胶类产品/阿胶类/非遗膏方/阿胶糕/膏方/阿胶产品/阿胶阿胶糕代工厂排行
  • 2025年成都火锅网红品牌测评,前三名出乎意料,特色美食/社区火锅/老火锅/美食/火锅店/烧菜火锅/火锅成都火锅哪家好吃推荐排行榜
  • 2026年浙江营销推广公司推荐:全域智能运营趋势下的服务商综合排名与深度评价
  • 2026年江西营销推广公司推荐与评价:解决本地化获客与效果验证痛点
  • 2026年江西营销推广公司排名推荐:技术实力与全域增长效能双维深度评测
  • 收藏!AI工程师两大门派详解,小白/程序员入门大模型必看
  • 深入解析:深入浅出 ES Module
  • 2026年福建营销推广公司推荐:五大优选机构技术、模式与效果全解析
  • 2026年新疆营销策划公司推荐:覆盖乌鲁木齐与各地州场景的深度服务评测
  • SQL 注入深度解析,这一篇就够了!
  • 技术赋能与效果归因双轮驱动 | 2026年福建营销推广公司TOP5实证研究榜单推荐
  • BUUCTF刷题MISC[一] (29-32)