当前位置: 首页 > news >正文

LDC

image

这篇论文旨在解决,CLIP存在类间混淆问题。

CLIP通过对比学习在大规模图文对上进行预训练,而不是直接优化分类边界,因此在分类任务中区分类别能力不足,存在明显的类间混淆。
而且,下游数据与预训练数据之间存在显著域差异进一步加剧了类间混淆,特别是类别间相似度较高时。

我们可以通过一个可学习模块来建模类间混淆,然后通过残差结构消除这些混淆。

下面是方法:

传统CLIP:

image

先计算每个图文对的余弦相似度(第3个),然后归一化这个值(第2个),然后最大值就是预测值(第1个)。

改进:

但是这时候是有类间混淆的,所以我们在最后比较最大值之前,应该用去除混淆的干净值来比较。所以要在归一化之后去除混淆,即:

image

混淆是怎么得到的呢?

将图像xi作为先验,然后通过归一化得到的值来学习类间混淆,即:

image

然后,我们方法中的参数通过最小化干净值(去了混淆的干净值)与标签值的交叉熵损失来优化:

image

最后,为了防止过度去混淆,采用了L1正则化的相似损失,以确保干净值(预测值)与原始值(预测值)保持相似:

image

总损失(交叉熵损失 + λ × 相似损失):

image

下面介绍一下模型及各个模块:

总体逻辑:

首先通过CLIP得到原始值

下面的MAF会融合图像编码器的不同层的特征,以融合低层细节信息和高层语义信息,得到增强特征

增强特征经过MLP得到 MAF的s值(特征值)

ICD模块以增强特征为先验,通过残差结构从原始值来学习类间混淆得到 ICD的s值(类间混淆值)

最后,ALF模块将 MAF的s值ICD的s值 融合,其中 权重α 由 α Generator 得到。

MAF模块:

image

其中 Fusion 步骤有 WF 和 LF 两种方式:

image

WF中的 β 是预置权重;LF首先通过跨特征通道维度进行特征串接,然后使用 Adapter 降维。

image

ICD模块:

首先,A1 Adapter原始值 学习类间混淆模式,
A2 Adapter增强特征学习类间混淆的先验,
然后 A1 和 A2 的输出 一起输入到 A3 Adapter,联合学习 原始值增强特征 的类间混淆模式。
最后,通过残差结构去除学习到的混淆模式,得到干净值

image

ALF模块:

MAF的s值(特征值)ICD的s值(类间混淆值) 结合起来,权重α 由 α Generator 得到。

image

image

可以从公式注意到:α Generator的输入是增强特征

优化:

image

image

最后,总损失:

image

下面是实验部分:
图像分类数据集(11个):ImageNet、Caltech101、DTD、EuroSAT、FGVCAircraft、Flowers102、Food101、OxfordPets、StanfordCars、SUN397、UCF101

比较的SOTA(基于CLIP的FSL方法)(11个):CoOp、VT-CLIP、Tip-Adapter、SuS-X、FAR、CALIP-FS、SGVA-CLIP、Proto-CLIP-F、APE、DAC-V、LP++

image

11个数据集和1个平均性能,红线是本文的LDC。

消融实验:

三个模块:

image

MAF中的四层特征、β取值、Projector:

image

ICD中的三个Adapter:

image

ALF中的α取值(通过α Generator自适应取值最好):

image

http://www.jsqmd.com/news/22634/

相关文章:

  • 多元线性回归
  • 完整教程:由JoyAgent观察AI Agent 发展
  • Linux 内核空间 并发竞争处理 共享资源线程同步 - 实践
  • TF1和TF2
  • 单变量线性回归tensorflow版
  • Spark计算引擎
  • 【轨物方案】变频器物联网软硬件一站式解决方案 - 详解
  • 人工智能初了解
  • 173天隧道技术篇防火墙组策略ICMPDNSSMB协议出网判断C2上线解决方案
  • Hbase分布式数据库
  • 软考六
  • MapReduce并行计算框架
  • 应用安全 ---
  • 实用指南:3DGS 如何理解它?
  • HDFS文件系统
  • Java 类加载器
  • 面试总被追问k8s调度器工作原理, 收藏 == 学废
  • 题解:十二重计数法
  • Wyn 商业智能软件:3D 可视化大屏搭建与设备利用全指南
  • 什么是Java Lambda
  • Java 代理
  • 《算法与数据结构》第七章[算法2]:广度优先搜索(BFS) - 指南
  • 中转API为什么比官方更便宜?AI中转站成本揭秘
  • Java 混合编程
  • Java 语法糖
  • JAVA RMI编程
  • 大资料毕业设计选题推荐-基于大数据的全球产品库存数据分析与可视化系统-大材料-Spark-Hadoop-Bigdata
  • 纸笔群群友命题乱做
  • 本人对KMP如何匹配到所有结果的算法存在一些疑惑...
  • 字符与Java国际化编程