【有字幕】OpenAI【大模型、多模态】CLIP论文 模型讲解 !_哔哩哔哩_bilibili
网络上的图片经过image Encoder(基于VIT模型)后,将其中的数据保存下来,当输入一段文字后经过Text Encoder(基于Transformer模型)也会产生的数据。之后会抽出图片产生数据的一部分与文字信息产生的数据进行相似度计算,得到相似度最大的那张图。
\[cos(\theta)=\frac{A \cdot B}{\|A\| \|B\|}=\frac{\sum\limits_{i=1}^nA_iB_i}{\sqrt{\sum\limits_{i=1}^nA_i^2}\sqrt{\sum\limits_{i=1}^nB_i^2}}
\]
CLIP的损失函数:先使用交叉熵损失函数计算\(loss_i\)和\(loss_t\),再计算他们的对比损失函数。
交叉熵损失函数(Cross-Entropy Loss):\(L(Y,P)=-\frac{1}{N}\sum\limits_{n=1}^N\sum\limits_{c=1}^CY_{nc}log(P_{nc})\)
n:第几个样本c:第几个分类- \(Y_{nc}\):第n个样本分类到第c个分类的真实概率
- \(P_{nc}\):第n个样本分类到第c个分类的预测概率
对比损失函数(Contrastive Loss):
\[\begin{align*}
loss_i&=cross\_entropy\_loss(logits,labels,axis=0)\\
loss_t&=cross\_entropy\_loss(logits,labels,axis=1)\\
loss&=\frac{(loss_i+loss_t)}{2}
\end{align*}
\]
