当前位置: 首页 > news >正文

CLIP

【有字幕】OpenAI【大模型、多模态】CLIP论文 模型讲解 !_哔哩哔哩_bilibili

网络上的图片经过image Encoder(基于VIT模型)后,将其中的数据保存下来,当输入一段文字后经过Text Encoder(基于Transformer模型)也会产生的数据。之后会抽出图片产生数据的一部分与文字信息产生的数据进行相似度计算,得到相似度最大的那张图。

\[cos(\theta)=\frac{A \cdot B}{\|A\| \|B\|}=\frac{\sum\limits_{i=1}^nA_iB_i}{\sqrt{\sum\limits_{i=1}^nA_i^2}\sqrt{\sum\limits_{i=1}^nB_i^2}} \]

CLIP的损失函数:先使用交叉熵损失函数计算\(loss_i\)\(loss_t\),再计算他们的对比损失函数。

交叉熵损失函数(Cross-Entropy Loss):\(L(Y,P)=-\frac{1}{N}\sum\limits_{n=1}^N\sum\limits_{c=1}^CY_{nc}log(P_{nc})\)

  • n:第几个样本
  • c:第几个分类
  • \(Y_{nc}\):第n个样本分类到第c个分类的真实概率
  • \(P_{nc}\):第n个样本分类到第c个分类的预测概率

对比损失函数(Contrastive Loss):

\[\begin{align*} loss_i&=cross\_entropy\_loss(logits,labels,axis=0)\\ loss_t&=cross\_entropy\_loss(logits,labels,axis=1)\\ loss&=\frac{(loss_i+loss_t)}{2} \end{align*} \]

http://www.jsqmd.com/news/523788/

相关文章:

  • 【Day30】卡码网:46. 携带研究材料,LeetCode:416. 分割等和子集
  • 力扣刷题——104.二叉树的最大深度
  • VIT
  • 这里藏着电力系统的核心评判指标
  • Gemini 3场景化应用指南:原生多模态与超长上下文能解决哪些实际问题?
  • 倒数第四天
  • InnoDB底层原理之MySQL的日志机制
  • Visual Place Recognition
  • 密码学学习记录
  • Go语言基础之数组
  • 世毫九实验室九大衍生理论课题与技术攻关方向(初审意见)
  • ai---openClaw 配置企业微信
  • CloudFlare域名接入与Nginx真实IP获取实战指南
  • LeetCode 234. 回文链表
  • 永磁同步电机FOC最小损耗算法
  • ESP32开发板国内镜像加速安装指南(附2023最新可用JSON地址)
  • 48个适合人力资源工作和运营的AI提示词
  • 基于MATLAB Simulink的PEM电解槽制氢仿真模型研究
  • 【认知雷达(Cognitive Radar)与深度学习融合架构】第5章 LSTM时序预测与多目标轨迹关联
  • 探索异构混合阶多智能体系统的一致性:UGV 与 UAV 的协同之旅
  • 51单片机初相识
  • 基于多因子定价模型解析:美元强势与利率预期重构驱动的金价8连跌机制
  • Cube MX实战:如何用STM32F系列和ADS1255构建高精度电流源(附完整代码)
  • 分布式驱动电动汽车:最优横摆力矩控制与规则扭矩分配控制的对比研究——基于LQR计算与最小附着利...
  • 聚焦镀锌管/角钢/方管/螺旋管,精选本土标杆企业,助力工程采购决策 - 深度智识库
  • Timer-S1 正式发布:首个十亿级时序基础模型,预测性能达到 SOTA
  • 从这8道Swift题逆袭大厂:2025最新类型系统考点精讲(含泛型实战)
  • 从干系人管理到项目交付:绩效域全流程避坑指南
  • SCN-Adaboost随机配置网络模型的多特征输入二分类及多分类模型实现
  • OpenClaw本地快速部署指南及主流AI模型API接入方法