当前位置: 首页 > news >正文

算法学习笔记(12): KD 基于高温 Softmax 的 Logits 模拟

对于 [[函数#^f5ba8e|Softmax]] 函数,如果引入温度 \(T\),那么:

\[q_i = \frac {\exp (z_i / T)}{\sum \exp (z_j / T)} \]

会使得 \(q_i\) 间的差距变小,也就是会放大真实标签小的权重,使得其显现化。

于是对于两个模型 \(\theta, \phi\),如果有着相同的 logits 输出空间 \(l_\theta, l_\phi\),最终的,那么就可以在一个共有数据集下使用这样一个损失函数:

\[L(\phi; \theta) = \alpha L(\phi) + \beta D_{KL} ({\rm softmax}_T(l_\theta) \| {\rm softmax}_T(l_\phi)) \]

基于这个损失函数训练 \(\phi\) 即可。

值得注意的是,由于对于 \({\rm softmax}_T\),其导数会多一个 \(\frac 1 T\) 的常数,另外,通过 \(T\) 较大时:\(\exp \frac x T \approx 1 + \frac x T\),使得对于求 \(\rm softmax\) 偏导后的 \(q_{\theta, i} - q_{\phi, i}\) 会变成原本的 \(O(\frac 1 T)\) 量级,也就是 \(\nabla D_{KL}\) 会变成原本的 \(O(\frac 1 {T^2})\) 量级。所以可以将公式修正为 \(\beta' = \beta T^2\)

一种特殊情形: 直接学习 logits (不经过softmax),并利用 MSE 设计 Loss。
本质上和利用 KL 散度是一致的,可以考虑其偏导都是实际输出的差值,也就是说,在 logits 分布一致的情况下,直接学习 logits 完全可行。
但是如果分布一个大,一个小,那么这样学习可能就会很困难。

http://www.jsqmd.com/news/679195/

相关文章:

  • 从芯片制造到电路设计:为什么CMOS工艺偏爱P型衬底?聊聊背后的历史与技术选择
  • NVIDIA DGX SuperPOD:AI超级工厂的算力革命
  • mysql事务什么时候需要回滚_mysql异常处理解析
  • 别再自己搭文件服务器了!Spring Boot整合阿里云OSS,5分钟搞定图片上传功能
  • 2026年现阶段浙江生产线服务商竞争力评估:五强格局与选型指南 - 2026年企业推荐榜
  • 计算机毕业设计:Python农业数据分析与粮食产量预测系统 Django框架 数据分析 可视化 机器学习 深度学习 大数据 大模型(建议收藏)✅
  • 从OCV到AOCV:深度解析基于Stage与Distance的时序悲观度剔除策略
  • Day05:大模型生产环境常见问题与排障科普笔记
  • 2026兰州不锈钢净化板技术解析:兰州手工岩棉净化板/兰州手工板/兰州手工洁净板厂家/兰州手工玻镁净化板/兰州机制净化板/选择指南 - 优质品牌商家
  • PAT乙级刷题避坑指南:从‘我要通过!’到‘狼人杀’,那些题目里没说清的隐藏考点
  • 保姆级教程:用STM32CubeIDE搞定STM32F407的USB虚拟串口(CDC)通信与速度测试
  • 别再只会下载程序了!手把手教你用J-Link的J-Scope和RTT功能做实时数据可视化
  • 2026四川挖掘机培训深度解析:叉车培训费用多少钱、四川挖掘机培训学校、四川挖掘机学习培训、四川挖掘机学校培训选择指南 - 优质品牌商家
  • 【仅限首批200名开发者】Dify API v0.12.0未公开的/batch_stream接口性能红利:吞吐提升210%实录
  • 告别傻等!用CAPL的TestJoin函数组,在CANoe测试节点里优雅地“监听”多个事件
  • 别再瞎试了!用Python的拉丁超立方抽样(LHS)高效设计你的实验参数
  • HPH构造解析:算力时代的精密架构
  • Proxmox VE 8 入门上手系列(五)网络配置-让虚拟机连上外网
  • NVIDIA端侧小语言模型Nemotron-4 4B解析与游戏AI实践
  • FPGA项目选RAM别纠结!单口、伪双口、真双口RAM性能实测对比(基于Artix-7开发板)
  • 从模组混乱到游戏秩序:Scarab如何重塑《空洞骑士》的模组体验
  • Android音频启动流程避坑指南:AudioPolicyService与AudioFlinger的交互核心loadHwModule与openOutput详解
  • 2026年4月更新:智能化浪潮下,重型多片锯供应商综合能力评估指南 - 2026年企业推荐榜
  • CSS如何对用户访问过的链接进行降级颜色处理_使用-visited伪类改变颜色
  • Proxmox VE 8 入门上手系列(六)用户权限与日常维护-多人协作与安全
  • STM32F103新手避坑:用CubeMX和HAL库配置TIM4多路PWM,结果只有一路有输出?
  • 机器学习笔记(13): DFKD (Data-Free Knowledge Distillation)
  • SNPS PCIe 5.0 VIP配置SRIS模式避坑指南:从LTSSM卡死到稳定L0的完整调试记录
  • 1分钟搞定Windows电脑无法识别iPhone的终极解决方案
  • 2026青海电竞核心技术拆解:青海网咖、青海网吧、青海电竞馆、青海电竞选择指南 - 优质品牌商家