当前位置：首页 > news >正文

算法学习笔记(12): KD 基于高温 Softmax 的 Logits 模拟

news 2026/4/22 0:26:13

对于 [[函数#^f5ba8e|Softmax]] 函数，如果引入温度 \(T\)，那么：

\[q_i = \frac {\exp (z_i / T)}{\sum \exp (z_j / T)} \]

会使得 \(q_i\) 间的差距变小，也就是会放大真实标签小的权重，使得其显现化。

于是对于两个模型 \(\theta, \phi\)，如果有着相同的 logits 输出空间 \(l_\theta, l_\phi\)，最终的，那么就可以在一个共有数据集下使用这样一个损失函数：

\[L(\phi; \theta) = \alpha L(\phi) + \beta D_{KL} ({\rm softmax}_T(l_\theta) \| {\rm softmax}_T(l_\phi)) \]

基于这个损失函数训练 \(\phi\) 即可。

值得注意的是，由于对于 \({\rm softmax}_T\)，其导数会多一个 \(\frac 1 T\) 的常数，另外，通过 \(T\) 较大时：\(\exp \frac x T \approx 1 + \frac x T\)，使得对于求 \(\rm softmax\) 偏导后的 \(q_{\theta, i} - q_{\phi, i}\) 会变成原本的 \(O(\frac 1 T)\) 量级，也就是 \(\nabla D_{KL}\) 会变成原本的 \(O(\frac 1 {T^2})\) 量级。所以可以将公式修正为 \(\beta' = \beta T^2\)

一种特殊情形: 直接学习 logits (不经过softmax)，并利用 MSE 设计 Loss。
本质上和利用 KL 散度是一致的，可以考虑其偏导都是实际输出的差值，也就是说，在 logits 分布一致的情况下，直接学习 logits 完全可行。
但是如果分布一个大，一个小，那么这样学习可能就会很困难。

http://www.jsqmd.com/news/679195/

相关文章：

从芯片制造到电路设计：为什么CMOS工艺偏爱P型衬底？聊聊背后的历史与技术选择

NVIDIA DGX SuperPOD：AI超级工厂的算力革命

mysql事务什么时候需要回滚_mysql异常处理解析

别再自己搭文件服务器了！Spring Boot整合阿里云OSS，5分钟搞定图片上传功能

2026年现阶段浙江生产线服务商竞争力评估：五强格局与选型指南 - 2026年企业推荐榜

计算机毕业设计：Python农业数据分析与粮食产量预测系统 Django框架数据分析可视化机器学习深度学习大数据大模型（建议收藏）✅

从OCV到AOCV：深度解析基于Stage与Distance的时序悲观度剔除策略

Day05：大模型生产环境常见问题与排障科普笔记

2026兰州不锈钢净化板技术解析：兰州手工岩棉净化板/兰州手工板/兰州手工洁净板厂家/兰州手工玻镁净化板/兰州机制净化板/选择指南 - 优质品牌商家

PAT乙级刷题避坑指南：从‘我要通过！’到‘狼人杀’，那些题目里没说清的隐藏考点

保姆级教程：用STM32CubeIDE搞定STM32F407的USB虚拟串口（CDC）通信与速度测试

别再只会下载程序了！手把手教你用J-Link的J-Scope和RTT功能做实时数据可视化

2026四川挖掘机培训深度解析：叉车培训费用多少钱、四川挖掘机培训学校、四川挖掘机学习培训、四川挖掘机学校培训选择指南 - 优质品牌商家

【仅限首批200名开发者】Dify API v0.12.0未公开的/batch_stream接口性能红利：吞吐提升210%实录

告别傻等！用CAPL的TestJoin函数组，在CANoe测试节点里优雅地“监听”多个事件

别再瞎试了！用Python的拉丁超立方抽样（LHS）高效设计你的实验参数

HPH构造解析：算力时代的精密架构

Proxmox VE 8 入门上手系列（五）网络配置-让虚拟机连上外网

NVIDIA端侧小语言模型Nemotron-4 4B解析与游戏AI实践

FPGA项目选RAM别纠结！单口、伪双口、真双口RAM性能实测对比（基于Artix-7开发板）

从模组混乱到游戏秩序：Scarab如何重塑《空洞骑士》的模组体验

Android音频启动流程避坑指南：AudioPolicyService与AudioFlinger的交互核心loadHwModule与openOutput详解

2026年4月更新：智能化浪潮下，重型多片锯供应商综合能力评估指南 - 2026年企业推荐榜

CSS如何对用户访问过的链接进行降级颜色处理_使用-visited伪类改变颜色

Proxmox VE 8 入门上手系列（六）用户权限与日常维护-多人协作与安全

STM32F103新手避坑：用CubeMX和HAL库配置TIM4多路PWM，结果只有一路有输出？

机器学习笔记(13): DFKD (Data-Free Knowledge Distillation)

SNPS PCIe 5.0 VIP配置SRIS模式避坑指南：从LTSSM卡死到稳定L0的完整调试记录

1分钟搞定Windows电脑无法识别iPhone的终极解决方案

2026青海电竞核心技术拆解：青海网咖、青海网吧、青海电竞馆、青海电竞选择指南 - 优质品牌商家