当前位置: 首页 > news >正文

模型压缩技术

一、模型蒸馏(Knowledge Distillation)

1. 什么是模型蒸馏?

模型蒸馏是一种模型轻量化技术/模型压缩技术,让大模型(BERT,教师)教小模型(BiLSTM,学生),把大模型(教师模型 Teacher)学到的知识迁移到小模型(学生模型 Student)。不只迁移硬标签(真实类别),还要迁移软标签(类别之间的关联概率分布),让小模型在保持较小体积的同时,尽可能接近大模型的效果、具备大模型的推理能力。

2. 软标签 vs 硬标签

硬标签(Hard Label):真实one-hot 标签(只有目标类别为 1,其余全为 0),只学到类别边界,学不到类别间的相似性。(硬标签损失计算:通过 学生硬输出与真实标签的交叉熵;学生学习教师的最终答案。)
软标签(Soft Label):教师模型输出经过温度 T 平滑后的概率分布,包含类别间关系信息。(软标签损失计算:通过 学生软分布与教师软分布的KL散度;学生学习教师的概率分布。)
总结:KL散度计算软标签损失(学生软分布与教师软分布的 KL 散度)、交叉熵损失计算硬标签损失(学生硬输出与真实标签的交叉熵)、MSE计算中间隐藏层损失(学生隐藏层,与教师隐藏层的MSE);

3. 温度T的作用

用高温T将硬输出平滑为软标签,压低最高类别概率,抬高非目标类别的概率,释放类别间的暗知识。推理阶段把 T 重置为 1。

4. 总损失

1. 公式:(经验取值:α=0.7∼0.9)
2. 描述:先用高温 T 把教师输出平滑为软标签,用 KL 散度让学生拟合这个软分布,再叠加原始数据集的分类交叉熵,同时学习类别关联知识与真实任务标签。
3. 损失函数由两部分加权组成:
① 蒸馏损失:学生软分布与教师软分布的 KL 散度(T>1),学习暗知识。
② 真实标签损失:学生硬输出与真实标签的交叉熵(T=1),保证拟合真实数据。

5. 整体流程


http://www.jsqmd.com/news/1089378/

相关文章:

  • 告别龟速下载:trackerslist如何让你的BT速度飙升3倍
  • 【精通】SmartWriter v2.2:知识图谱增强写作 — GraphRAG 图谱构建与混合多路召回深度实战
  • Java进阶面试核心宝典:程序员突击必备!
  • TI ESP430CE1电能计量芯片误差校正与寄存器配置实战指南
  • 3分钟掌握智能剪辑:零代码AI视频处理实战指南
  • 如何用1个驱动实现8个虚拟显示器?Parsec VDD技术揭秘
  • AMD Ryzen处理器深度调试:免费开源SMUDebugTool完全指南
  • 传奇服务端怪物行为解析:从Monster.DB数据库字段揭秘怪物不主动攻击的深层原因
  • Koalageddon:多平台DLC解锁技术的演进与突破
  • 网络安全竞赛pwn全解及第一道ai的wp
  • Koalageddon深度解析:揭秘多平台DLC解锁技术的架构创新与性能突破
  • 【SlowFast实战:从零构建自定义动作识别数据集到模型部署】
  • LabVIEW性能调优实战:从瓶颈定位到速度飞跃
  • Obsidian PDF++:终极PDF标注与知识管理完全指南
  • Performance-Fish终极指南:如何让RimWorld告别卡顿,流畅运行大型殖民地
  • 从MPU6050数据到稳定姿态:卡尔曼滤波融合实战解析
  • 终极AMD Ryzen调试工具完整指南:免费硬件优化快速上手
  • 告别PPT演示超时焦虑:智能计时器让时间掌控变得如此简单
  • 鸣潮自动化辅助工具ok-ww:5分钟快速上手指南与智能战斗配置
  • AMD Ryzen调试工具终极指南:3步掌握硬件性能优化技巧
  • 5分钟上手diff-pdf:轻松对比PDF差异的视觉神器
  • N_m3u8DL-RE流媒体下载器:让在线视频轻松变成本地收藏
  • STM32实战:HC-SR04超声波测距模块的精准驱动与误差优化
  • 从OCA到OCM:Oracle认证进阶之路全解析
  • 超越传统超频:SMUDebugTool如何解锁AMD Ryzen处理器隐藏性能
  • 免费开源Windows屏幕标注工具ppInk:3分钟上手终极指南
  • Electron 应用如何上架微软商店:从 MSIX 打包到商店提交
  • 从一维双原子链到声子谱:晶格振动的声学支与光学支全解析
  • WarcraftHelper:魔兽争霸3闪退修复与游戏优化全攻略
  • 仅限首批技术顾问获取:OpenAI未公开的模型行为差异手册(含system prompt敏感度、长文本截断策略、温度值响应曲线)