当前位置: 首页 > news >正文

熵、交叉熵、KL散度

描述自身分布的不确定性。

  1. 熵是干什么的?

熵是度量不确定性的。如果某个东西越不确定,那么我就需要用更多的信息才能弄清楚它。此时,熵就很大。

  • 事件越均匀,不确定性越大

举个例子,从1-100个数字里等概率抽取一个数字。由于是等概率的,所以不确定性很大,即熵很大。如果从2个红苹果和1个绿苹果里,抽中一个红苹果。相对来说,抽中红苹果的不确定性要小一些,即熵要小一些。这引导出一个结论——熵随着概率越平均而变大。

  • 独立事件信息可加

要确定两个独立事件A和B需要的信息是多少呢?既然独立,那么互不影响,所以需要两次信息相加。即\(H(A,B)=H(A)+H(B)\)。在常见函数里,能满足这条性质的,只有对数函数。\(log(AB)=log(A)+log(B)\)

  • 事件越可能,提供的信息量越小

当一件事情大概率发生的时候,我们不会因为这件事发生了而感到惊讶,所以事件越可能发生,能提供的信息就越少。我们用\(I(p)\)(information)表示一个概率为p的事件带来的信息量。思考一下极端情况。概率越大,信息量越小,那么如果概率为1,信息量应该为多少呢?对的,应该为1。再考虑一下另外一个极端情况,当概率越来越小,信息量就会越来越大。如果概率为0,那么能提供的信息量应该就是无穷大的。基于此,再结合上面的独立事件信息可加性质,我们能得到:\(I(p)=-\log(p)\)。因为概率p只能在[0,1]之间,所以\(\log(p)\)一定为负。为了保证信息量不为负,添加了负号。(大不了不提供信息,怎么会倒提供信息呢?是吧?😃 )

  • 求信息量的期望

如果不止一件事情,而是很多件事情。那么它们能带来的信息量会是多少呢?这个时候,就要求一个平均信息量(期望)。如果一件事情的发生概率是\(p_i\),能提供的信息量是\(I(p_i)\),那么这件事情能提供的信息量期望就是\(p_iI(p_i)\)。现在只需要把所有事情的信息量加起来,就得到:

\[H(p)=-\sum_i p_i \log(p_i) \]

Congratulations。我们得到了信息熵的公式定义。

交叉熵

用Q分布去描述P分布

在现实生活中,我们只能知道一件事情的先验概率,而不能知道一件事情的后验概率。举个例子,我们抛掷一枚硬币。在抛之前,我们知道结果为正面的概率是0.5,但是我们抛十次,最终的结果一定会是0.5吗?不一定。抛之前就能知道的概率就是先验概率;抛之后才能知道的概率就是后验概率。

如果要判断一个模型的分类性能,就是判断模型输出的概率与真实的概率是否接近。也就是说在用模型输出的概率分布去描述真实的概率分布。我们希望的是模型的输出概率分布尽可能跟真实的概率分布一致,那么就能预测准确啦。所以就有了交叉熵:

\[H(p,q)=-\sum_i p_i \log(q_i) \]

在分类任务中,标签\(y\)通常是独热编码,即[0,0,0,1,0,0…,0]。只有真实标签的位置会是1,其他都是0。那么交叉熵计算结果会是\(H(p,q)=- \log(q_i)\)

KL散度

用Q分布去描述P分布,需要多付出的信息量

我们已经有了交叉熵,得到了用Q分布去描述P分布的信息量。毕竟是用Q分布去描述的P分布,所以会多付出一些信息量。要多付出多少呢?多付出的这部分就是KL散度。

\[D_{\text KL}(P \rVert Q)=H(P,Q)-H(P) \]

所以KL散度的本质是两个熵的比较,是两个分布的差异。

聪明的你一定看出来了,\(H(P,Q)=D_{\text KL}(P \rVert Q)+H(P)\),P分布的熵是固定的,那么把交叉熵作为优化目标进行优化,是不是就相当于对KL散度进行优化呢?答案为是的 😃。所以KL散度没有那么神秘。

http://www.jsqmd.com/news/44604/

相关文章:

  • Studio 3T 2025.21 发布 - MongoDB 的终极 GUI、IDE 和 客户端
  • 2025年长沙心理咨询机构专家团队排名,在线/线上心理咨询公司排行
  • SLS 脱敏函数实践:智能化与数据安全的融合
  • .net 行不行?在线客服系统成功支持客户双11大促,21客服在线,高峰超300会话并发
  • 手机WebView启用硬件GPU加速 - jerry
  • Cisco Secure Email and Web Manager Virtual 16.0.2 MD - 集中管理思科安全设备
  • PVE9安装R8125 2.5G网卡驱动、开启缓冲区、开启硬件多队列支持(基于联想来酷MiniPro)
  • 单部电梯调度程序
  • 2025年吨包醋酸钠定制厂家权威推荐榜单:‌工业级乙酸钠/醋酸钠乙酸钠/醋酸钠乙酸钠源头厂家精选
  • 完整教程:解读ASME BPVC.II.A-2023
  • linux doxygen
  • 2025 最新钢管设备厂家权威推荐榜:3PE 防腐 / 抛丸除锈 / 涂塑喷粉设备综合测评重磅发布内壁抛丸除锈设备/涂塑设备,防腐设备,粉末喷涂设备,内外壁喷粉设备,抛丸除锈设备公司推荐
  • 2025 最新管道设备供应厂家口碑推荐榜:聚焦 3PE / 除锈 / 涂塑设备,精选品牌权威测评推荐管道除锈设备/管道涂塑设备/管道内壁喷粉设备/管道涂塑设备公司推荐
  • 2025年人参皂苷化学对照品源头厂家权威推荐榜单:维生素K2化学对照品/蜕皮激素化学对照品/麦角甾醇化学对照品源头厂家精选
  • CODE1:GPIO输出和输入 - LI,Yi
  • 生成ppt图片的网站
  • Teamcenter 导入 mpp创建时间表 - 张永全
  • 2025年百叶窗厂家推荐排行榜前十名:智能窗帘电机选购全指南
  • Hi3403开发板极速启航 | 手把手带你玩转核心例程,轻松上手AI视觉!
  • 等成绩的日子
  • 2025年国内百叶窗厂家综合实力排行榜:技术领先与品牌价值深度解析
  • 2025年出口塔吉克斯坦稳压器实力厂家权威推荐榜单:出口吉尔吉斯斯坦稳压器/三相380V稳压器/出口土库曼斯坦稳压器源头厂家精选
  • DEV1:LED - LI,Yi
  • 2025年警用指挥车供货厂家权威推荐榜单:越野应急指挥车/全顺无人机指挥车/双拓展指挥车源头厂家精选
  • NetworkManager接管vxlan网卡等导致容器网络不通
  • 2025年国内百叶窗企业权威推荐排行榜
  • 联想小新pad 2025刷机包下载(TB335FC刷机包)
  • 2025年百叶窗厂家专业推荐榜单:行业权威排行解析
  • 2025年滴灌过滤设备优质厂家权威推荐榜单:全自动砂石过滤器/农业离心过滤器/滴灌过滤器源头厂家精选
  • imu_tk阅读笔记