当前位置: 首页 > news >正文

熵,PSI,IV在机器学习中的应用

1.熵的概念:

熵,是一个热力学的概念。但在历史的发展中,造就了它非常丰富的内涵,进入了很多学科的视野。

1.混乱的熵

        很多科普文章中,熵是用来度量混乱的。熵越小,这个时候越有秩序;而被打乱的时候,熵开始增大,直到最后一片混乱。

2.可能的熵

        所谓的整洁,指的是合适的物品放在了合适的位置。比如将下图定义为“整洁”,也就是说图中大概有20件可以移动的物品,都放在了合适的位置:

        而实际上,图中至少有100个可以放置物品的位置。其总的放置方法为非常巨大的数字:

        

如果“整洁”被定义为上图中的放置方法,其余都统统称为“混乱”。那么“整洁”在所有放置方法中的占比,即“整洁”出现的概率是非常小的,几乎为不可能事件;而“混乱”几乎为必然事件,所以“整洁”很容易变为“混乱”:

"整洁的概率"  

熵越大,意味着发生的可能性越大。而整个宇宙,自发地朝着可能性更大的方向,也就是熵更大的方向在发展,这就是熵增原理 的更准确的描述(要强调下,如果有人去收拾房间,那就不叫作“自发”)。

以上参考:https://www.zhihu.com/question/24053383/answer/849500436

2.机器学习-各种熵的概念:

2.1 信息熵:信息量的期望(加权平均)

        

      信息熵特点:(以概率和为1为前提哈)

a) 不同类别的概率分布越均匀,信息熵越大;

b) 类别个数越多,信息熵越大;

c) 信息熵越大,越不容易被预测;(变化个数多,变化之间区分小,则越不容易被预测)(对于确定性问题,信息熵为0)

2.2 相对熵(KL散度)

        相对熵又叫KL散度:对于同一个随机变量X有两个单独的概率分布P(x)和Q(x),则使用KL散度来衡量这两个概率分布之间的差异。

        K-L散度可以理解为分布P(x)和Q(x)之间的对数差值的期望。

        KL散度越小,表示P(x)与Q(x)的分布更加接近。

2.3 交叉熵

        交叉熵可以由KL散度推导出来:

        KL散度 = - 信息熵+ 交叉熵

        由于信息熵是关于分布P(x)的,而分布P(x)是已知的,是一个常量,那么最小化KL散度,就相当于最小化交叉熵,所以机器学习中经常使用交叉熵损失函数。

3. 从KL散度到PSI        

        上次我们讲到IV和PSI的公式可以用一个通用表达式表示:

        并且用熵的概念简要的说明了为什么对

http://www.jsqmd.com/news/593316/

相关文章:

  • Linux内核中的Per-CPU变量:无锁并发编程
  • 2026年全链路性能测试方案选型与实施指南
  • python zipfile
  • COMSOL合并BIC:能带计算、Q因子计算、远场偏振投影及录屏指导
  • 游戏化学习与编程实战:CodeCombat让编程学习像玩游戏一样简单
  • 抖音无水印视频批量下载全攻略:从痛点解决到高效管理
  • Netty 线程模型
  • 2026年3月实测!GEO优化厂家产品性能大揭秘,专业的GEO优化口碑推荐技术领航者深度解析 - 品牌推荐师
  • 如何用OpCore-Simplify在30分钟内完成黑苹果配置:自动化OpenCore EFI工具终极指南
  • 飞轮储能 背靠背变流器 充放电控制 并网控制 matlab/simulink仿真模型 包括机侧...
  • 4步解决Windows Defender管控难题:技术用户的系统防护配置指南
  • 第7章 运算符-7.2 赋值运算符
  • MaaYuan自动化辅助工具高效配置避坑指南:零基础入门三步完成环境部署
  • CQUPT 2025级 数据科学与大数据技术英才班 周测#02
  • Java 开发者零成本构建 RAG 知识库:Spring AI Alibaba + Ollama 搭建本地 RAG 知识库
  • 5步快速上手:用Ryujinx在PC上完美运行Switch游戏终极指南
  • Node.js——dns模块
  • 第26课:Qt 接管 MISC、input 与定时器,把事件流和倒计时界面一起跑通
  • NSudo完全指南:轻松获取Windows最高权限的5种方法
  • 告别B站资源无法保存的烦恼:BiliTools跨平台工具箱完整使用指南
  • nacos
  • 第27课:Qt 看门狗倒计时实战,学会让界面节奏和系统守护对齐
  • 从安装到首次提交,在快马平台实战演练中掌握git核心工作流
  • 体验AI结对编程:让快马成为你的智能代码审查与优化助手
  • 输入可视化革命:如何用input-overlay消除直播中的操作信息差
  • 【GitHub项目推荐--OpenSpace:从地球到深空,打开宇宙的“数字窗口”】⭐
  • 终极图像查看器Nomacs:专业级功能完全指南
  • 数据库集群中的bond1接口出现网络丢包
  • 实战指南:用快马生成altium designer数据采集板卡全流程设计项目
  • RePKG:5个高效技巧助你掌握Wallpaper Engine资源处理与格式转换