当前位置：首页 > news >正文

机器学习中的熵

news 2026/3/26 15:55:20

摘要：本文探讨了熵在机器学习中的应用，重点介绍了其在决策树算法中的作用。熵用于衡量数据集的纯度或随机性，通过香农熵公式计算。决策树利用熵选择最优分割点，以生成同质性更强的子集。文章还提供了Python实现示例，使用鸢尾花数据集演示熵的计算过程，得出初始熵值为1.585，反映了三个类别的分布随机性。熵的概念源于热力学，现已成为机器学习中重要的数据分割指标。

机器学习中的熵

熵的计算方法

示例计算

熵在决策树中的应用

Python 实现熵的计算

代码实现

代码说明

运行结果

机器学习中的熵

熵源于热力学，后被应用于信息论、统计学和机器学习等多个领域。在机器学习中，熵用于衡量数据集的纯度或随机性，尤其在决策树算法中，用于确定数据分割方式，以生成同质性更强的子集。本文将介绍机器学习中的熵、其特性及 Python 实现。

熵被定义为系统混乱度或随机性的度量。在决策树中，熵用于衡量节点的纯度：若一个节点中的所有样本都属于同一类别，则该节点为 “纯节点”，熵值为 0；若样本均匀分布在多个类别中，则节点纯度低、熵值高。

熵的计算方法

计算熵需先确定数据集中每个类别的概率。设 p(i) 为样本属于第 i 类的概率，若数据集包含 k 个类别，则系统的总熵（记为 H(S)）按香农熵公式计算：

示例计算

假设有一个含 100 个样本的数据集，其中 60 个属于 A 类，40 个属于 B 类。则 A 类概率为 0.6，B 类概率为 0.4，数据集的熵为：

熵在决策树中的应用

决策树算法中，熵的核心作用是选择 “最优分割点”—— 目标是找到能使分割后子集总熵最低的分割方式，从而让子集的同质性最强。

具体流程如下：

1.计算整个数据集的初始熵 H(S)；

2.针对每个特征（如 X1、X2）的所有可能分割方式，计算分割后的加权熵：

对特征 X1 分割：
对特征 X2 分割：

其中，p1,p2,p3,p4 为各子集的样本占比，H(S1),H(S2),H(S3),H(S4) 为各子集的熵；

3.选择总熵最低的分割方式

生成决策树的子节点；

4.递归重复上述过程，直至所有节点为纯节点或满足停止条件。

Python 实现熵的计算

以下结合 scikit-learn 的 “鸢尾花（iris）数据集”，演示熵的计算过程：

代码实现

from sklearn.datasets import load_iris import numpy as np # 加载鸢尾花数据集 iris = load_iris() # 提取特征数据和标签（标签表示花的类别） X = iris.data y = iris.target # 定义熵计算函数 def entropy(y): n = len(y) # 样本总数 # 统计每个类别的样本数量 _, counts = np.unique(y, return_counts=True) # 计算每个类别的概率（占比） probs = counts / n # 按香农熵公式计算熵 return -np.sum(probs * np.log2(probs)) # 计算鸢尾花数据集标签的熵 target_entropy = entropy(y) # 输出结果（保留3位小数） print(f"标签熵值: {target_entropy:.3f}")