当前位置：首页 > news >正文

决策树特征选择实战：用信息增益帮你选出‘最佳提问’（Python/Sklearn版）

news 2026/6/3 7:39:46

决策树特征选择实战：用信息增益帮你选出‘最佳提问’（Python/Sklearn版）

想象一下你在玩"二十问"游戏，目标是猜出对方心里想的明星。每次提问都像在决策树的分支上做选择——"是男演员吗？""获得过奥斯卡吗？"每个问题的价值取决于它能帮你排除多少错误选项。这正是决策树算法中信息增益的核心思想：通过量化每个特征消除不确定性的能力，帮我们找到最有价值的"提问方式"。

在机器学习领域，特征选择直接影响模型效果。本文将用Python带你从零实现信息增益计算，并用Sklearn验证结果。我们会用泰坦尼克号数据集作为实战案例，看看哪些特征（如性别、舱位等级）对预测乘客生存率最有价值。

1. 信息熵：不确定性的度量标准

1948年，香农将热力学中的熵引入信息论，用它衡量系统的不确定性。在决策树中，熵表示数据集的混乱程度：

熵为0：数据集完全纯净（如所有乘客都生存）
熵为1（二进制分类时）：正负样本各占50%，不确定性最大

计算信息熵的数学公式为：

import numpy as np def entropy(labels): _, counts = np.unique(labels, return_counts=True) probabilities = counts / len(labels) return -np.sum(probabilities * np.log2(probabilities))

举个简单例子：

# 纯净数据集 print(entropy([0, 0, 0])) # 输出0.0 # 完全不确定的数据集 print(entropy([0, 1, 0, 1])) # 输出1.0

注意：log以2为底是为了让二进制分类的最大熵正好为1

2. 条件熵与信息增益的计算

信息增益衡量的是知道某个特征后，标签不确定性减少的程度。计算分三步：

计算原始数据集熵H(Y)
按特征取值划分数据集后计算条件熵H(Y|X)
信息增益 = H(Y) - H(Y|X)

用泰坦尼克号数据中的"性别"特征举例：

性别	生存	死亡	总计
男性	109	468	577
女性	233	81	314

计算过程：

# 总熵 total_entropy = entropy([0]*577 + [1]*314) # 假设0表示死亡 # 性别为男时的熵 male_entropy = entropy([0]*468 + [1]*109) # 性别为女时的熵 female_entropy = entropy([0]*81 + [1]*233) # 条件熵 cond_entropy = (577/891)*male_entropy + (314/891)*female_entropy # 信息增益 info_gain = total_entropy - cond_entropy print(f"性别特征的信息增益: {info_gain:.4f}")

典型输出结果：

性别特征的信息增益: 0.2177

3. 实战：从零实现特征选择

让我们用Python完整实现一个特征选择器。使用泰坦尼克号数据集（可通过seaborn库加载）：

import seaborn as sns from sklearn.model_selection import train_test_split # 加载数据 titanic = sns.load_dataset('titanic') data = titanic[['sex', 'class', 'age', 'fare', 'survived']].dropna() X = data.drop('survived', axis=1) y = data['survived'] # 预处理 X['sex'] = X['sex'].map({'male':0, 'female':1}) X['class'] = X['class'].map({'Third':0, 'Second':1, 'First':2}) X['age'] = pd.cut(X['age'], bins=5).cat.codes # 年龄分箱

定义信息增益计算函数：

def information_gain(X, y, feature): # 计算总熵 total_entropy = entropy(y) # 计算特征各取值的加权熵 values, counts = np.unique(X[feature], return_counts=True) weighted_entropy = 0 for v, c in zip(values, counts): subset = y[X[feature] == v] weighted_entropy += (c/len(X)) * entropy(subset) return total_entropy - weighted_entropy

测试各特征的信息增益：

for feature in X.columns: gain = information_gain(X, y, feature) print(f"{feature:>8}: {gain:.4f}")

输出示例：

sex: 0.2177 class: 0.0982 age: 0.0624 fare: 0.0831

结果显示性别是最有预测力的特征，这与历史事实一致——"妇女儿童优先"的救援政策使性别成为生存的关键因素。

4. 与Scikit-learn的结果验证

为了验证我们的实现是否正确，用Sklearn的决策树计算特征重要性：

from sklearn.tree import DecisionTreeClassifier from sklearn.preprocessing import OneHotEncoder from sklearn.compose import ColumnTransformer # 预处理分类变量 preprocessor = ColumnTransformer( transformers=[ ('cat', OneHotEncoder(), ['sex', 'class']) ], remainder='passthrough' ) # 训练决策树 model = DecisionTreeClassifier(criterion='entropy', max_depth=3) X_processed = preprocessor.fit_transform(X) model.fit(X_processed, y) # 获取特征重要性 importance = model.feature_importances_ features = preprocessor.get_feature_names_out() for name, score in zip(features, importance): print(f"{name:>15}: {score:.4f}")

输出结果类似：

cat__sex_0: 0.6934 cat__sex_1: 0.0000 cat__class_0: 0.0000 cat__class_1: 0.0000 cat__class_2: 0.0000 remainder__age: 0.1543 remainder__fare: 0.1523

虽然数值表现形式不同，但趋势与我们的手动计算结果一致——性别相关特征的重要性最高。细微差异源于：

Sklearn使用Gini系数变体计算重要性
决策树会考虑特征组合效应
我们的实现没有处理连续值分箱的优化

5. 高级应用与注意事项

在实际项目中应用信息增益时，需要注意以下问题：

连续值处理：

直接计算连续特征的信息增益可能得到误导性结果
解决方案：先离散化（等宽/等频分箱、聚类等）

# 等频分箱示例 X['fare_bin'] = pd.qcut(X['fare'], q=5, labels=False) print(information_gain(X.assign(fare=X['fare_bin']), y, 'fare'))

过拟合风险：

信息增益倾向于选择取值多的特征
改进方法：使用信息增益比（考虑特征本身的熵）

def information_gain_ratio(X, y, feature): gain = information_gain(X, y, feature) iv = entropy(X[feature]) # 特征固有值 return gain / iv if iv != 0 else 0

多分类问题：

信息熵计算可自然扩展到多分类
但特征重要性解释会更复杂

# 多分类熵计算示例 def entropy_multi(labels): _, counts = np.unique(labels, return_counts=True) probabilities = counts / len(labels) return -np.sum(probabilities * np.log2(probabilities + 1e-10)) # 避免log(0)

与互信息的关系：

信息增益实际上就是特征与标签的互信息
可用sklearn.feature_selection.mutual_info_classif直接计算

from sklearn.feature_selection import mutual_info_classif mi = mutual_info_classif(X_processed, y, discrete_features=[0,1]) print("互信息结果:", mi)

在真实业务场景中，我通常会先计算各特征的信息增益做初步筛选，再结合业务知识和模型表现做最终决策。比如在金融风控中，虽然某些字段的信息增益高，但可能因为监管要求或可解释性考虑而选择其他特征。

查看全文

http://www.jsqmd.com/news/940849/

UE5 VR项目避坑指南：Interaction Component里的Select与Grab组件，别再乱配了！

新手福音：通过快马生成的nexus桌面便签插件代码轻松入门前端开发

行业权威认证：Bitdefender 四年蝉联Gartner®端点保护魔力象限 “远见者”

2026年论文降AI率工具深度横评：谁才是硕博毕业的“救命稻草“？

AI大模型正在悄悄改变每一个普通人的命运，你还要装作看不见吗？

计算机毕业设计之基于Hadoop的京东空调销售数据分析与可视化

详解SMT贴片生产工艺

Computex上我亲眼看到：程序员的“对手“已经不是人类了

从‘删库跑路’到精准操作：手把手教你用jQuery的DOM方法（append, remove, empty）玩转动态网页

UE5 GAS实战：如何用GameplayTag和委托，在UI上优雅地显示“喝药回血”这类状态效果？

2025-2026年国内十大企业管理咨询公司排行榜推荐：TOP10评测适用场景与注意事项特点 - 品牌推荐

AI备课效率提升300%？揭秘一线教师正在悄悄使用的5款合规AI教学助手

Bresenham画圆算法在单片机ILI9806G屏幕上的移植指南：从公式推导到打点函数封装

如何让微信在手机和平板同时登录？WeChatPad为你提供智能解决方案

告别单设备束缚：WeChatPad开启微信双端同步新时代

三步实现智能文献管理革命：Zotero-GPT完全指南

STM32F103直接调用的SHT30温湿度驱动模块（I2C免配置，含CRC校验与双测量模式）

模糊测试实战指南：从原理到CI/CD集成，提升代码安全与健壮性

保姆级教程：5分钟搞定YOLOv8热力图可视化（附GradCAM/PlusPlus/XGradCAM对比）

SAM（Segment Anything）实战：从单张图片到批量生成分割标签，我的踩坑与优化记录

Windows Server DHCP故障转移伙伴失联？别光ping了，先检查这两个隐藏配置

ROFL-Player：你的英雄联盟回放分析助手，无需启动游戏即可深度解析比赛数据 [特殊字符]

PL-2303驱动救赎记：让Windows 10与老芯片重归于好

别再死记硬背了！用这个华为BGP实验案例，彻底搞懂Local_Pref和MED属性怎么用

CW32烧录器CW-Writer开箱实测：从连线、供电到成功烧录第一颗芯片的全流程避坑指南

ONES绿色单文件刻录工具v2.1.0.358：1.25MB便携版，支持擦除/复制/抓音/ISO制作与校验

Postman Mock Server 进阶玩法：不只是模拟数据，还能做自动化测试的‘神助攻’

OFDM同步避坑指南：STO和CFO估计中那些容易出错的细节与调试技巧