当前位置：首页 > news >正文

特征选择三剑客：过滤法、包装法与嵌入法的实战对比

news 2026/6/17 18:58:09

1. 特征选择为什么重要？

在机器学习项目中，我们经常会遇到成百上千个特征，但并不是所有特征都对预测有帮助。有些特征可能是冗余的，有些可能是噪声，甚至有些特征会干扰模型的判断。这就好比你要做一道菜，面前摆着几十种调料，但真正需要的可能只有盐、糖、酱油等几种关键调料。放太多无关调料反而会让菜品味道变得奇怪。

特征选择就是在做这个"挑选关键调料"的工作。它能带来三个明显好处：

提升模型性能：去除无关特征后，模型能更专注于真正有用的信息
加快训练速度：特征越少，计算量越小，训练速度自然越快
增强可解释性：使用少量关键特征建立的模型更容易理解和解释

我在实际项目中就遇到过这样的情况：一个包含200多个特征的数据集，经过特征选择后只用30个特征，模型准确率反而提高了5%，训练时间缩短了60%。

2. 过滤法：简单高效的初筛工具

2.1 方差选择法 - 剔除"僵尸特征"

想象一下，如果某个特征在所有样本中的值都差不多（比如所有人的身高都是1.75米），这个特征显然对分类没有帮助。方差选择法就是通过计算特征的方差来识别这类"僵尸特征"。

from sklearn.feature_selection import VarianceThreshold from sklearn.datasets import load_iris # 加载鸢尾花数据集 iris = load_iris() # 设置方差阈值为0.8 selector = VarianceThreshold(threshold=0.8) X_new = selector.fit_transform(iris.data) print("原始特征数:", iris.data.shape[1]) print("筛选后特征数:", X_new.shape[1])

这个方法特别适合作为特征选择的"第一道筛子"，能快速剔除明显无用的特征。但要注意阈值的选择——设得太高可能误删有用特征，太低则起不到筛选效果。我一般会先观察特征的方差分布，再决定合适的阈值。

2.2 相关系数法 - 找出与目标最相关的特征

相关系数法就像给每个特征和目标之间做"相亲匹配"，看它们是否合适。我们常用皮尔逊相关系数来衡量线性相关性，值在-1到1之间，绝对值越大相关性越强。

from sklearn.feature_selection import SelectKBest from scipy.stats import pearsonr import numpy as np # 自定义评分函数 def pearson_selector(X, y): scores = [] for i in range(X.shape[1]): score = pearsonr(X[:, i], y)[0] scores.append((abs(score), i)) # 按得分排序 scores.sort(reverse=True) return np.array(scores) # 选择top 2特征 selector = SelectKBest(pearson_selector, k=2) X_new = selector.fit_transform(iris.data, iris.target)

这个方法计算简单、解释性强，但有个明显局限：只能检测线性关系。如果特征和目标是非线性关系，可能会漏掉重要特征。我在处理金融数据时就遇到过这种情况，后来改用互信息法才解决了问题。

3. 包装法：让模型自己选特征

3.1 递归特征消除(RFE) - 逐步剔除最差特征

RFE的工作方式很像我们整理衣柜：先把最不常穿的衣服挑出来扔掉，然后看看剩下的衣服，再挑最不常穿的扔掉，如此反复直到剩下最精华的部分。

from sklearn.feature_selection import RFE from sklearn.linear_model import LogisticRegression from sklearn.datasets import make_classification # 生成模拟数据 X, y = make_classification(n_samples=1000, n_features=20, n_informative=5) # 使用逻辑回归作为基模型 estimator = LogisticRegression() selector = RFE(estimator, n_features_to_select=5, step=1) X_new = selector.fit_transform(X, y) print("特征排名:", selector.ranking_) print("被选中的特征:", selector.support_)

RFE的优点是考虑特征组合效应，选出的特征子集通常质量较高。但缺点也很明显：计算成本高，特别是特征多的时候。我建议先用过滤法做初步筛选，再用RFE精挑细选。

3.2 顺序特征选择(SFS) - 逐步添加最佳特征

与RFE相反，SFS是从空集开始，逐步添加最能提升模型性能的特征。就像玩拼图，每次都找最能提升完整度的那块。

from sklearn.feature_selection import SequentialFeatureSelector from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier(n_neighbors=3) sfs = SequentialFeatureSelector(knn, n_features_to_select=5) X_new = sfs.fit_transform(X, y) print("被选中的特征:", sfs.support_)

包装法最大的优势是考虑特征间的相互作用，选出的特征组合通常能带来更好的模型性能。但代价是需要反复训练模型，计算量很大。对于特征特别多的情况，建议先做过滤法降维。

4. 嵌入法：训练和选择一步到位

4.1 L1正则化(Lasso) - 自动特征选择

Lasso回归就像个严格的教练，训练时会把不重要的特征的系数压缩为零，相当于自动做了特征选择。

from sklearn.linear_model import Lasso from sklearn.preprocessing import StandardScaler # 数据标准化很重要 scaler = StandardScaler() X_scaled = scaler.fit_transform(X) lasso = Lasso(alpha=0.1) lasso.fit(X_scaled, y) # 查看系数，不为零的特征被选中 print("特征系数:", lasso.coef_)

Lasso特别适合特征间存在多重共线性的情况。但要注意alpha参数的选择——太大可能把有用特征也压缩为零，太小则选择不够严格。我通常会用交叉验证来寻找最佳alpha值。

4.2 树模型特征重要性 - 基于信息增益的选择

决策树类模型在训练时会自动评估特征重要性，就像老师能看出哪些学生最用功一样。

from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(n_estimators=100) rf.fit(X, y) # 获取特征重要性 importances = rf.feature_importances_ indices = np.argsort(importances)[::-1] # 打印特征排名 for f in range(X.shape[1]): print(f"{f+1}. 特征 {indices[f]} - 重要性: {importances[indices[f]]:.4f}")

树模型的特征选择对非线性关系很有效，而且能处理各种类型的数据。但要注意，如果特征间相关性很强，重要性可能会被分散。我在实践中发现，配合一些降维方法使用效果更好。

5. 方法对比与实战建议

5.1 三种方法性能对比

方法类型	计算成本	考虑特征交互	适用场景	典型算法
过滤法	低	否	初步筛选、大数据集	方差选择、相关系数
包装法	高	是	中小数据集、追求性能	RFE、SFS
嵌入法	中	部分	模型训练时选择	Lasso、树模型