金融风控之特征选择学习
写在前面:今天看到谷爱玲说,她没有一分钟是浪费的。反观自己,初入职场不顺,然后转行去了自己不熟悉也不喜欢的行业,一直过着“临时”生活。这种生活快两年了,两年间自己并没有得到太大提升,闲着的时间都被浪费了。现在自己希望能重回之前的行业,在这里记录下学习过程,也是监督自己不要半途而废,希望能在今年下半年顺利收获理想offer。
一、去掉取值变化小的特征
原理:假设某特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征值取值都是1,那可以认为该特征作用不大。
二、单变量特征选择
原理:对每一个特征进行测试,衡量该特征和响应变量之间的关系,根据得分扔掉不好的特征。对于回归和分类问题,以卡方检验等方式对特征进行测试。
2.1 person相关系数
注意:该方法衡量的是变量之间的线性相关性,其有效前提是两个变量的变化关系是单调的。
2.2互信息和最大信息系数MIC
2.2.1 互信息
互信息时信息论中的基础概念,度量两个随机变量之间共享的信息量,即一个变量能在多大程度上降低对另一个变量的不确定性。核心公式如下:
I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y) I(X;Y) = \sum_{x \in X} \sum_{y \in Y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}I(X;Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)
对于连续变量,则为积分形式。
2.2.2 最大信息系数
旨在解决传统互信息在有限样本下难以公平比较不同关系强度的问题。
2.3 距离相关系数
距离相关系数可以克服person相关系数的弱点,不仅关注线性相关性,还关注非线性相关性。如果person相关系数为0,只能说明无线性相关性,但如果距离相关系数为0,则可以说明这两个变量是独立的。
2.4 基于学习模型的特征排序
这里重点说明随机森林筛选特征的原理。
首先明确随机森林的基础知识。随机森林的核心思想是:1)对特征进行无放回随机抽样,得到特征子集,对样本进行有放回抽样;2)bagging思想:回归问题对各树取平均,分类问题对各树结果进行投票。
了解完随机森林的基础知识后,接下来介绍用随机森林做特征值筛选的核心思想,即计算每个特征在构建好的森林中对预测的“贡献”大小,并以此作为其重要性的度量。贡献值越大的特征,就被认为越重要。这一思想主要有两种经典方法,分别是基于不纯度减少和基于精度降低。
2.4.1 基于不纯度减少
这是随机森林最常用的特征重要性评估方法。核心原理是,在随机森林构建每颗决策树的过程中,算法会不断选择特征对节点进行分裂,以降低子节点的“不纯度”(如分类问题中的基尼不纯度或信息增益)。一个特征如果在越多的节点上用于被分裂,并且能显著降低不纯度,那么该特征对模型的贡献越大。
计算步骤:
·对于森林里每一颗树,计算每个特征在每次用于节点分裂时,所降低的不纯度数值;
·将该特征在所有树上的不纯度累加并做平均
·比较该平均值,数值越大,特征越重要
不纯度的计算分以下两种情况,对于分类任务来说,其不纯度用gini系数或信息熵来计算;
对于回归任务来说,其不纯度用MSE均方误差来计算
