当前位置: 首页 > news >正文

金融风控之特征选择学习

写在前面:今天看到谷爱玲说,她没有一分钟是浪费的。反观自己,初入职场不顺,然后转行去了自己不熟悉也不喜欢的行业,一直过着“临时”生活。这种生活快两年了,两年间自己并没有得到太大提升,闲着的时间都被浪费了。现在自己希望能重回之前的行业,在这里记录下学习过程,也是监督自己不要半途而废,希望能在今年下半年顺利收获理想offer。

一、去掉取值变化小的特征

原理:假设某特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征值取值都是1,那可以认为该特征作用不大。

二、单变量特征选择

原理:对每一个特征进行测试,衡量该特征和响应变量之间的关系,根据得分扔掉不好的特征。对于回归和分类问题,以卡方检验等方式对特征进行测试。

2.1 person相关系数

注意:该方法衡量的是变量之间的线性相关性,其有效前提是两个变量的变化关系是单调的。

2.2互信息和最大信息系数MIC

2.2.1 互信息

互信息时信息论中的基础概念,度量两个随机变量之间共享的信息量,即一个变量能在多大程度上降低对另一个变量的不确定性。核心公式如下:

I(X;Y)=∑x∈X∑y∈Yp(x,y)log⁡p(x,y)p(x)p(y) I(X;Y) = \sum_{x \in X} \sum_{y \in Y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}I(X;Y)=xXyYp(x,y)logp(x)p(y)p(x,y)

对于连续变量,则为积分形式。

2.2.2 最大信息系数

旨在解决传统互信息在有限样本下难以公平比较不同关系强度的问题。

2.3 距离相关系数

距离相关系数可以克服person相关系数的弱点,不仅关注线性相关性,还关注非线性相关性。如果person相关系数为0,只能说明无线性相关性,但如果距离相关系数为0,则可以说明这两个变量是独立的。

2.4 基于学习模型的特征排序

这里重点说明随机森林筛选特征的原理。
首先明确随机森林的基础知识。随机森林的核心思想是:1)对特征进行无放回随机抽样,得到特征子集,对样本进行有放回抽样;2)bagging思想:回归问题对各树取平均,分类问题对各树结果进行投票。
了解完随机森林的基础知识后,接下来介绍用随机森林做特征值筛选的核心思想,即计算每个特征在构建好的森林中对预测的“贡献”大小,并以此作为其重要性的度量。贡献值越大的特征,就被认为越重要。这一思想主要有两种经典方法,分别是基于不纯度减少和基于精度降低。

2.4.1 基于不纯度减少

这是随机森林最常用的特征重要性评估方法。核心原理是,在随机森林构建每颗决策树的过程中,算法会不断选择特征对节点进行分裂,以降低子节点的“不纯度”(如分类问题中的基尼不纯度或信息增益)。一个特征如果在越多的节点上用于被分裂,并且能显著降低不纯度,那么该特征对模型的贡献越大。

计算步骤:

·对于森林里每一颗树,计算每个特征在每次用于节点分裂时,所降低的不纯度数值;

·将该特征在所有树上的不纯度累加并做平均

·比较该平均值,数值越大,特征越重要

不纯度的计算分以下两种情况,对于分类任务来说,其不纯度用gini系数或信息熵来计算;

对于回归任务来说,其不纯度用MSE均方误差来计算

http://www.jsqmd.com/news/1116919/

相关文章:

  • 微型NLP实践闭环:本地化年度复盘工具设计与实现
  • 00后团队汇光创新获数千万元融资,视触觉传感器破具身智能触觉数据瓶颈
  • MC74HC165A与PIC18LF26K80的SPI扩展输入方案
  • 市场专业的青少年心理辅导院公司哪家强
  • 绩隐金日报 · 第53期
  • WinForm依赖注入实战:提升可测试性与维护性
  • 2026高考志愿填报资料,全部自取
  • 2026年最新英语写作批改工具盘点 附不同场景挑选避坑指南
  • 如何通过Rust内存安全实现网易云音乐插件管理器的跨版本兼容架构
  • ROS 2 的发布/订阅通信验证
  • Dsniff实战指南:Kali与Termux双平台网络嗅探与中间人攻击防御
  • 毕设 基于python的搜索引擎设计与实现
  • 2026年AI原生安全公司竞争力分析:谁在领先?
  • 实训项目完整文档|SpringBoot+MySQL 图书管理系统项目说明
  • 探索开源工具的全新可能:MTKClient深度解锁联发科芯片的底层奥秘
  • 淘宝商品评论数据爬取:Python实战指南
  • 设备出了故障,工程师还要开车3小时去现场?远程运维正在改变这一切
  • 超声脑机接口潜力大,思昇科技获数千万元种子轮融资剑指千亿市场
  • 电机铁芯冲压油残留的实验室检测方法
  • API安全实战:从400错误到纵深防御体系构建
  • 2026年热门AI论文网站全攻略(含免费额度说明)
  • 如何用DevToysMac提升macOS开发效率:完整的全能工具箱指南
  • 此标题不符合规则要求,若以“刑事案件代理”为核心关键词,生成趋势洞察型标题:2026年刑事案件代理行业趋势:专业能力与服务质量并重
  • mysql定期全量备份脚本
  • Three.js 3D热力图教程
  • 废弃购物车挽回攻略 YITH插件助你提升70%转化率的完整指南 - 易服客工作室
  • CVE申请全攻略:不止MITRE,VulDB等CNA渠道效率更高
  • 第115页的gtk+编程例子——进度条改写网上的例子用gtk4编译
  • 2026 上海小程序开发公:从技术底座、费用与落地路径全维度选型
  • 一人公司必备 AI 工具:5秒搞定电商详情页与爆款图文