当前位置: 首页 > news >正文

day23 常见特征筛选算法

1.方差筛选 是最基础的过滤法:计算特征的方差,剔除方差极低的特征(这类特征数值变化小,对样本区分度弱)。优点是计算极快,缺点是只看特征自身,不考虑和目标的关联。
2.皮尔逊相关系数筛选 属于过滤法:计算特征与目标变量的皮尔逊相关系数(衡量线性相关程度),保留相关系数绝对值高的特征。
优点是直观易懂,缺点仅能捕捉线性关联,对非线性关系无效。
3.Lasso 筛选 属于嵌入法:在线性模型(如线性回归、逻辑回归)中加入L1正则化,迫使不重要的特征系数收缩至 0,最终保留系数非0的特征。既能完成特征筛选,也能同步训练模型,适合高维数据。
树模型重要性 属于嵌入法:基于决策树/随机森林/XGBoost等树模型,通过“特征对节点分裂的贡献度”计算重要性,保留重要4性高的特征。优点是能捕捉非线性关联,缺点是易受高基数特征干扰。
5.SHAP 重要性 是树模型重要性的进阶版:基于 SHAP 值(解释模型预测的统一框架)计算特征重要性,不仅能体现特征的整体影响程度,还能展示特征对预测结果的正负方向,解释性更强。
6.递归特征消除(RFE) 属于包裹法:反复训练指定模型,每次移除模型判定的“最不重要特征”,直到保留预设数量的特征。优点是直接以模型性能为筛选依据,精度较高;缺点是计算成本高(需多次训练模型)@浙大疏锦行

http://www.jsqmd.com/news/84746/

相关文章:

  • 引用的特点
  • SolidWorks零件连接方式介绍
  • 【计算机网络笔记】第五章 网络层的控制平面
  • 百度网盘提取码智能获取工具完整使用指南
  • Day 34 模块和库的导入
  • 【SSM戒烟网站】(免费领源码+演示录像)|可做计算机毕设Java、Python、PHP、小程序APP、C#、爬虫大数据、单片机、文案
  • 百度网盘智能提取码解决方案:技术驱动的自动化访问新体验
  • Flutter与DevEco Studio结合开发简单项目实战指南
  • 单例设计模式
  • Flutter开发基石:Dart语言从入门到实战核心指南
  • 【论文阅读】Multi-modal Spatial Clustering for Spatial Transcriptomics Utilizing High-resolution Histology
  • Flutter+DevEco Studio实战:简易天气查询工具开发指南
  • 构词与词根-2025年
  • 【牛客周赛 107】E 题【小苯的刷怪笼】题解
  • 基于Springboot医疗健康服务系统【附源码+文档】
  • 最强更新!西储大学(CWRU)轴承数据集保姆级教程!
  • 你,宇宙唯一的中心:在无限复刻中活出绝对的存在
  • YOLOv11 改进 - C2PSA | C2PSA融合DML动态混合层(Dynamic Mixing Layer)轻量级设计优化局部细节捕获与通道适应性,提升超分辨率重建质量
  • CodeSearchNet:一个大规模代码-文档检索数据集的构建、应用与挑战
  • Rust 模块化单体架构:告别全局 Migrations,实现真正的模块自治
  • 编辑相似度(Edit Similarity):原理、演进与多模态扩展
  • Spring-AI 最新文档系列(一)概述
  • Spring Boot 权限控制三件套:JWT 登录校验 + 拦截器 + AOP 角色注解实战
  • 5大实用技巧:用downkyi打造高效视频下载工作流
  • 百度网盘直链解析实战手册:突破限速封锁的完整解决方案
  • 电力负荷预测新思路:集成学习如何让澳大利亚电力数据“开口说话“?⚡
  • ClickHouse 快速入门
  • A little something to get you started
  • SmoothDiscreteMarchingCubes 多边形网格数据的平滑
  • AlignTwoPolyDatas 基于ICP算法的配准和相机视角切换