决策树 随机森林面试详解|剪枝、过拟合、特征重要性
前言
决策树逻辑直观易懂,是面试高频基础算法,衍生出的随机森林更是工业界常用集成模型。面试常考三大树算法区别、划分依据、剪枝策略、优缺点、特征重要性、过拟合解决办法,本文全部整理成背诵版答案,轻松应对口述提问。
一、决策树基础概念
什么是决策树
仿照人类决策思维,通过多层特征判断逐层分支,最终输出分类 / 回归结果,树形结构清晰,可视化强。
决策树可做什么任务
既可以做分类任务,也可以做回归任务。
决策树构建核心思路
遍历所有特征,选择最优划分特征,不断分裂节点,直到满足停止条件生成完整树。
二、三大主流决策树算法核心区别(必背)
1.ID3
划分准则:信息增益
只支持离散型特征
偏向取值较多的特征,容易产生偏向性
无法处理连续值、缺失值
2.C4.5
划分准则:信息增益率
修正 ID3 取值偏向问题
支持连续特征离散化、可处理缺失值
计算复杂度偏高,运行速度慢
3.CART
划分准则:基尼系数
二叉树结构,每次只二分
既能分类也能回归,适用性最强
sklearn 中默认使用 CART 树
三、核心指标简答
信息熵
衡量样本集合混乱程度,熵越大数据越杂乱,纯度越低。
信息增益
划分前后熵的差值,差值越大,代表该特征分类效果越好。
基尼系数
数值越小,样本纯度越高,分类效果越好,取值区间 0~1。
四、决策树停止生长条件
节点所有样本属于同一类别,无需再划分
达到预设最大树深度
节点样本数量小于设定阈值
特征全部使用完毕,无特征可划分
划分之后增益提升极小,停止分裂
五、决策树过拟合原因与解决办法
过拟合原因
树深度过大、分支过多,学习到训练集噪声与无关细节,泛化能力变差。
两大剪枝策略
预剪枝(训练时剪枝)
构建树过程中提前限制深度、限制节点样本数,提前阻止树生长,速度快。
后剪枝(训练完成剪枝)
先生成完整树,自下而上删除冗余分支,泛化效果更好,计算成本更高。
日常调参防过拟合
max_d
