当前位置：首页 > news >正文

决策树随机森林面试详解｜剪枝、过拟合、特征重要性

news 2026/7/14 16:58:29

前言
决策树逻辑直观易懂，是面试高频基础算法，衍生出的随机森林更是工业界常用集成模型。面试常考三大树算法区别、划分依据、剪枝策略、优缺点、特征重要性、过拟合解决办法，本文全部整理成背诵版答案，轻松应对口述提问。
一、决策树基础概念
什么是决策树
仿照人类决策思维，通过多层特征判断逐层分支，最终输出分类 / 回归结果，树形结构清晰，可视化强。
决策树可做什么任务
既可以做分类任务，也可以做回归任务。
决策树构建核心思路
遍历所有特征，选择最优划分特征，不断分裂节点，直到满足停止条件生成完整树。
二、三大主流决策树算法核心区别（必背）
1.ID3
划分准则：信息增益
只支持离散型特征
偏向取值较多的特征，容易产生偏向性
无法处理连续值、缺失值
2.C4.5
划分准则：信息增益率
修正 ID3 取值偏向问题
支持连续特征离散化、可处理缺失值
计算复杂度偏高，运行速度慢
3.CART
划分准则：基尼系数
二叉树结构，每次只二分
既能分类也能回归，适用性最强
sklearn 中默认使用 CART 树
三、核心指标简答
信息熵
衡量样本集合混乱程度，熵越大数据越杂乱，纯度越低。
信息增益
划分前后熵的差值，差值越大，代表该特征分类效果越好。
基尼系数
数值越小，样本纯度越高，分类效果越好，取值区间 0~1。
四、决策树停止生长条件
节点所有样本属于同一类别，无需再划分
达到预设最大树深度
节点样本数量小于设定阈值
特征全部使用完毕，无特征可划分
划分之后增益提升极小，停止分裂
五、决策树过拟合原因与解决办法
过拟合原因
树深度过大、分支过多，学习到训练集噪声与无关细节，泛化能力变差。
两大剪枝策略
预剪枝（训练时剪枝）
构建树过程中提前限制深度、限制节点样本数，提前阻止树生长，速度快。
后剪枝（训练完成剪枝）
先生成完整树，自下而上删除冗余分支，泛化效果更好，计算成本更高。
日常调参防过拟合
max_d