随机森林怎么做:SPSSAU软件操作步骤与结果指标解读
一、随机森林所属模块
随机森林在SPSSAU中属于【机器学习】模块。
二、方法概述
随机森林是一类基于多棵决策树综合判断的机器学习方法,既可用于分类,也可用于回归。它适合处理变量较多、关系较复杂的数据场景,在预测、识别分类和评估变量重要性方面都很常用。
三、变量设置规则
1.总体要求
随机森林共需要设置2类变量,分别是分析项(X定量)和因变量Y,两类变量都为必填。
2.具体设置
(1)分析项(X定量)
● 最少放入1个,最多可放入400个变量,且为必填。
● 它们是进入模型用于学习和预测的输入特征,通常要求为定量变量。
(2)因变量Y
● 只能放入1个变量,且为必填。
● 它是模型要预测的目标变量。若Y为类别数据,通常对应分类任务;若Y为定量数据,通常对应回归任务。
四、参数设置及解释说明
1.训练集比例
● 用于设置总样本中有多少比例参与模型训练,默认值为0.8。
● 训练样本比例越高,模型学习通常越充分;测试样本会相应减少。一般可先采用默认设置。
2.数据归一化
● 可选None、norm、mas、mms。
● None表示不处理;norm表示正态标准化;mas表示区间化;mms表示归一化。
● 当不同变量量纲差异较大时,先做数据处理通常有助于提升模型使用体验。
3.保存预测值
● 勾选后会额外保存预测信息。
● 分类任务下通常会保存预测类别和各类别预测概率;回归任务下通常会保存预测值。
4.保存训练测试标识
● 勾选后会生成训练集和测试集标识,其中训练集记为1,测试集记为2。
● 适合后续核对样本划分情况,也便于将结果回写到原始数据继续使用。
5.交叉验证
● 默认不进行,也可以选择2折、3折、5折或10折。
● 它用于检验模型在训练数据中的稳定性,折数越高,结果通常更稳,但计算时间也会更长。
6.节点分裂标准
● 可选gini和entropy,默认是gini。
● 该参数用于决定构建决策树时如何选择分枝标准。两者对结果影响通常不算特别大,多数情况下可以先用默认设置。
7.最大特征数目限制
● 可选auto、sqrt、log2,默认是auto。
● 它用于控制每棵树在分枝时最多能使用多少特征。设置更严格时,模型随机性通常更强;设置更宽松时,可参与比较的特征会更多。
8.节点分列最小样本量
● 该参数用于限定一个节点至少包含多少训练样本,才允许继续分枝。
● 数值越大,树通常越保守;数值越小,树更容易继续细分。
9.叶节点最小样本量
● 用于限定叶子节点中至少应包含多少样本。
● 该值越大,模型通常更稳健;该值越小,模型更容易贴合训练数据。
10.树最大深度
● 用于限制单棵决策树能够生长到多深。
● 深度越大,模型表达能力通常越强,但也更容易出现过拟合;深度较小时,模型通常更简洁。
11.决策树数量
● 用于设置随机森林中包含多少棵决策树。
● 适当增加树的数量,通常有助于提高稳定性和准确性,但计算时间也会增加。
12.是否有放回采样
● 用于控制构建每棵决策树时,抽样是否允许重复。
● 勾选后表示有放回采样,这是随机森林中较常见的做法。
13.袋外数据测试
● 用于检验模型在未被抽到的那部分样本上的表现。
● 如果开启该设置,可额外辅助判断模型稳定性与分类效果。
14.任务类型
● 可选自动判断、分类任务和回归任务,默认是自动判断。
● 如果因变量类型非常明确,系统通常可以自动识别;若希望强制按分类或回归方式运行,也可手动指定。
五、分析结果表格及其解读
SPSSAU完成随机森林分析后,会根据任务类型输出不同结果表,常见包括随机森林基本信息汇总、随机森林分类基本信息汇总、特征权重值、模型评估结果、训练集模型评估结果、交叉验证模型评估结果、测试集模型评估结果、模型汇总表和数据集情况。
1.表1:随机森林基本信息汇总或随机森林分类基本信息汇总
这张表用于展示参与建模的数据概况。分类任务下会呈现各类别频数与占比;回归任务下会呈现有效、缺失和总计情况。
● 频数:表示各类别或状态对应的样本数量。若某一类别样本明显偏少,后续识别结果通常更不稳定。
● 百分比:表示对应样本在总体中的占比。若类别分布差异很大,模型可能更偏向样本量较多的类别。
● 有效样本:表示真正进入模型的数据量。有效样本越充分,结果通常越可靠。
● 缺失样本:表示未进入模型的数据量。若缺失占比较高,需要更谨慎看待结果代表性。
2.表2:特征权重值
该表格用于展示各分析项在模型中的相对重要性,包含项和权重值两个核心指标。
● 项:表示进入模型的特征名称。
● 权重值:表示变量对模型结果的相对贡献。通常数值越大,说明该变量越重要;更适合做变量之间的相对比较。
3.表3:模型评估结果或训练集模型评估结果
这部分表格用于判断模型在训练阶段的表现。回归任务下通常包含R方值、MAE、MSE、RMSE、MAD、MAPE、EVS、MSLE等指标;分类任务下通常包含精确率、召回率、f1-score、样本数、准确率和平均值等信息。
● R方值:用于衡量模型解释结果变化的能力,通常越接近1越好。
● MAE:表示平均误差水平,越接近0越好,越小说明预测偏差越小。
● MSE:表示误差平方后的平均水平,越接近0越好,对较大的误差更敏感。
● RMSE:表示整体误差水平,越小越好,便于直观理解预测偏差大小。
● MAD:表示中位数绝对误差,对异常值不那么敏感,越小越好。
● MAPE:表示平均百分误差,越小越好,适合观察相对误差水平。
● EVS:表示模型对数据波动的解释力度,通常越接近1越好。
● MSLE:表示对数误差水平,越小越好,可作为辅助参考。
● 精确率:表示模型判定为某类时有多大概率判对,越高越好。
● 召回率:表示某类别真实样本被识别出来的比例,越高越好。
● f1-score:综合反映精确率与召回率的平衡情况,越高越好。
● 样本数:表示对应类别参与评估的样本量,样本量较少时,该类指标波动可能更大。
● 准确率:表示整体分类正确的比例,通常越高越好。
4.表4:交叉验证模型评估结果或测试集模型评估结果
交叉验证模型评估结果仅在开启交叉验证时输出,用于观察模型在重复划分训练数据后的稳定表现;测试集模型评估结果用于判断模型在未参与训练样本上的实际效果。
● 如果交叉验证结果与训练集结果接近,通常说明模型稳定性较好。
● 如果测试集表现明显弱于训练集,通常说明模型在新样本上的泛化能力一般,后续可考虑调整参数或优化数据。
5.表5:模型汇总表
模型汇总表用于集中展示本次分析使用的参数设置及模型评估效果,便于快速回顾建模方案。
● 参数名:表示本次分析采用的参数项目。
● 参数值:表示对应参数的具体设置,作用是帮助复现实验过程。
● 模型评估效果:用于概括展示模型在核心指标上的整体表现。分类任务下通常希望准确率、精确率、召回率等指标越高越好;回归任务下通常希望误差类指标越低越好。
6.表6:数据集情况
该表格用于展示训练集、测试集、预测集和缺失数据的数量与占比。
● 训练集:用于模型学习,比例过低时模型可能学得不充分。
● 测试集:用于检验模型效果,比例过少时评估稳定性可能不足。
● 预测集:表示仅用于生成预测结果的数据。
● 缺失数据:表示未能进入分析的数据量,若占比偏高,需要关注数据完整性问题。
六、分析结果图表及其解读
SPSSAU完成随机森林分析后,常见会输出特征权重图;在分类任务下,还会输出测试集结果混淆矩阵。
1.图1:特征权重图
该图表本质上是条形图,用于直观展示各特征在模型中的相对重要性。
● 条形越长,通常说明该特征对模型结果影响越大。
● 如果少数变量明显高于其他变量,说明模型更依赖这些关键特征。
2.图2:测试集结果混淆矩阵
该图表在分类任务下输出,用于查看真实类别与预测类别之间的对应关系,是判断分类效果的直观图形。
● 如果对角线位置数值更集中、更高,通常说明模型分类更准确。
● 如果非对角线位置数值较多,说明某些类别更容易被混淆。
以上就是SPSSAU随机森林的相关内容,更深入教程可查看SPSSAU帮助手册、教学视频、疑难解惑等资料。
