当前位置：首页 > news >正文

随机森林怎么做：SPSSAU软件操作步骤与结果指标解读

news 2026/7/14 22:06:11

一、随机森林所属模块

随机森林在SPSSAU中属于【机器学习】模块。

二、方法概述

随机森林是一类基于多棵决策树综合判断的机器学习方法，既可用于分类，也可用于回归。它适合处理变量较多、关系较复杂的数据场景，在预测、识别分类和评估变量重要性方面都很常用。

三、变量设置规则

1.总体要求

随机森林共需要设置2类变量，分别是分析项（X定量）和因变量Y，两类变量都为必填。

2.具体设置

（1）分析项（X定量）

● 最少放入1个，最多可放入400个变量，且为必填。

● 它们是进入模型用于学习和预测的输入特征，通常要求为定量变量。

（2）因变量Y

● 只能放入1个变量，且为必填。

● 它是模型要预测的目标变量。若Y为类别数据，通常对应分类任务；若Y为定量数据，通常对应回归任务。

四、参数设置及解释说明

1.训练集比例

● 用于设置总样本中有多少比例参与模型训练，默认值为0.8。

● 训练样本比例越高，模型学习通常越充分；测试样本会相应减少。一般可先采用默认设置。

2.数据归一化

● 可选None、norm、mas、mms。

● None表示不处理；norm表示正态标准化；mas表示区间化；mms表示归一化。

● 当不同变量量纲差异较大时，先做数据处理通常有助于提升模型使用体验。

3.保存预测值

● 勾选后会额外保存预测信息。

● 分类任务下通常会保存预测类别和各类别预测概率；回归任务下通常会保存预测值。

4.保存训练测试标识

● 勾选后会生成训练集和测试集标识，其中训练集记为1，测试集记为2。

● 适合后续核对样本划分情况，也便于将结果回写到原始数据继续使用。

5.交叉验证

● 默认不进行，也可以选择2折、3折、5折或10折。

● 它用于检验模型在训练数据中的稳定性，折数越高，结果通常更稳，但计算时间也会更长。

6.节点分裂标准

● 可选gini和entropy，默认是gini。

● 该参数用于决定构建决策树时如何选择分枝标准。两者对结果影响通常不算特别大，多数情况下可以先用默认设置。

7.最大特征数目限制

● 可选auto、sqrt、log2，默认是auto。

● 它用于控制每棵树在分枝时最多能使用多少特征。设置更严格时，模型随机性通常更强；设置更宽松时，可参与比较的特征会更多。

8.节点分列最小样本量

● 该参数用于限定一个节点至少包含多少训练样本，才允许继续分枝。

● 数值越大，树通常越保守；数值越小，树更容易继续细分。

9.叶节点最小样本量

● 用于限定叶子节点中至少应包含多少样本。

● 该值越大，模型通常更稳健；该值越小，模型更容易贴合训练数据。

10.树最大深度

● 用于限制单棵决策树能够生长到多深。

● 深度越大，模型表达能力通常越强，但也更容易出现过拟合；深度较小时，模型通常更简洁。

11.决策树数量

● 用于设置随机森林中包含多少棵决策树。

● 适当增加树的数量，通常有助于提高稳定性和准确性，但计算时间也会增加。

12.是否有放回采样

● 用于控制构建每棵决策树时，抽样是否允许重复。

● 勾选后表示有放回采样，这是随机森林中较常见的做法。

13.袋外数据测试

● 用于检验模型在未被抽到的那部分样本上的表现。

● 如果开启该设置，可额外辅助判断模型稳定性与分类效果。

14.任务类型

● 可选自动判断、分类任务和回归任务，默认是自动判断。

● 如果因变量类型非常明确，系统通常可以自动识别；若希望强制按分类或回归方式运行，也可手动指定。

五、分析结果表格及其解读

SPSSAU完成随机森林分析后，会根据任务类型输出不同结果表，常见包括随机森林基本信息汇总、随机森林分类基本信息汇总、特征权重值、模型评估结果、训练集模型评估结果、交叉验证模型评估结果、测试集模型评估结果、模型汇总表和数据集情况。

1.表1：随机森林基本信息汇总或随机森林分类基本信息汇总

这张表用于展示参与建模的数据概况。分类任务下会呈现各类别频数与占比；回归任务下会呈现有效、缺失和总计情况。

● 频数：表示各类别或状态对应的样本数量。若某一类别样本明显偏少，后续识别结果通常更不稳定。

● 百分比：表示对应样本在总体中的占比。若类别分布差异很大，模型可能更偏向样本量较多的类别。

● 有效样本：表示真正进入模型的数据量。有效样本越充分，结果通常越可靠。

● 缺失样本：表示未进入模型的数据量。若缺失占比较高，需要更谨慎看待结果代表性。

2.表2：特征权重值

该表格用于展示各分析项在模型中的相对重要性，包含项和权重值两个核心指标。

● 项：表示进入模型的特征名称。

● 权重值：表示变量对模型结果的相对贡献。通常数值越大，说明该变量越重要；更适合做变量之间的相对比较。

3.表3：模型评估结果或训练集模型评估结果

这部分表格用于判断模型在训练阶段的表现。回归任务下通常包含R方值、MAE、MSE、RMSE、MAD、MAPE、EVS、MSLE等指标；分类任务下通常包含精确率、召回率、f1-score、样本数、准确率和平均值等信息。

● R方值：用于衡量模型解释结果变化的能力，通常越接近1越好。

● MAE：表示平均误差水平，越接近0越好，越小说明预测偏差越小。

● MSE：表示误差平方后的平均水平，越接近0越好，对较大的误差更敏感。

● RMSE：表示整体误差水平，越小越好，便于直观理解预测偏差大小。

● MAD：表示中位数绝对误差，对异常值不那么敏感，越小越好。

● MAPE：表示平均百分误差，越小越好，适合观察相对误差水平。

● EVS：表示模型对数据波动的解释力度，通常越接近1越好。

● MSLE：表示对数误差水平，越小越好，可作为辅助参考。

● 精确率：表示模型判定为某类时有多大概率判对，越高越好。

● 召回率：表示某类别真实样本被识别出来的比例，越高越好。

● f1-score：综合反映精确率与召回率的平衡情况，越高越好。

● 样本数：表示对应类别参与评估的样本量，样本量较少时，该类指标波动可能更大。

● 准确率：表示整体分类正确的比例，通常越高越好。

4.表4：交叉验证模型评估结果或测试集模型评估结果

交叉验证模型评估结果仅在开启交叉验证时输出，用于观察模型在重复划分训练数据后的稳定表现；测试集模型评估结果用于判断模型在未参与训练样本上的实际效果。

● 如果交叉验证结果与训练集结果接近，通常说明模型稳定性较好。

● 如果测试集表现明显弱于训练集，通常说明模型在新样本上的泛化能力一般，后续可考虑调整参数或优化数据。

5.表5：模型汇总表

模型汇总表用于集中展示本次分析使用的参数设置及模型评估效果，便于快速回顾建模方案。

● 参数名：表示本次分析采用的参数项目。

● 参数值：表示对应参数的具体设置，作用是帮助复现实验过程。

● 模型评估效果：用于概括展示模型在核心指标上的整体表现。分类任务下通常希望准确率、精确率、召回率等指标越高越好；回归任务下通常希望误差类指标越低越好。

6.表6：数据集情况

该表格用于展示训练集、测试集、预测集和缺失数据的数量与占比。

● 训练集：用于模型学习，比例过低时模型可能学得不充分。

● 测试集：用于检验模型效果，比例过少时评估稳定性可能不足。

● 预测集：表示仅用于生成预测结果的数据。

● 缺失数据：表示未能进入分析的数据量，若占比偏高，需要关注数据完整性问题。

六、分析结果图表及其解读

SPSSAU完成随机森林分析后，常见会输出特征权重图；在分类任务下，还会输出测试集结果混淆矩阵。

1.图1：特征权重图

该图表本质上是条形图，用于直观展示各特征在模型中的相对重要性。

● 条形越长，通常说明该特征对模型结果影响越大。

● 如果少数变量明显高于其他变量，说明模型更依赖这些关键特征。

2.图2：测试集结果混淆矩阵

该图表在分类任务下输出，用于查看真实类别与预测类别之间的对应关系，是判断分类效果的直观图形。

● 如果对角线位置数值更集中、更高，通常说明模型分类更准确。

● 如果非对角线位置数值较多，说明某些类别更容易被混淆。

以上就是SPSSAU随机森林的相关内容，更深入教程可查看SPSSAU帮助手册、教学视频、疑难解惑等资料。

查看全文

http://www.jsqmd.com/news/897810/

无损探伤机构怎么选？2026年产线用无损检测设备推荐与资质避坑指南 - 品牌推荐大师1

大气网格化监测气象站：一张网管住城市空气质量

ABAP Excel样式进阶：从单元格格式到专业报表美化的实战指南

Page Assist完整指南：浏览器侧边栏本地AI助手终极教程

无人机输电线路巡检电力部件与缺陷检测数据集智慧电力电网巡检识别 yolo数据集+voc数据集第10262期

2026医院车位引导系统方案避坑指南及三大口碑品牌解读

为开源AI工具OpenClaw配置Taotoken作为模型供应商的指南

上海浪琴名匠一天慢十秒，走时校准要花多少钱？实测康卡斯、名匠、心月的调校费用 - 亨得利官方维修中心

HC8323晨芯阳高效率，40 V输入，3 A负载同步整流DC-DC降压转换器

2026武汉婚纱照综合实力排名：五大核心维度精选品质与服务双优品牌 - 江湖评测

FPGA近似计算设计空间探索：模型驱动与输入感知方法对比与实践

2026 卫生型液体流量计（卡箍/卡盘）厂家一览：国产与进口流量计怎么选？卡箍/卡盘电磁流量计品牌选型 - 流量计品牌

2026年市面上电泳漆品牌怎么选择 - 品牌排行榜

Cortex-R52内存管理：ERREVENT[23]信号机制与虚拟化优化

企业级文档转换架构：飞书到Markdown的高效迁移解决方案

2026 年 5 月大连黄金回收机构分级评分：添价收黄金奢侈品回收获评 S 级标杆 - 薛定谔的梨花猫

D2205UK，拥有低噪声与高增益双重优势的晶体管

Zepp Life步数自动化同步：完整指南与深度技术解析

2026金属线材成型机工厂大全，佛山2D平面3D立体线材成型机厂家哪家靠谱 - 资讯速览

如何实现旅行足迹的永久保存与智能分析：新手完全指南

带标注的跌倒检测数据集，识别率88.6%，10793张图，支持yolo，coco json，voc xml,文末有模型训练代码

定西6月雨季来临，房屋漏水怎么办？卫生间免砸砖防水、外墙、屋面+地下室渗漏。权威防水公司靠谱TOP5推荐（2026年6月本地最新深度调研） - 企业资讯

Windows安卓应用安装终极指南：5分钟掌握APK安装器完整使用教程

如何快速掌握Gyroflow：终极视频稳定工具从入门到精通

macOS光标个性化终极指南：使用Mousecape打造专属鼠标指针体验

鸣潮自动化助手ok-ww：让重复操作成为过去式的智能伴侣

盘点2026年橡胶板/绝缘橡胶板/夹布橡胶板/阻燃橡胶板/工业橡胶板/防滑橡胶板优质生产厂家实力排行盘点推荐河间市永发橡胶制品有限公司 - 奔跑123

991元/克！连云港人卖黄金别踩坑，金福楼黄金回收实测全记录 - 润富黄金珠宝行

GEO优化服务商哪家强？2026年这12家geo公司技术实力领先可直接合作+概念解析+FAQ - 互联网科技品牌测评

MySQL的WAL 的庖丁解牛

相关文章：