当前位置：首页 > news >正文

SSA-XGboost模型在时间序列预测中的惊艳表现

news 2026/3/26 19:05:04

SSA-XGboost模型做时间序列预测。训练集数据的R2为：0.9952 测试集数据的R2为：0.98081 训练集数据的MAE为：163.212 测试集数据的MAE为：346.4754 训练集数据的MAPE为：0.0072127 测试集数据的MAPE为：0.013205

最近在时间序列预测的研究中，尝试了SSA-XGboost模型，得到的结果相当令人惊喜，迫不及待想和大家分享一下。

模型组合的魅力

SSA（奇异谱分析）是一种时间序列分析方法，它能将时间序列分解成不同成分，比如趋势、周期和噪声等，为后续分析和预测提供更清晰的视角。而XGboost是一个高效的梯度提升框架，在各种预测任务中都展现出强大的性能。将两者结合，SSA负责对时间序列进行预处理和特征提取，XGboost专注于基于这些特征进行预测建模，理论上能优势互补，提升预测精度。

代码实现片段

import numpy as np import pandas as pd from statsmodels.tsa.seasonal import seasonal_decompose import xgboost as xgb from sklearn.metrics import r2_score, mean_absolute_error, mean_absolute_percentage_error # 假设这里从文件中读取时间序列数据 data = pd.read_csv('time_series_data.csv', parse_dates=['date'], index_col='date') # SSA分解 result = seasonal_decompose(data['value'], model='additive', period=30) trend = result.trend seasonal = result.seasonal resid = result.resid # 构建特征 features = pd.DataFrame() features['trend'] = trend features['seasonal'] = seasonal features['resid'] = resid features = features.dropna() # 划分训练集和测试集 train_size = int(len(features) * 0.8) train_features = features.iloc[:train_size] test_features = features.iloc[train_size:] train_target = data['value'].iloc[:train_size] test_target = data['value'].iloc[train_size:] # XGboost模型训练 xgb_model = xgb.XGBRegressor() xgb_model.fit(train_features, train_target) # 预测 train_pred = xgb_model.predict(train_features) test_pred = xgb_model.predict(test_features)

代码分析

数据读取：使用pandas的read_csv函数从文件中读取时间序列数据，并将日期列解析为日期格式且设置为索引。
SSA分解：利用statsmodels库的seasonal_decompose函数对时间序列进行加性模型的分解，得到趋势、季节性和残差成分。这一步相当于把时间序列“拆开”，让我们能更细致地了解数据结构。
特征构建：将分解得到的成分构建成特征数据框，这些特征将作为XGboost模型的输入。
数据集划分：简单地按照80%训练集和20%测试集的比例划分数据，为模型训练和评估做准备。
XGboost训练与预测：实例化XGBRegressor并在训练集上进行训练，然后对训练集和测试集进行预测。

模型评估指标表现

R2指标：训练集数据的R2为0.9952 ，测试集数据的R2为0.98081 。R2越接近1，表示模型对数据的拟合优度越高。训练集近乎完美的R2表明模型在训练数据上拟合得非常好，而测试集较高的R2也说明模型具有一定的泛化能力，能够较好地适应新数据。
MAE指标：训练集数据的MAE为163.212 ，测试集数据的MAE为346.4754 。MAE衡量的是预测值与真实值之间平均误差的绝对值，数值越小越好。测试集MAE高于训练集，这是比较常见的，不过整体数值不算离谱，说明预测结果的平均误差在可接受范围。
MAPE指标：训练集数据的MAPE为0.0072127 ，测试集数据的MAPE为0.013205 。MAPE以百分比的形式反映预测误差，训练集和测试集的MAPE都比较低，意味着预测值与真实值的偏差在较小比例范围内，进一步证明了模型的有效性。

总体来说，SSA-XGboost模型在这次时间序列预测任务中表现出色，无论是从模型的构建思路还是实际评估指标来看，都为时间序列预测提供了一个优秀的解决方案。后续可以进一步优化超参数等，说不定还能挖掘出模型更大的潜力。

查看全文

http://www.jsqmd.com/news/516953/