当前位置：首页 > news >正文

如何在数据分析中应用时间序列分析？有哪些常用的时间序列模型？

news 2026/6/30 3:00:00

时间序列分析在数据分析中的应用

一、什么是时间序列分析

时间序列分析是对按时间顺序排列的数据进行建模，以识别其内在规律（趋势、周期、季节性），并据此进行预测或异常检测。

与普通回归分析的关键区别：观测值之间存在时间依赖性，不满足独立同分布假设。

二、时间序列的核心组成

一个时间序列通常可分解为：

Y(t) = T(t) + S(t) + C(t) + I(t)

成分	符号	含义	示例
趋势	T(t)	长期上升或下降方向	GDP 逐年增长
季节性	S(t)	固定周期的规律性波动	冰淇淋销量夏高冬低
周期性	C(t)	非固定周期的波动	经济周期（2-10 年不等）
随机性	I(t)	无法预测的随机扰动	突发事件影响

实际中周期性与季节性常合并讨论，简化为Y = T + S + R（加法模型）或Y = T × S × R（乘法模型）。

三、应用流程

1. 数据采集与预处理 ├─ 处理缺失值（插值/前向填充） ├─ 处理异常值 └─ 确保时间间隔均匀（重采样） 2. 探索性分析 ├─ 绘制时序图，观察趋势与季节性 ├─ 平稳性检验（ADF 检验、KPSS 检验） └─ 自相关/偏自相关分析（ACF/PACF 图） 3. 数据变换（如需要） ├─ 差分 → 消除趋势 ├─ 对数变换 → 稳定方差 └─ 季节差分 → 消除季节性 4. 模型选择与拟合 ├─ 根据数据特征选择模型 └─ 参数估计与拟合 5. 模型诊断 ├─ 残差是否白噪声（Ljung-Box 检验） ├─ AIC/BIC 比较模型 └─ 残差 ACF 图检查 6. 预测与评估 ├─ 样本外预测 └─ 评估指标：MAE / RMSE / MAPE

四、常用时间序列模型

1. 经典统计模型

模型	全称	适用条件	核心思想
AR	自回归模型	平稳序列	当前值 = 历史值的线性组合
MA	滑动平均模型	平稳序列	当前值 = 历史误差的线性组合
ARMA	自回归滑动平均	平稳序列	AR + MA 的组合
ARIMA	差分自回归滑动平均	非平稳（差分后平稳）	先差分再 ARMA
SARIMA	季节性 ARIMA	含季节性的非平稳序列	ARIMA + 季节差分 + 季节 ARMA 项
Holt-Winters	三次指数平滑	含趋势和季节性	对水平、趋势、季节分别指数平滑

ARIMA(p, d, q) 参数含义：

p: 自回归阶数（AR 项，看 PACF 图截尾） d: 差分次数（使序列平稳所需的差分阶数） q: 滑动平均阶数（MA 项，看 ACF 图截尾）

SARIMA(p,d,q)(P,D,Q,s) 额外参数：

P,D,Q: 季节性 AR、差分、MA 阶数 s: 季节周期（如月度数据 s=12）

2. 现代机器学习/深度学习模型

模型	特点	适用场景
Prophet	Facebook 开源，自动检测趋势变化点和季节性	业务预测，含节假日效应
VAR	向量自回归，多变量间动态关系	多个时间序列互相影响
LSTM	长短期记忆网络，捕捉长期依赖	复杂非线性序列
GRU	LSTM 的简化版，训练更快	类似 LSTM，计算资源有限时
Transformer 时序模型	自注意力机制，并行计算	长序列、多变量时序
XGBoost/LightGBM	将时序转为监督学习特征工程	特征丰富、非线性关系

五、典型应用场景

领域	场景	推荐模型
金融	股价预测、波动率建模	ARIMA-GARCH、LSTM
零售	商品销量预测、库存优化	SARIMA、Prophet
能源	电力负荷预测	Holt-Winters、LSTM
交通	客流量预测、路况预测	SARIMA、Transformer
运维	服务器指标异常检测	ARIMA 残差检测、Prophet
经济	GDP/通胀预测	VAR、ARIMA
医疗	疫情传播趋势预测	SIR 模型 + 时序修正

六、模型选择决策指南

时间序列数据 │ ├─ 单变量？ │ ├─ 有明显季节性？ ──是──→ SARIMA / Prophet / Holt-Winters │ ├─ 平稳且无季节性？ ──是──→ ARMA │ ├─ 非平稳？ ──→ 差分后用 ARIMA │ └─ 复杂非线性？ ──→ LSTM / Transformer │ ├─ 多变量？ │ ├─ 变量间互相影响？ ──→ VAR │ └─ 特征丰富可工程化？ ──→ XGBoost / LightGBM │ └─ 需要快速部署、自动调参？ ──→ Prophet

七、实践要点

平稳性是前提— ARMA/ARIMA 要求序列平稳，非平稳需先差分；可用 ADF 检验判断
ACF/PACF 是诊断利器— 帮助确定 p、q 阶数：
- ACF 拖尾 + PACF 截尾 → AR§
- ACF 截尾 + PACF 拖尾 → MA(q)
- 两者都拖尾 → ARMA
避免信息泄露— 训练集与测试集必须按时间切分，不能随机划分
残差应为白噪声— 若残差仍有自相关，说明模型未充分提取信息
简单模型优先— ARIMA 常常已经足够好，深度学习需要更多数据和调参成本
预测区间比点预测更重要— 实际决策需要知道不确定性范围