当前位置：首页 > news >正文

ARIMA模型手动预测原理与Python实现

news 2026/4/26 2:19:19

1. 手动预测ARIMA模型的核心原理

ARIMA（自回归积分滑动平均）模型是时间序列分析中最经典的方法之一。很多初学者第一次接触ARIMA时会被它的数学形式吓到，但实际上它的预测机制非常直观。理解手动预测的过程，能帮助我们真正掌握ARIMA模型的运作机理。

ARIMA模型本质上是一种特殊的线性回归模型。它由三个部分组成：

AR（自回归）部分：用历史观测值的线性组合预测未来
I（差分）部分：通过差分使非平稳序列变得平稳
MA（滑动平均）部分：用历史预测误差的线性组合改进预测

当我们说"手动预测"时，指的是不依赖statsmodels等库的predict()方法，而是直接使用训练好的模型系数，通过数学运算得到预测值。这种方式有两大实际价值：

在生产环境中，可能无法部署完整的Python科学计算栈，这时只需要保存模型系数就能实现预测
手动计算过程能加深对模型工作原理的理解，方便调试和优化

2. 环境准备与数据加载

2.1 基础环境配置

我们需要以下Python库：

statsmodels：提供ARIMA模型实现
pandas：数据处理和分析
matplotlib：数据可视化

pip install statsmodels pandas matplotlib

2.2 数据集介绍与加载

本教程使用墨尔本1981-1990年的每日最低气温数据集。这个数据集有3650个观测值，单位是摄氏度。数据集的特点是：

明显的季节性波动
长期趋势相对平稳
存在一定的随机波动

加载数据的Python代码如下：

from pandas import read_csv from matplotlib import pyplot # 加载数据 series = read_csv('daily-minimum-temperatures.csv', header=0, index_col=0) # 转换为Series对象 series = series.squeeze() # 可视化 series.plot(figsize=(12,6)) pyplot.title('Daily Minimum Temperatures in Melbourne (1981-1990)') pyplot.show()

注意：确保数据文件放在工作目录下，文件名为"daily-minimum-temperatures.csv"。如果遇到编码问题，可以尝试指定encoding='utf-8'参数。

3. ARIMA模型训练与系数提取

3.1 数据分割与测试设置

我们采用滚动预测的方法评估模型性能：

将最后7天数据作为测试集
使用前3650-7=3643天数据训练初始模型
采用walk-forward验证：
- 每次预测下一天的值
- 将真实值加入训练集
- 重新训练模型
- 重复直到预测完所有测试点

# 划分训练集和测试集 train = series[:-7] test = series[-7:]

3.2 模型训练与系数获取

以AR(3)模型为例（p=3,d=0,q=0）：

from statsmodels.tsa.arima.model import ARIMA # 训练AR(3)模型 model = ARIMA(train, order=(3,0,0)) model_fit = model.fit() # 获取模型系数 ar_coef = model_fit.arparams print('AR coefficients:', ar_coef)

模型系数保存在两个属性中：

arparams：AR部分的系数
maparams：MA部分的系数

对于纯AR或纯MA模型，只需要关注对应的系数即可。

4. 手动预测实现详解

4.1 自回归(AR)模型的手动预测

AR(p)模型的预测公式为： ŷₜ = φ₁yₜ₋₁ + φ₂yₜ₋₂ + ... + φₚyₜ₋ₚ

实现代码：

def ar_predict(coef, history): """ 手动预测AR模型 :param coef: AR系数数组 :param history: 历史观测值列表 :return: 预测值 """ yhat = 0.0 for i in range(1, len(coef)+1): yhat += coef[i-1] * history[-i] return yhat # 使用示例 history = list(train) predictions = [] for t in range(len(test)): # 预测下一步 yhat = ar_predict(ar_coef, history) predictions.append(yhat) # 添加真实值到历史数据 history.append(test[t])

4.2 滑动平均(MA)模型的手动预测

MA(q)模型的预测公式为： ŷₜ = μ + θ₁εₜ₋₁ + θ₂εₜ₋₂ + ... + θ_qεₜ₋_q

实现时需要跟踪预测误差：

def ma_predict(coef, residuals): """ 手动预测MA模型 :param coef: MA系数数组 :param residuals: 历史残差列表 :return: 预测值 """ yhat = 0.0 for i in range(1, len(coef)+1): yhat += coef[i-1] * residuals[-i] return yhat

4.3 完整ARIMA模型的手动预测

ARIMA(p,d,q)模型结合了AR和MA部分：

def arima_predict(ar_coef, ma_coef, history, residuals): """ 手动预测ARIMA模型 :param ar_coef: AR系数 :param ma_coef: MA系数 :param history: 历史观测值(已差分) :param residuals: 历史残差 :return: 预测值 """ # AR部分 ar_part = 0.0 for i in range(len(ar_coef)): ar_part += ar_coef[i] * history[-i-1] # MA部分 ma_part = 0.0 for i in range(len(ma_coef)): ma_part += ma_coef[i] * residuals[-i-1] return ar_part + ma_part

5. 实际应用与性能评估

5.1 预测结果可视化

将预测结果与真实值对比：

# 绘制结果 pyplot.figure(figsize=(12,6)) pyplot.plot(test.values, label='Actual') pyplot.plot(predictions, color='red', label='Predicted') pyplot.legend() pyplot.title('AR(3) Model Predictions vs Actual') pyplot.show()

5.2 性能评估指标

计算均方根误差(RMSE)：

from sklearn.metrics import mean_squared_error from math import sqrt rmse = sqrt(mean_squared_error(test, predictions)) print(f'Test RMSE: {rmse:.3f}')

5.3 生产环境部署建议

在实际应用中，可以只保存模型系数：

import json # 保存模型系数 model_params = { 'ar_coef': list(model_fit.arparams), 'ma_coef': list(model_fit.maparams) if hasattr(model_fit, 'maparams') else [], 'order': model_fit.model.order } with open('arima_params.json', 'w') as f: json.dump(model_params, f) # 加载时使用 with open('arima_params.json', 'r') as f: params = json.load(f)

6. 常见问题与解决方案

6.1 预测值偏离实际值太多

可能原因：

模型阶数选择不当
数据未进行必要的预处理（如差分）
存在异常值影响

解决方案：

检查ACF/PACF图重新确定p,q参数
尝试不同的差分次数d
对数据进行异常值处理

6.2 手动预测结果与库函数不一致

可能原因：

初始值的处理方式不同
残差计算方法不同
系数精度问题

解决方案：

确保使用相同的历史数据和残差
检查statsmodels文档了解其具体实现
提高计算精度（使用np.float64）

6.3 长期预测效果变差

ARIMA模型的特点：

短期预测通常较准确
长期预测误差会累积
特别是MA部分的影响会逐渐消失

改进方法：

考虑使用动态预测方法
定期用新数据重新训练模型
尝试SARIMA等考虑季节性的模型

7. 高级技巧与优化建议

7.1 模型系数解释技巧

AR系数：表示历史值对当前值的影响程度
- 正系数表示正相关
- 负系数表示负相关
- 系数绝对值越大影响越大
MA系数：表示历史误差对当前预测的修正程度
- 解释方式类似AR系数
- 但影响通常更短期

7.2 滚动预测优化

在walk-forward验证中，每次都重新训练模型计算量大。可以：

固定模型系数，只更新历史数据
每隔k步重新训练一次模型
使用在线学习算法更新系数

# 部分更新示例 for t in range(len(test)): if t % 3 == 0: # 每3步重新训练 model = ARIMA(history, order=(3,0,0)) model_fit = model.fit() ar_coef = model_fit.arparams # 预测代码...

7.3 多步预测实现

直接多步预测的两种方法：

递归法：用预测值作为新的输入逐步预测
直接法：训练专门预测第k步的模型

递归法实现示例：

def multi_step_predict(coef, history, steps): predictions = [] for _ in range(steps): yhat = ar_predict(coef, history) predictions.append(yhat) history.append(yhat) # 使用预测值作为新输入 return predictions

在实际项目中，手动预测ARIMA模型的能力可以带来很大灵活性。我曾在一个嵌入式系统中成功应用这种方法，仅用几KB内存就实现了时间序列预测功能，而无需引入完整的Python科学计算栈。关键是要理解模型背后的数学原理，而不仅仅是调用现成的库函数。

查看全文

http://www.jsqmd.com/news/700954/