当前位置：首页 > news >正文

别再死记硬背ARIMA了！用Python实战股票收益率预测，手把手教你用statsmodels搞定定阶与建模

news 2026/6/22 3:27:27

别再死记硬背ARIMA了！用Python实战股票收益率预测

金融时间序列分析一直是量化投资领域的核心技能，而ARIMA模型作为经典的时间序列预测工具，却让许多学习者陷入"理论懂但代码不会写"的困境。本文将用Python的statsmodels库，带你完整实现从数据预处理、模型定阶到预测评估的全流程，解决"下一步该敲什么代码"的实际问题。

1. 环境准备与数据加载

工欲善其事，必先利其器。我们先配置好分析环境并获取股票数据：

# 基础库导入 import pandas as pd import numpy as np import matplotlib.pyplot as plt import tushare as ts # 国内股票数据接口 from statsmodels.tsa.stattools import adfuller from statsmodels.graphics.tsaplots import plot_acf, plot_pacf from statsmodels.tsa.arima.model import ARIMA # 设置可视化风格 plt.style.use('seaborn') plt.rcParams['font.sans-serif'] = ['SimHei'] # 显示中文

获取贵州茅台日线数据并计算对数收益率：

# 获取数据 df = ts.get_k_data('600519', start='2018-01-01', end='2023-12-31') df.set_index('date', inplace=True) # 计算对数收益率 df['log_return'] = np.log(df['close']) - np.log(df['close'].shift(1)) df = df.dropna() print(df[['close', 'log_return']].head())

关键点说明：

对数收益率比简单收益率更具统计特性，适合时间序列分析
Tushare库需要注册获取token，免费版即可满足基础需求

2. 数据平稳性检验

ARIMA模型要求时间序列是平稳的，我们先进行ADF检验：

def test_stationarity(timeseries): # 执行ADF检验 dftest = adfuller(timeseries, autolag='AIC') # 输出结果 dfoutput = pd.Series(dftest[0:4], index=[ 'Test Statistic', 'p-value', '#Lags Used', 'Number of Observations Used']) for key, value in dftest[4].items(): dfoutput[f'Critical Value ({key})'] = value return dfoutput # 对收益率序列进行检验 stationarity_test = test_stationarity(df['log_return']) print(stationarity_test)

典型输出结果：

指标	值
Test Statistic	-8.342
p-value	1.12e-13
Critical Value (1%)	-3.438
Critical Value (5%)	-2.865

解读要点：

p值<0.05，拒绝非平稳的原假设
检验统计量远小于1%临界值，序列平稳
若序列不平稳，需进行差分处理(d参数)

3. 模型定阶技巧

定阶是ARIMA建模的核心难点，我们将结合ACF/PACF和信息准则两种方法。

3.1 自相关与偏自相关分析

fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 8)) plot_acf(df['log_return'], lags=30, ax=ax1) plot_pacf(df['log_return'], lags=30, ax=ax2, method='ywm') plt.tight_layout() plt.show()

图形解读要点：

ACF拖尾，PACF在1阶后截尾 → 可能适合AR(1)模型
若ACF在q阶后截尾，PACF拖尾 → 可能适合MA(q)模型
两者都拖尾 → 考虑ARMA(p,q)组合

3.2 信息准则定阶法

# 自动定阶函数 def auto_arima(ts, max_p=5, max_q=5): best_aic = np.inf best_order = None for p in range(max_p+1): for q in range(max_q+1): try: model = ARIMA(ts, order=(p, 0, q)) results = model.fit() if results.aic < best_aic: best_aic = results.aic best_order = (p, 0, q) except: continue return best_order, best_aic best_order, best_aic = auto_arima(df['log_return']) print(f'最佳阶数: ARIMA{best_order}, AIC值: {best_aic:.2f}')

实际项目中常见问题：

多个阶数组合AIC相近 → 选择更简单的模型
计算高阶模型可能不收敛 → 需要try-catch处理
金融数据常有波动聚集性 → 考虑GARCH类模型

4. 模型构建与诊断

确定ARIMA(1,0,0)后，我们构建模型并进行诊断：

# 模型拟合 model = ARIMA(df['log_return'], order=(1, 0, 0)) results = model.fit() # 输出模型摘要 print(results.summary()) # 残差诊断 residuals = pd.DataFrame(results.resid) fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 8)) residuals.plot(title='残差序列', ax=ax1) residuals.plot(kind='kde', title='残差分布', ax=ax2) plt.tight_layout()

关键诊断指标：

Ljung-Box检验：p值>0.05说明残差是白噪声
JB检验：残差是否符合正态分布
参数显著性：各系数p值应<0.05

5. 预测与效果评估

进行样本外预测并评估效果：

# 划分训练集和测试集 train = df['log_return'][:-30] test = df['log_return'][-30:] # 重新训练模型 model = ARIMA(train, order=(1, 0, 0)) fitted = model.fit() # 进行预测 forecast = fitted.get_forecast(steps=30) forecast_ci = forecast.conf_int() # 可视化结果 plt.figure(figsize=(12, 6)) plt.plot(train.index, train, label='训练集') plt.plot(test.index, test, label='真实值') plt.plot(test.index, forecast.predicted_mean, label='预测值', color='red') plt.fill_between(test.index, forecast_ci.iloc[:, 0], forecast_ci.iloc[:, 1], color='r', alpha=0.1) plt.legend() plt.title('ARIMA模型预测效果') plt.show()

评估指标计算：

from sklearn.metrics import mean_squared_error mse = mean_squared_error(test, forecast.predicted_mean) print(f'均方误差(MSE): {mse:.6f}') def mape(y_true, y_pred): return np.mean(np.abs((y_true - y_pred) / y_true)) * 100 print(f'平均绝对百分比误差(MAPE): {mape(test, forecast.predicted_mean):.2f}%')

实用建议：

金融时间序列预测误差通常较大，需结合其他指标综合判断
可尝试滚动预测方法提升预测稳定性
考虑加入波动率模型改进预测区间

6. 实战中的常见问题与解决方案

6.1 定阶结果不一致怎么办？

当ACF/PACF与信息准则给出不同建议时：

优先考虑信息准则：AIC/BIC更具统计依据
模型简洁性原则：在效果相近时选择更低阶模型
业务可解释性：确保参数符号符合金融逻辑

6.2 如何处理季节性数据？

对于有明显季节性的数据（如季度财报效应）：

from statsmodels.tsa.statespace.sarimax import SARIMAX # 季节性ARIMA示例 model = SARIMAX(train, order=(1, 0, 0), seasonal_order=(1, 0, 1, 12)) results = model.fit()

6.3 模型效果不佳的改进方向

数据层面：
- 尝试更高频或更低频的数据
- 加入其他市场指标作为外生变量
模型层面：
- 尝试ARCH/GARCH模型处理波动聚集性
- 使用Prophet等集成时间序列模型
- 考虑机器学习方法如LSTM
评估层面：
- 采用更符合业务需求的评估指标
- 考虑预测方向准确性而非绝对误差

# 方向准确性计算示例 def directional_accuracy(y_true, y_pred): return np.mean((y_true * y_pred) > 0) * 100 print(f'方向准确率: {directional_accuracy(test, forecast.predicted_mean):.2f}%')

7. 进阶技巧与性能优化

7.1 自动化建模流程

from pmdarima import auto_arima # 自动搜索最佳参数 model = auto_arima(train, seasonal=False, trace=True, error_action='ignore', suppress_warnings=True) print(model.summary())

7.2 并行计算加速

对于大规模数据或多参数搜索：

from joblib import Parallel, delayed def evaluate_order(order): try: model = ARIMA(train, order=order) res = model.fit() return order, res.aic except: return order, np.inf # 并行评估多个阶数 results = Parallel(n_jobs=4)( delayed(evaluate_order)((p, 0, q)) for p in range(3) for q in range(3) )

7.3 模型持久化

保存和加载训练好的模型：

import pickle # 保存模型 with open('arima_model.pkl', 'wb') as f: pickle.dump(results, f) # 加载模型 with open('arima_model.pkl', 'rb') as f: loaded_model = pickle.load(f)

8. 量化实战中的应用场景

ARIMA模型在量化投资中的典型应用：

收益率预测：预测未来N日的收益率分布
配对交易：预测价差序列的回归时间
风险控制：预测波动率变化
择时策略：生成买卖信号

# 策略信号生成示例 df['signal'] = np.where( fitted.get_forecast(steps=1).predicted_mean[0] > 0, 1, # 买入 -1 # 卖出 ) # 计算策略收益 df['strategy_return'] = df['signal'].shift(1) * df['log_return'] # 绘制累计收益 (1 + df[['log_return', 'strategy_return']]).cumprod().plot(figsize=(12, 6))

实际应用中需要注意：

交易成本的影响
信号频率与滑点
过拟合风险
市场环境变化

9. 与其他模型的对比与融合

9.1 ARIMA vs 机器学习模型

特性	ARIMA	机器学习模型
数据需求	较少	大量
可解释性	高	低
自动特征工程	无	有
处理非线性	弱	强
训练速度	快	慢

9.2 混合建模思路

# ARIMA + 随机森林残差修正示例 from sklearn.ensemble import RandomForestRegressor # ARIMA预测 arima_pred = fitted.predict(start=len(train), end=len(train)+29) # 训练残差修正模型 X = pd.DataFrame({ 'arima': fitted.fittedvalues, 'volatility': train.rolling(5).std() }).dropna() y = train[X.index] rf = RandomForestRegressor(n_estimators=100).fit(X, y) # 组合预测 X_test = pd.DataFrame({ 'arima': arima_pred, 'volatility': test.rolling(5).std().fillna(method='bfill') }) rf_correction = rf.predict(X_test) final_pred = arima_pred + rf_correction

10. 持续优化与实盘注意事项

定期重训练：市场特征会随时间变化
监控模型衰减：设置预警机制
风险控制：严格设置止损
日志记录：详细记录每次预测结果
组合分散：不要过度依赖单一模型

# 模型性能监控示例 def check_model_decay(model, new_data, threshold=0.05): new_residuals = new_data - model.predict(start=len(new_data)) new_ljungbox = sm.stats.acorr_ljungbox(new_residuals, lags=[10]) return new_ljungbox[1][0] < threshold # p值显著变小

金融时间序列预测既是科学也是艺术。ARIMA作为经典工具，其价值不在于预测绝对精准，而在于提供了一种结构化分析时间序列的框架。真正的实战高手，往往能在理解模型局限性的基础上，灵活组合多种工具，形成自己的分析体系。

查看全文

http://www.jsqmd.com/news/735408/