当前位置：首页 > news >正文

时间序列预测模型比较：Diebold-Mariano检验实战指南

news 2026/3/26 17:23:54

1. 为什么需要比较时间序列预测模型？

在实际项目中，我们经常会遇到这样的场景：团队开发了多个时间序列预测模型，有的基于LSTM神经网络，有的采用传统ARIMA方法，还有的可能是简单的移动平均。这时候就会面临一个很实际的问题——到底哪个模型更好？很多人会直接比较RMSE、MAE这些指标，但这样真的科学吗？

我去年参与过一个电力负荷预测项目就遇到过类似困扰。当时我们团队三个成员分别用Prophet、XGBoost和Transformer做了预测，三个模型的MAE相差不到2%，老板问"这个差距是偶然误差还是确实有优劣之分？"当场就把我们问住了。后来正是Diebold-Mariano检验帮我们解决了这个问题。

DM检验的核心价值在于它能判断模型表现的差异是否具有统计显著性。就像医学上的双盲试验不是简单比较两组患者的康复人数，而是要通过统计检验判断疗效差异是否显著。举个例子，假设模型A的RMSE是100，模型B是102，单纯看数字可能觉得差不多，但DM检验可能会告诉你：这个差距在统计上是显著的（p值<0.05），意味着模型A确实更优。

2. DM检验的底层原理与假设条件

2.1 统计检验的本质

DM检验本质上是个改良版的t检验，但比普通t检验更适合时间序列数据。想象你在比较两个学生的考试成绩，普通t检验就像比较他们各科平均分，而DM检验则会考虑"这次数学考得好会不会影响下次物理发挥"这样的时序相关性。

具体来说，它会计算两个模型预测误差的差值序列：

d_t = L(e1_t) - L(e2_t)

其中L是损失函数（比如平方误差），然后对这个差值序列做自相关校正的t检验。这就好比在比较两条跑步路线时，不仅看平均用时，还会考虑路线起伏对跑步节奏的持续影响。

2.2 必须满足的关键假设

去年我在金融风控项目里就踩过一个坑：直接用DM检验比较了两个波动剧烈的收益率预测模型，结果完全不可靠。后来才明白问题出在平稳性假设上。DM检验要求误差差值序列必须是平稳的，就像体温计要求测量前要先甩掉上次的读数残留。

其他重要假设包括：

预测时长h要远小于样本量T（一般h/T<0.1）
损失函数需要满足一定的正则条件
对于超短期预测（h=1），误差序列应该无自相关

当样本量小于100时，建议改用HLN修正检验。这就像小样本生物实验要用t检验替代z检验一样，都是为了防止"假阳性"。

3. 手把手实现DM检验全流程

3.1 Python实战代码详解

下面用我最近做的电商销量预测案例演示完整流程。假设我们已经有了两个模型的预测结果yhat1和yhat2，以及真实值y_true：

import numpy as np from statsmodels.stats.stattools import durbin_watson from statsmodels.tsa.stattools import acf from scipy.stats import t def dm_test(y_true, yhat1, yhat2, h=1, power=2): """ params: h: 预测步长 power: 1为MAE, 2为MSE """ # 计算损失差值序列 e1 = np.abs(y_true - yhat1)**power e2 = np.abs(y_true - yhat2)**power d = e1 - e2 # 检查平稳性（简化版） dw_stat = durbin_watson(d) if dw_stat < 1.5 or dw_stat > 2.5: print("警告：差值序列可能非平稳！") # 计算自相关校正的方差 n = len(d) mean_d = np.mean(d) gamma = [np.sum((d[i:] - mean_d)*(d[:n-i] - mean_d))/n for i in range(h+1)] var_d = (gamma[0] + 2*sum(gamma[1:]))/n # 构建统计量 dm_stat = mean_d / np.sqrt(var_d) p_value = 2 * t.sf(np.abs(dm_stat), df=n-1) return dm_stat, p_value

这段代码有几个实战技巧：

通过Durbin-Watson统计量快速检查平稳性
自动适应MAE/MSE等不同损失函数
考虑了预测步长h对自相关的影响

3.2 结果解读避坑指南

拿到DM统计量和p值后，很多新手容易犯这些错误：

过度依赖p值：p=0.051和0.049其实差别不大，不要被0.05阈值束缚
忽视经济显著性：即使统计显著，如果误差差距很小（比如RMSE相差0.1%），实际可能不需要切换模型
多重比较问题：比较多个模型时要校正显著性水平（比如用Bonferroni校正）

建议结合效应量一起分析：

def effect_size(d): """计算Cohen's d效应量""" return np.mean(d) / np.std(d, ddof=1)

一般来说，效应量>0.8算大，<0.2可忽略不计。

4. 实际项目中的进阶技巧

4.1 处理非平稳序列的三种方案

当数据有明显趋势或季节性时，我常用的解决方案有：

差分法：对原始序列做差分后再检验
```
d_diff = np.diff(d, n=1) # 一阶差分
```

模型残差法：先用基准模型拟合趋势/季节项，在残差上做检验

from statsmodels.tsa.seasonal import seasonal_decompose res = seasonal_decompose(d, model='additive', period=7) d_detrend = d - res.trend - res.seasonal

滚动窗口法：在局部窗口内满足平稳性

window_size = 30 dm_stats = [dm_test(y_true[i:i+window_size], yhat1[i:i+window_size], yhat2[i:i+window_size]) for i in range(0, len(y_true)-window_size)]

4.2 多步长预测的特别处理

对于h>1的预测，误差序列会存在h-1阶自相关。这时需要修改方差估计：

# 修改前面代码的gamma计算部分 gamma = [np.sum((d[i:] - mean_d)*(d[:n-i] - mean_d))/n for i in range(h)] var_d = (gamma[0] + 2*sum(gamma[1:]))/n

在金融高频预测中，我还发现一个实用技巧——对长期预测（h>10），可以改用Newey-West方差估计：

from statsmodels.stats.sandwich_covariance import cov_hac var_d = cov_hac(d)[0,0]/n

5. 与其他检验方法的对比选择

5.1 DM vs HLN检验

当样本量较小时（n<100），HLN修正更可靠。它的统计量计算为：

HLN = DM * sqrt((n+1-2h+h*(h-1)/n)/n)

在Python中实现只需稍作修改：

def hln_test(y_true, yhat1, yhat2, h=1): dm_stat, _ = dm_test(y_true, yhat1, yhat2, h) n = len(y_true) hln_stat = dm_stat * np.sqrt((n+1-2*h+h*(h-1)/n)/n) p_value = 2 * t.sf(np.abs(hln_stat), df=n-1) return hln_stat, p_value

5.2 针对分类问题的调整

对于事件预测（如是否会违约），可以用调整后的损失函数：

def binary_loss(y_true, y_prob, threshold=0.5): y_pred = (y_prob > threshold).astype(int) return np.abs(y_true - y_pred)

在医疗预测项目中，我还结合过临床效用曲线（clinical utility index）作为损失函数，这需要领域知识的深度参与。

6. 经典案例分析：股价预测模型比较

以某美股5分钟线预测为例，比较LSTM和LightGBM模型：

数据准备：

import yfinance as yf data = yf.download('AAPL', start='2023-01-01', end='2023-06-30', interval='5m')

预测结果对比：

stat, p = dm_test(data['Close'].values, lstm_pred, gbm_pred, h=3) print(f"DM统计量: {stat:.3f}, p值: {p:.4f}")

结果可视化技巧：

plt.plot(d, label='误差差值') plt.axhline(np.mean(d), color='r', linestyle='--') plt.fill_between(range(len(d)), np.mean(d)-1.96*np.std(d)/np.sqrt(len(d)), np.mean(d)+1.96*np.std(d)/np.sqrt(len(d)), alpha=0.2)

在这个案例中，虽然两个模型的MAE只差0.12%，但DM检验p值为0.038，说明LSTM确实更优。但考虑到模型复杂度，最终选择了部署更轻量的LightGBM。

查看全文

http://www.jsqmd.com/news/504322/