当前位置：首页 > news >正文

别再只盯着ADF了！用Python的statsmodels做KPSS检验，区分‘水平’与‘趋势’平稳的保姆级指南

news 2026/7/11 3:17:02

别再只盯着ADF了！用Python的statsmodels做KPSS检验，区分‘水平’与‘趋势’平稳的保姆级指南

时间序列分析中，平稳性检验是建模前的关键步骤。许多数据分析师习惯性地依赖ADF检验，却忽略了KPSS检验在诊断平稳性类型上的独特价值。本文将带你深入理解KPSS检验的核心逻辑，并通过Python实战演示如何区分水平平稳与趋势平稳这两种容易被混淆的状态。

1. 为什么需要KPSS检验：ADF检验的盲区

ADF检验（Augmented Dickey-Fuller Test）是时间序列分析中最常用的平稳性检验方法之一。它的零假设是序列存在单位根（即非平稳），而备择假设是序列平稳。然而，这种设计存在一个潜在问题：当序列接近平稳边界时，ADF检验的功效会显著下降。

更关键的是，ADF检验无法区分以下两种平稳性：

水平平稳：序列围绕一个固定均值波动
趋势平稳：序列围绕一个确定性趋势（如线性趋势）波动

考虑一个简单的例子：

import numpy as np import matplotlib.pyplot as plt np.random.seed(42) t = np.arange(100) y_level = 5 + np.random.normal(0, 1, 100) # 水平平稳 y_trend = 0.1*t + np.random.normal(0, 1, 100) # 趋势平稳 plt.figure(figsize=(12,4)) plt.subplot(121) plt.plot(y_level) plt.title("水平平稳序列") plt.subplot(122) plt.plot(y_trend) plt.title("趋势平稳序列") plt.show()

这两种序列在ADF检验中可能都会被认为是平稳的，但它们的性质完全不同。错误识别会导致模型选择失误，特别是当构建ARIMA模型时，是否需要差分处理将直接影响预测效果。

2. KPSS检验的核心原理与参数选择

KPSS检验（Kwiatkowski-Phillips-Schmidt-Shin Test）采用与ADF检验相反的假设框架：

零假设：序列是平稳的（可以是水平平稳或趋势平稳）
备择假设：序列存在单位根（非平稳）

在statsmodels中，kpss函数的关键参数是regression：

'c'：检验水平平稳性（常数均值）
'ct'：检验趋势平稳性（确定性趋势）

2.1 数学原理深度解析

KPSS检验统计量的计算基于以下步骤：

模型设定：
- 水平平稳检验：$y_t = \mu + \epsilon_t$
- 趋势平稳检验：$y_t = \mu + \beta t + \epsilon_t$
计算残差累积和： $$ S_t = \sum_{i=1}^t \hat{\epsilon_i} $$
构造检验统计量： $$ KPSS = \frac{\sum_{t=1}^T S_t^2}{T^2 \hat{\sigma}^2} $$
其中$\hat{\sigma}^2$是长期方差估计，使用Newey-West方法计算。

下表对比了KPSS与ADF检验的关键区别：

特性	KPSS检验	ADF检验
零假设	序列平稳	序列有单位根
备择假设	序列有单位根	序列平稳
检验类型	右尾检验	左尾检验
适用场景	确认平稳性	确认非平稳性

3. 实战演练：Python代码全流程解析

让我们通过一个完整案例演示KPSS检验的应用。假设我们有一组销售数据，需要判断其平稳性类型。

3.1 数据准备与可视化

import pandas as pd from statsmodels.tsa.stattools import kpss # 模拟销售数据 np.random.seed(2023) months = pd.date_range('2020-01', periods=48, freq='M') sales_trend = 50 + 2*np.arange(48) + np.random.normal(0, 10, 48) sales_level = 100 + np.random.normal(0, 15, 48) # 可视化 fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14,4)) ax1.plot(months, sales_trend) ax1.set_title("含趋势的销售数据") ax2.plot(months, sales_level) ax2.set_title("水平波动的销售数据") plt.tight_layout()

3.2 执行KPSS检验

def run_kpss_test(series, title): print(f"\n{title} KPSS检验结果:") # 水平平稳检验 stat, p, lags, crit = kpss(series, regression='c') print(f"水平平稳检验 - 统计量: {stat:.4f}, p值: {p:.4f}") print(f"临界值: 1%={crit['1%']:.3f}, 5%={crit['5%']:.3f}, 10%={crit['10%']:.3f}") # 趋势平稳检验 stat, p, lags, crit = kpss(series, regression='ct') print(f"趋势平稳检验 - 统计量: {stat:.4f}, p值: {p:.4f}") print(f"临界值: 1%={crit['1%']:.3f}, 5%={crit['5%']:.3f}, 10%={crit['10%']:.3f}") run_kpss_test(sales_trend, "含趋势数据") run_kpss_test(sales_level, "水平数据")

3.3 结果解读指南

KPSS检验结果的判断标准：

统计量与临界值比较：
- 如果统计量 > 临界值 → 拒绝零假设（非平稳）
- 如果统计量 ≤ 临界值 → 不能拒绝零假设（平稳）
p值判断：
- p < 显著性水平（如0.05）→ 拒绝零假设
- p ≥ 显著性水平 → 不能拒绝零假设

注意：当同时进行'c'和'ct'检验时，可能出现以下四种情况：
'c'不拒绝，'ct'不拒绝 → 可能是水平平稳
'c'拒绝，'ct'不拒绝 → 可能是趋势平稳
'c'拒绝，'ct'拒绝 → 序列可能非平稳
'c'不拒绝，'ct'拒绝 → 这种情况理论上不应出现，需检查数据或方法

4. 高级应用与常见陷阱

4.1 如何选择正确的检验类型

选择regression参数时应考虑：

数据可视化：绘制序列图观察是否有明显趋势
领域知识：根据业务场景判断是否应有内在趋势
双重检验法：
- 先使用'ct'检验趋势平稳性
- 若拒绝，再使用'c'检验水平平稳性

4.2 滞后阶数选择的影响

KPSS检验中需要指定长期方差估计的滞后阶数。statsmodels默认使用： $$ lags = int(4 \times (n/100)^{2/9}) $$

但实际应用中可能需要调整：

# 手动指定滞后阶数 kpss_stat, p_value, lags, crit = kpss(y, regression='c', nlags=12)

下表展示了不同滞后阶数对结果的影响示例：

滞后阶数	KPSS统计量	p值	结论
自动选择	0.782	0.012	拒绝平稳性
5	0.653	0.023	拒绝平稳性
10	0.521	0.047	拒绝平稳性
20	0.432	0.082	不拒绝平稳性

4.3 与ADF检验的联合使用策略

最佳实践是组合使用KPSS和ADF检验：

KPSS检验：
- regression='c'：检验水平平稳性
- regression='ct'：检验趋势平稳性
ADF检验：确认是否存在单位根

联合判断矩阵：

KPSS('c')	KPSS('ct')	ADF	结论
不拒绝	不拒绝	拒绝	水平平稳
拒绝	不拒绝	拒绝	趋势平稳
拒绝	拒绝	不拒绝	非平稳
不拒绝	拒绝	-	检验冲突，需进一步分析

from statsmodels.tsa.stattools import adfuller def comprehensive_test(series): print("\n=== 综合平稳性检验 ===") # ADF检验 adf_result = adfuller(series) print(f"ADF统计量: {adf_result[0]:.4f}, p值: {adf_result[1]:.4f}") # KPSS检验 kpss_result = kpss(series, regression='c') print(f"KPSS水平检验统计量: {kpss_result[0]:.4f}") kpss_trend = kpss(series, regression='ct') print(f"KPSS趋势检验统计量: {kpss_trend[0]:.4f}")

5. 真实商业场景中的应用案例

5.1 销售预测中的平稳性诊断

假设我们需要预测某产品未来6个月的销售额。原始数据如下：

sales_data = pd.Series([120,135,150,142,165,180,175,190,205,210,230,225, 240,235,250,265,280,275,290,310,305,320,335,330], index=pd.date_range('2022-01', periods=24, freq='M')) # 可视化 plt.figure(figsize=(10,4)) sales_data.plot(title="月度销售额趋势") plt.ylabel("销售额") plt.show()

执行综合检验：

comprehensive_test(sales_data)

根据输出结果：

ADF检验p值>0.05 → 不能拒绝单位根假设
KPSS('c')统计量>临界值 → 拒绝水平平稳
KPSS('ct')统计量<临界值 → 不拒绝趋势平稳

结论：该序列为趋势平稳，适合建立带趋势项的ARIMA模型，而非直接差分。

5.2 模型选择的影响

错误识别平稳性类型会导致：

过度差分：将趋势平稳序列差分会导致"过度差分"问题，引入不必要的相关性
忽略趋势：将趋势平稳误判为水平平稳会导致模型遗漏重要趋势成分

正确做法：

from statsmodels.tsa.arima.model import ARIMA # 正确模型：包含趋势项 model = ARIMA(sales_data, order=(1,0,1), trend='t') result = model.fit() print(result.summary())

关键诊断指标：