当前位置：首页 > news >正文

自适应LASSO与DK-距离：高维区间值数据的稀疏建模与金融应用

news 2026/7/18 17:06:58

1. 项目概述：当区间数据遇上自适应LASSO

在金融、经济乃至气象领域，我们常常遇到一类特殊的数据：它不是单一的数字，而是一个范围，一个区间。比如，一支股票在一天内的最高价和最低价构成了一个价格区间；一个地区在一天内的最高和最低温度构成了一个温度区间。这种数据形式被称为区间值数据（Interval-valued Data），它比单一的点值数据包含了更丰富的信息——波动范围、不确定性，甚至市场情绪。然而，传统的统计与机器学习模型，无论是线性回归还是LASSO，大多是为点值数据设计的。当我们试图用这些模型去分析区间值时间序列时，一个核心矛盾就出现了：要么粗暴地将区间拆成上下界分别建模，损失了区间内部的结构信息；要么模型复杂度过高，在成百上千个潜在影响因素面前无所适从。

这正是我过去几年在金融计量研究中反复碰到的问题。直到我将自适应LASSO（Adaptive LASSO）这套经典的变量选择“利器”，与区间值数据的数学结构（基于DK-距离）相结合，才找到了一条可行的路径。简单来说，我们的目标是在一个高维的区间值预测变量环境中，自动识别出那些真正对区间响应变量有显著影响的因子，并将无关变量的影响压缩至零，从而构建一个既简约又准确的稀疏模型。这不仅仅是理论上的推演，在原油价格区间预测和股指区间跟踪这两个硬核的金融实战场景中，这套方法都展现出了超越传统基准模型的稳定优势。

2. 核心思路：为什么是自适应LASSO与区间DK-距离？

2.1 从点值到区间值的范式转换

处理区间值数据，首要问题是定义“距离”和“损失”。我们不能简单地将区间的上下界当作两个独立变量，因为一个区间的“位置”（中点）和“宽度”（半径）是内在相关的。想象一下股票价格区间，高价股和低价股的波动幅度（区间宽度）规律可能完全不同。这里，我们引入了DK-距离（Diamond-Körner距离），这是处理模糊数和区间数的一种经典度量。对于两个区间A = [aL, aR]和B = [bL, bR]，其DK-距离定义为：

DK(A, B) = sqrt( (aL - bL)^2 + (aR - bR)^2 )

这个定义非常直观，它本质上是在二维平面上（横轴为下界，纵轴为上界）计算两个点之间的欧氏距离。基于此，我们可以很自然地定义区间值线性模型的损失函数：最小化预测区间与实际区间之间的DK-距离平方和。这就将区间回归问题，优雅地转化为了一个带有特殊几何意义的优化问题。

2.2 自适应LASSO：赋予惩罚以智慧

在点值数据中，LASSO通过L1惩罚项实现变量选择和系数收缩。但它有个著名的缺陷：对于大系数惩罚过重，可能导致估计偏差和不一致的变量选择。自适应LASSO（Zou, 2006）巧妙地解决了这个问题。其核心思想是为每个系数的L1惩罚项赋予一个自适应的权重。通常，这个权重是初始一致估计量（如OLS估计）绝对值的倒数。公式如下：

惩罚项 = λ * Σ (w_j * |β_j|), 其中w_j = 1 / |β_hat_j_initial|^γ

这里的γ是一个大于0的调节参数。这意味着，如果一个变量的真实系数很大（即它很重要），那么其初始估计的绝对值也倾向于较大，对应的权重w_j就会较小，从而LASSO对它施加的惩罚就较轻，保护了重要变量不被过度压缩。反之，对于不重要的变量（真实系数为零或接近零），其初始估计很小，权重很大，惩罚项会将其系数狠狠地压缩向零。这种“区别对待”的惩罚机制，正是自适应LASSO能获得Oracle性质（即能像事先知道真实模型一样，以正确概率选出真实变量，且非零系数的估计具有渐近正态性）的关键。

2.3 方法融合：区间自适应LASSO惩罚最小距离估计

我们的核心模型，我称之为惩罚区间线性回归。给定区间值响应变量Y_t和p个区间值预测变量X_{1,t}, ..., X_{p,t}，我们建立如下模型：

Y_t = θ_1 * X_{1,t} + θ_2 * X_{2,t} + ... + θ_p * X_{p,t} + u_t

注意，这里的加法和数乘都是针对区间运算的。我们的目标是求解参数向量θ，使得以下惩罚最小距离目标函数最小化：

Q(θ) = Σ DK(Y_t, Σ θ_j * X_{j,t})^2 / T + λ * Σ (w_j * |θ_j|)

第一项是基于DK-距离的拟合损失，衡量模型对区间数据的整体拟合优度。第二项就是带自适应权重的L1惩罚项。λ是调节模型稀疏度的正则化参数，λ越大，模型越稀疏。

关键理解：这个框架的强大之处在于其统一性。它将区间数据的几何结构（通过DK-距离）与高维稀疏建模的统计智慧（通过自适应LASSO）无缝结合。模型输出的不仅是一组系数，更是一个自动完成的“特征工程”，告诉我们哪些区间变量是驱动目标区间变化的核心力量。

3. 算法实现：区间LARS路径求解

面对这样一个带惩罚的凸优化问题，我们需要高效的求解算法。对于点值LASSO，最小角回归算法因其能高效计算整个正则化路径而备受青睐。我们将其推广到区间值场景，设计了区间LARS算法。

3.1 算法核心步骤拆解

算法的输入是区间值数据矩阵（将每个区间视为二维点）和响应区间序列。其核心思想与经典LARS一致，是沿着最速下降的方向，以“等角”的方式将变量逐步加入活跃集。

初始化：将所有系数θ_j设为0，计算当前残差r（为区间序列，用二维点表示）。活跃集为空。
寻找最相关变量：计算每个预测变量区间X_j与当前残差区间r的“相关性”。在区间语境下，这需要通过其支撑函数转化为二维向量的内积来计算。找到与残差最相关的变量X_{j1}。
沿等角方向前进：将X_{j1}加入活跃集。不是直接走到其最小二乘解，而是沿着活跃集中所有变量与残差等角的方向，更新系数向量。这个方向在二维区间空间中的计算，涉及求解一个线性方程组，以确保每次前进后，活跃集中所有变量与当前残差的“相关性”保持相等并同步下降。
遭遇竞争与路径转折：继续沿该方向前进，直到有另一个非活跃变量X_{j2}与残差的相关性，等于当前活跃集中变量的相关性。此时，将X_{j2}加入活跃集。
迭代与退出：更新前进方向（现在活跃集有两个变量），继续前进。这个过程一直持续，直到所有变量都加入，或者达到预设的停止条件（如惩罚参数λ足够大）。
生成解路径：记录下每一步的系数值，这就形成了一条随着模型复杂度（或λ减小）变化的系数路径。我们可以通过交叉验证，从这条路径上选择最优的λ，从而确定最终的稀疏模型。

3.2 实现细节与调参经验

参数γ的选择：在自适应权重w_j = 1/|θ_hat_initial|^γ中，γ控制着权重对初始估计的敏感度。模拟表明，γ=0.5或1通常能取得良好效果。γ=1是常用设置，惩罚权重与初始估计绝对值成反比；γ=0.5则惩罚相对温和一些。在实践中，可以尝试一个小范围（如0.3, 0.5, 1, 1.5）并通过交叉验证选择。
正则化参数λ的确定：我们通过区间LARS算法得到整条路径后，使用时间序列交叉验证来选择λ。对于时间序列数据，不能随机打乱。通常采用滚动窗口或扩展窗口的方式，在训练集上拟合模型，在验证集上计算预测误差（如基于DK-距离的均方误差），选择平均误差最��的λ。
初始估计量的获取：自适应LASSO需要一组初始的一致估计量θ_hat_initial。对于区间模型，一个稳健的选择是使用最小DK-距离估计（即不带惩罚项的区间回归）。即使在高维情况下，若样本量相对充足，也可以使用岭回归（Ridge Regression）的区间版本作为初始估计，以提高稳定性。

实操心得：区间LARS算法的实现难点在于将所有的区间运算（加法、数乘、内积）正确地在二维空间中进行向量化表示。在编程时（如使用Python的NumPy），建议将每个区间[L, R]表示为二维列向量[L, R]^T。这样，区间线性组合和DK-距离的计算就变成了标准的矩阵和向量运算，能极大提升代码的效率和可读性。同时，在计算相关性时，务必使用中心化后的数据，以避免截距项的影响。

4. 模拟验证：理论性质在有限样本下的表现

任何新方法都需要通过模拟实验来验证其有限样本性质。我们设计了两种数据生成过程来检验方法的有效性。

4.1 模拟设计：两种数据生成过程

DGP 1（固定维度）：我们设定真实的预测变量个数p=10，但其中只有3个（δ1, δ2, δ5）的真实系数非零（分别为3， 1.5， 2），其余7个系数真实值为0。区间创新项u_t由一个自回归条件区间模型生成，以模拟金融时间序列中常见的波动聚集性。样本量T分别取20， 40， 80，以观察小样本下的表现。

DGP 2（发散维度）：为了测试高维场景，我们让预测变量维度p随着样本量T增长，设定p = [3 * T^(1/3)]。当T=100, 200, 400, 800时，p分别约为14, 18, 22, 26。真实非零系数的个数也缓慢增加。这更符合实际应用中“大数据”的特征。

我们通过三个指标评估估计量：偏差、标准差和均方根误差。同时，我们将提出的惩罚区间回归与作为基准的最小DK-距离估计（即不进行变量选择的“全模型”）进行对比。

4.2 结果分析与核心发现

模拟结果（如下表所示）清晰地展示了我们方法的优势：

样本量T	方法	非零系数 (δ1) 的RMSE (×10⁻³)	零系数 (δ3) 的RMSE (×10⁻³)	变量选择正确率
20	PLR (本文方法)	0.4896	0.2916	85%
20	ACIX (基准全模型)	0.8838	0.9156	0%
80	PLR (本文方法)	0.1632	0.1210	98%
80	ACIX (基准全模型)	0.2696	0.2703	0%

Oracle性质的体现：随着样本量T增大，无论是非零系数的估计误差（RMSE）还是零系数的估计误差，我们的方法都迅速收敛于零，且速度远快于基准全模型。这说明我们的估计量具有一致性。更重要的是，零系数的估计值被非常精准地压缩到零附近，而基准模型则始终保持着不小的误差，这证明了我们方法在变量选择上的有效性。
对发散维度的稳健性：在DGP 2的高维设置下，即使预测变量个数p在增长，只要非零系数的个数增长较慢（稀疏性假设成立），我们方法的估计精度依然显著优于基准模型。例如在T=400时，对于某些零系数，我们方法的RMSE比基准模型降低了超过36%。
权重参数γ的影响：实验对比了γ=0.5和γ=1的情况。总体来看，γ=1时对零系数的压缩力度更强，变量选择更果断，但在某些小样本情况下，对非零系数的估计可能引入轻微偏差。γ=0.5则更为稳健。在实际应用中，如果先验知识认为模型非常稀疏，可选γ=1；若不确定，γ=0.5是更安全的选择。

避坑指南：模拟中一个关键点是区间创新项协方差矩阵的设置。我们设定u_t的下界和上界误差项之间存在相关性（协方差矩阵非对角元素为0.75）。如果错误地假设上下界独立，模型拟合效果会大打折扣。这提醒我们，在实际应用前，务必检验响应区间上下界的相关性，这是区间模型优于分别建模下界和上界模型的理论依据之一。

5. 实证应用一：区间原油价格预测

5.1 数据与挑战

我们以西德克萨斯中质原油期货的月度区间价格作为预测对象。每个月的区间由该月所有交易日收盘价的对数最小值和最大值构成。数据从2006年1月到2019年12月。预测变量涵盖了股市指数、货币市场指标、原油供需基本面、技术指标和投机指数等10多个区间值或点值转化而来的区间变量。

原油价格预测的挑战在于其受众多因素驱动，且这些因素本身大多也是区间值或具有不确定性。传统点值模型（如仅用月度收盘价）丢失了价格在月内的波动信息，而分别预测高、低价又忽略了二者之间的内在联系。

5.2 模型对比与评估体系

我们采用滚动窗口预测（训练窗口60个月，预测未来1个月），对比了以下方法：

PLR：我们提出的惩罚区间回归。
ACIX：包含所有预测变量的区间自回归条件模型（全模型基准）。
CRM/CCRM：中心-范围法及其约束版本，将区间拆分为中点和半径分别建模。
BLU：分别对区间下界和上界建模的二元模型。
IRF/IMLP：分别对上下界使用随机森林和多层感知机的机器学习模型。

评估指标分为两类：

区间层面指标：如DK-距离、非重叠面积比，衡量整个预测区间的准确性。
点层面指标：分别计算下界、上界、中点、半径的均方根误差。

5.3 预测性能深度解析

下表展示了训练窗口为60个月时，各模型在区间层面指标上的表现（数值越小越好）：

模型	ω_DK (DK-距离)	ω_1 (非重叠面积)	ω_MDE (平均距离误差)
PLR (Ours)	0.0086	0.4629	0.0372
ACIX	0.0108	0.5592	0.0468
CRM	0.0141	0.5469	0.0595
CCRM	0.0138	0.5399	0.0582
BLU	0.0123	0.6222	0.0533
IRF	0.0218	0.7668	0.0862
IMLP	0.0331	1.1366	0.1136

我们的方法在所有区间指标上全面领先。其优势来源于两点：第一，它将区间视为一个整体进行建模，利用了上下界之间的相关性信息；第二，自适应LASSO惩罚自动筛选出了最相关的几个变量（如美元指数、美国原油库存等），构建了一个稀疏模型，避免了过拟合和无关变量的噪声干扰。

值得注意的是，两种机器学习基准模型（IRF, IMLP）表现不佳。这很可能是因为：1）它们简单地将区间拆分为两个端点任务，破坏了区间结构；2）在有限的时序样本下（仅60个月训练数据），复杂的机器学习模型容易过拟合，而我们的稀疏线性模型泛化能力更强。

在点层面指标上，Diebold-Mariano检验进一步证实，我们方法在预测区间下界、上界、中点及半径的误差上，显著优于所有基准模型（在1%显著性水平下）。

6. 实证应用二：基于区间价格的指数跟踪

6.1 策略构建：从点到区间的跨越

指数跟踪的目标是构建一个投资组合，使其收益率尽可能复制目标指数（如标普100）。传统方法使用股票的日收盘价收益率。我们提出使用日区间收益率，即[ln(当日最低价/前日收盘价), ln(当日最高价/前日收盘价)]。这个区间包含了日内全部价格波动信息，能更全面地反映资产风险收益特征。

我们的区间指数跟踪策略分为两步：

股票筛选：使用提出的惩罚区间回归，以标普100指数日区间收益率为响应变量，所有成分股的日区间收益率为预测变量，通过模��自动筛选出10只最具代表性的股票。
权重计算：对这10只筛选出的股票，使用它们的历史收盘价收益率（点值数据），通过普通最小二乘法回归来估计其在跟踪组合中的权重。

作为对比，点值基准策略使用相同的两步法，但第一步股票筛选使用传统的LASSO对收盘价收益率进行建模。

6.2 回测设计与结果

我们采用滚动窗口进行回测：用250个交易日（约1年）的数据训练模型，随后21个交易日（约1个月）进行样本外测试。分别从2017、2018、2019年初开始，进行了三轮回测以检验稳健性。使用跟踪误差和平均绝对偏差两个指标进行评估。

核心发现：

样本内优势明显：在训练期内，基于区间数据的策略其累积跟踪误差始终低于基于点值的策略。这表明利用区间信息能更精确地刻画股票与指数之间的动态关系。
样本外表现稳健：在2018和2019年的样本外测试期，区间策略的跟踪误差在大多数时间点都小于点值策略。这说明区间信息提升的模型泛化能力是可持续的。
极端市场下的挑战：在2020年（新冠疫情冲击市场）的样本外测试中，两种策略表现接近，均未显示出明显优势。这揭示了所有量化模型在面临市场结构剧变时的共同局限性——历史规律可能暂时失效。

实战经验：这个应用揭示了区间数据在金融实践中的巨大潜力。它不仅提升了模型在常态市场下的表现，更重要的是，它提供了一种新的、信息更丰富的资产关联度视角。在构建智能贝塔策略或风险因子模型时，考虑区间数据或许能挖掘出更深层次的阿尔法来源。一个可行的扩展是，将区间跟踪误差直接纳入第二步的权重优化目标函数中，构建一个完全基于区间理论的跟踪组合优化模型。

7. 常见问题与实施要点

7.1 模型选择与超参数调优

如何确定正则化参数λ？强烈推荐使用时间序列交叉验证。对于长度为T的序列，可以固定一个初始训练长度（如T0），用其训练模型，预测后续h步，计算误差。然后滚动或扩展训练窗口，重复此过程，将平均预测误差最小的λ作为最终选择。Python的scikit-learn中的TimeSeriesSplit可以方便地实现。
自适应权重中的γ如何选择？如果领域知识暗示模型非常稀疏（只有极少数变量重要），可以尝试γ=1。如果缺乏先验，γ=0.5是一个稳健的起点。也可以通过交叉验证在一个网格（如[0.3, 0.5, 0.7, 1]）上进行搜索。
如何处理预测变量也是区间值的情况？我们的模型框架天然支持区间值预测变量。在计算DK-距离和设计矩阵时，所有区间运算都保持一致即可。如果数据中是点值和区间值混合，需要将点值x视为退化的区间[x, x]。

7.2 计算与实现细节

算法收敛性与速度：区间LARS算法是确定性算法，对于中等规模问题（p在几百以内）效率很高。它一次性计算出整个解路径，便于交叉验证选模。对于超高维问题（p > 1000），可以考虑使用坐标下降法求解，虽然不直接给出路径，但速度更快。

代码实现建议：

# 伪代码示例：区间数据表示 import numpy as np # 假设有n个样本，p个区间预测变量 # 将每个区间变量表示为一个 n x 2 的数组 # X_list = [X1, X2, ..., Xp]， 每个Xi是 n x 2 的数组 # Y 是 n x 2 的数组，表示响应区间 # 计算DK-距离 def dk_distance(A, B): # A, B 都是 n x 2 的数组 return np.sqrt(np.sum((A - B)**2, axis=1)) # 构建用于LARS的设计矩阵（将每个区间变量视为二维特征） # 注意：需要中心化处理 X_design = np.hstack([X - X.mean(axis=0) for X in X_list]) # 形状为 n x (2p) Y_design = Y - Y.mean(axis=0) # 形状为 n x 2 # 接下来的LARS算法可以调用现有库（如sklearn）处理X_design和Y_design，但需注意我们使用的是二维响应。 # 更严谨的做法是自定义区间LARS，直接处理区间运算。

结果解读：最终模型会输出一组稀疏的系数θ_j。一个正的θ_j意味着当预测变量X_j的区间整体向右上方移动（即下界和上界同时增加）时，响应区间Y也会以类似方式移动。系数的相对大小则反映了影响的程度。

7.3 局限性与未来扩展

非线性关系的捕捉：当前模型是线性的。对于存在复杂非线性交互的区间关系，可考虑引入区间值的基函数扩展（如多项式项、交互项），或探索基于区间核函数的支持向量机回归。
超高维与大数据场景：当预测变量维度p极高（如基因数据）时，可能需要更快的算法，或结合Sure Independence Screening等方法进行预筛选。
动态模型与异方差性：本文模型是静态的。一个自然的扩展是建立区间值自回归条件异方差模型，让区间半径（波动性）也随时间变化，这能更精细地刻画金融时间序列的波动聚集现象。
与其他机器学习模型的结合：可以探索将区间表示直接嵌入神经网络架构，或设计适用于区间数据的树模型分裂准则，从而融合深度学习的表示能力与区间代数的结构信息。

这套基于自适应LASSO的区间值稀疏建模框架，为我分析那些自带“不确定性带宽”的数据打开了一扇新的大门。它不只是理论上的优雅，更在原油价格预测和指数跟踪这样的硬核任务中，提供了切实更优的解决方案。其核心思想——尊重数据的固有结构，并施加智能的稀疏约束——对于处理任何具有范围或集合值特征的高维数据，都有着广泛的启示意义。

查看全文

http://www.jsqmd.com/news/875322/