当前位置：首页 > news >正文

DTSFormer模型在机场客流预测中的应用与优化

news 2026/7/27 20:52:51

1. 机场客流预测的技术挑战与DTSFormer的提出

机场客流预测一直是航空运输管理中的核心难题。传统方法在处理这类复杂时间序列数据时，往往面临三个关键挑战：首先是数据的高度非平稳性，客流受航班时刻、节假日、天气等多因素影响，呈现出明显的异质性趋势；其次是高频波动特征，特别是在极端天气或突发事件时，客流会在短时间内剧烈变化；最后是长期依赖问题，客流模式往往包含日周期、周周期等多尺度时间特征。

针对这些问题，我们团队提出了DTSFormer（Deformable Temporal-Spectral Transformer）模型。这个模型的创新点主要体现在三个方面：第一是设计了多尺度可变形分区机制，能够自适应地捕捉不同时间尺度的客流模式；第二是引入了时频联合分析模块，同时从时间和频率两个维度提取特征；第三是采用动态融合策略，实现了多尺度特征的有机整合。

实际工程经验表明，传统LSTM模型在处理超过12小时的客流预测时，误差会呈指数级增长。而Transformer架构中的自注意力机制理论上可以捕捉任意长度的依赖关系，这为长期预测提供了新的可能性。

2. DTSFormer模型架构详解

2.1 多尺度可变形分区机制

模型的第一部分是创新的可变形分区模块。与固定长度的分块方式不同，我们设计了三级自适应分区策略：

基础层（Patch Length=3）：负责捕捉客流数据的局部突变，如航班集中到达时产生的瞬时高峰
中间层（Patch Length=6）：识别中等尺度的波动模式，如半日内的客流变化趋势
高层（Patch Length=8）：提取全天周期的宏观规律，包括早高峰、午间平峰等特征

在实现上，每个分区模块包含三个关键组件：

偏移量预测网络：通过轻量级CNN预测各patch的最佳起始位置
尺度调节器：动态调整每个patch的时间跨度
重要性权重：评估各patch对最终预测的贡献度

class DeformablePatch(nn.Module): def __init__(self, patch_size): super().__init__() self.offset_conv = nn.Conv1d(in_channels, 2*patch_size, kernel_size=3) self.scale_fc = nn.Linear(hidden_dim, patch_size) def forward(self, x): offsets = self.offset_conv(x) # 预测位置偏移 scales = torch.sigmoid(self.scale_fc(x)) # 尺度调节因子 patches = extract_patches(x, offsets, scales) return patches

2.2 时频联合分析模块

为了同时捕捉客流数据的时间和频率特征，我们设计了双路处理架构：

频域通路：

对每个patch应用汉宁窗（Hanning Window）减少频谱泄漏
通过FFT转换到频域，保留前32个主要频率分量
使用可学习滤波器组进行特征选择

时域通路：

采用多头自注意力机制（8个注意力头）
添加时间位置编码，保留绝对时间信息
时域卷积进行局部平滑

两个通路的输出通过动态门控机制融合：

gate = σ(W_f·f + W_t·t + b) output = gate ⊙ f + (1-gate) ⊙ t

其中f和t分别代表频域和时域特征，⊙表示逐元素相乘。

2.3 模型训练细节

我们在实际训练中发现几个关键技巧：

采用RevIN（可逆归一化）处理数据，相比常规Z-score归一化提升约3%的准确率
使用带余弦退火的学习率调度，初始lr=0.001，最小lr=0.0001
早停机制（patience=40）防止过拟合
损失函数采用Huber Loss，在异常值处理上比MSE更鲁棒

3. 实验设计与结果分析

3.1 数据集构建与预处理

我们使用北京首都国际机场2023-2024年的真实客流数据，原始数据采集自A-CDM系统，包含20,148个样本。经过以下预处理步骤：

数据清洗：
- 删除连续缺失超过2小时的片段（占总量6.8%）
- 短时缺失采用三次样条插值填补
特征工程：
- 将原始按航班到达记录的数据聚合为30分钟粒度
- 添加时间特征：小时数、星期几、是否为节假日
- 对客流数据应用Z-score标准化：
```
z = (x - μ) / σ μ=1135人/30分钟, σ=326
```
数据集划分：
数据集样本数时间范围
训练集 13,136 2023.1-2023.11
验证集 1,877 2023.12
测试集 3,753 2024.1-2024.3

数据集	样本数	时间范围
训练集	13,136	2023.1-2023.11
验证集	1,877	2023.12
测试集	3,753	2024.1-2024.3

3.2 基线模型对比

我们选取了7类代表性基线模型进行对比：

传统机器学习：
- SVR：采用RBF核，C=1.0, γ=0.1
- 随机森林：100棵树，max_depth=10
- BP神经网络：3层结构，hidden_size=64
循环神经网络：
- LSTM：2层结构，hidden_size=128
- GRU：与LSTM相同参数量
Transformer变体：
- PatchTST：patch_length=12
- Pathformer：多尺度patch设置[6,12,24]

所有模型使用相同训练设置：batch_size=64，早停机制，最大epoch=200。

3.3 评价指标与结果

我们采用三种常用指标评估预测性能：

MSE（均方误差）：对异常值敏感，反映大偏差的惩罚
MAE（平均绝对误差）：更鲁棒的误差度量
MAPE（平均绝对百分比误差）：相对误差指标，便于业务解释

12小时预测范围内的结果对比如下：

模型	MSE	MAE	MAPE
SVR	66,134	193.3	27.1%
LSTM	40,574	147.8	16.8%
PatchTST	22,205	113.9	13.6%
DTSFormer	10,295	69.4	9.4%

关键发现：

DTSFormer在12小时预测中MAPE仅为9.4%，比次优模型PatchTST提升31%
随着预测时长增加，优势更加明显（6小时预测MAPE仅7.7%）
在暴雨等极端天气下（如图2所示），模型仍能保持稳定预测

图2：暴雨天气下的预测效果对比，蓝色阴影区显示DTSFormer能更好捕捉客流突变

4. 模型部署与优化实践

4.1 工程化落地挑战

在实际部署中，我们遇到了几个典型问题：

实时性要求：机场需要每分钟更新预测结果，原始PyTorch模型推理耗时约500ms
- 解决方案：使用TensorRT优化，部署为Triton推理服务
- 优化效果：推理时间降至120ms，满足实时需求
数据漂移问题：疫情后客流模式变化导致模型性能下降
- 解决方案：设计在线学习机制，每天凌晨用最新数据微调模型
- 监控指标：设置MAPE>15%自动触发重新训练
资源限制：边缘设备内存有限
- 模型压缩：采用知识蒸馏，将教师模型(8层)压缩为学生模型(4层)
- 量化：FP32→INT8，模型大小减少75%