当前位置：首页 > news >正文

基于NGAFID航空数据集的InceptionTime时序分类研究

news 2026/7/24 12:39:44

基于NGAFID航空数据集的InceptionTime时序分类研究

一、项目概述

1.1 问题背景

航空发动机的预防性维护是保障飞行安全的关键环节。传统的维护策略主要依赖固定时间间隔的检查，这种方法要么导致过度维护（增加成本），要么可能导致漏检（安全隐患）。

NGAFID（National General Aviation Flight Information Database）是一个由美国联邦航空管理局（FAA）支持的大型航空数据集，包含大量真实飞行数据。本项目基于论文《A Large-Scale Annotated Multivariate Time Series Aviation Maintenance Dataset from the NGAFID》，利用深度学习方法对航空发动机状态进行二分类预测：判断飞机在特定飞行阶段是否存在异常情况。

1.2 数据集特性

特性	描述
样本数量	11,446 条记录
序列长度	4,096 时间步
通道数	23 个传感器通道
正样本（异常）	5,602 (48.9%)
负样本（正常）	5,844 (51.1%)

1.3 解决思路

┌─────────────────────────────────────────────────────────────────┐ │ 解决方案架构 │ ├─────────────────────────────────────────────────────────────────┤ │ │ │ 原始时序数据 ──→ 数据预处理 ──→ InceptionTime ──→ 二分类输出 │ │ (23×4096) (归一化) (深度学习) (正常/异常) │ │ │ │ 数据预处理: │ │ - Min-Max 归一化 [0, 1] │ │ - NaN 值填充 (前向填充 + 常数填充) │ │ - 数据格式转换: (length, channels) → (channels, length) │ │ │ └─────────────────────────────────────────────────────────────────┘

我们采用InceptionTime模型进行时序分类，该模型具有以下优势：

参数量小（约47万参数 vs 其他模型上千万参数）
计算效率高，适合边缘设备部署
多尺度特征提取能力强
在多个时序分类任务上表现优异

二、InceptionTime 模型详解

2.1 整体模型架构

┌────────────────────────────────────────────────────────────────────────┐ │ InceptionTime 整体架构 │ ├────────────────────────────────────────────────────────────────────────┤ │ │ │ 输入: (batch, channels, length) = (batch, 23, 4096) │ │ │ │ ┌──────────────────────────────────────────────────────────────────┐ │ │ │ InceptionModule × 6 (Depth=6) │ │ │ │ ┌────────────────────────────────────────────────────────────┐ │ │ │ │ │ 单个 InceptionModule │ │ │ │ │ │ │ │ │ │ │ │ 输入 x ──┬──→ [Bottleneck] ──→ conv(k/4) ──┐ │ │ │ │ │ │ │ conv(k/2) ──┐ │ │ │ │ │ │ │ conv(k) ──┼──→ ⊕──→│ │ │ │ │ │ │ conv ──┘ │ │ │ │ │ │ │ │ │ │ │ │ │ └──→ [MaxPool] → conv(1) ──────────────────────→ ⊕│ │ │ │ │ │ │ │ │ │ │ │ 输出: (batch, 128, length') │ │ │ │ │ └────────────────────────────────────────────────────────────┘ │ │ │ └──────────────────────────────────────────────────────────────────┘ │ │ │ │ 输出: (batch, 128, 4096) ──→ [GlobalAvgPool] ──→ (batch, 128) │ │ ──→ [Dropout] │ │ ──→ [FC] ──→ (batch, 1) └────────────────────────────────────────────────────────────────────────┘

2.2 InceptionModule 组件拓扑

InceptionModule 是 InceptionTime 的核心构件，包含以下四个并行分支：

┌─────────────────────────────────────────────────────────────────┐ │ InceptionModule 详细结构 │ ├─────────────────────────────────────────────────────────────────┤ │ │ │ 输入: (batch, C_in, L) │ │ │ │ │ ┌───────────────┼───────────────┐ │ │ ▼ ▼ ▼ │ │ ┌────────┐ ┌────────┐ ┌────────┐ │ │ │Conv k/4│ │Conv k/2│ │ Conv k │ │ │ │ 1×1 │ │ 1×1 │ │ 1×1 │ │ │ │BN+ReLU │ │BN+ReLU │ │BN+ReLU │ │ │ └────┬───┘ └────┬───┘ └────┬───┘ │ │ │ │ │ │ │ ▼ ▼ ▼ │ │ ┌────────┐ ┌────────┐ ┌────────┐ │ │ │Conv k/4│ │Conv k/2│ │ Conv k │ │ │ │ 3×1 │ │ 3×1 │ │ 1×1 │ │ │ │BN+ReLU │ │BN+ReLU │ │BN+ReLU │ │ │ └────┬───┘ └────┬───┘ └────┬───┘ │ │ └───────────────┼───────────────┘ │ │ │ │ │ ▼ │ │ 输出分支1-3: (batch, 32, L) │ │ │ │ │ │ (原始输入) │ │ ▼ │ │ ┌────────────┐ │ │ │ MaxPool │ │ │ │ 3×1, s=1 │ │ │ └─────┬──────┘ │ │ ▼ │ │ ┌────────┐ │ │ │Conv 1×1│ │ │ │BN+ReLU │ │ │ └────┬───┘ │ │ ▼ │ │ 输出分支4: (batch, 32, L) │ │ │ │ │ ▼ │ │ ┌────────────────────────────┐ │ │ │ Concatenate (dim=1) │ │ │ │ 32 + 32 + 32 + 32 = 128 │ │ │ └────────────────────────────┘ │ │ │ │ │ ▼ │ │ 输出: (batch, 128, L) │ │ │ └─────────────────────────────────────────────────────────────────┘

2.3 Bottleneck 瓶颈层

Bottleneck 层使用 1×1 卷积进行通道压缩，减少计算量的同时提供非线性变换：

# PyTorch 实现ifuse_bottleneckandin_channels>1:self.bottleneck=nn.Conv1d(in_channels,32,kernel_size=1,bias=False)self.bn_bottleneck=nn.BatchNorm1d(32)branch_channels=32# 压缩后的通道数

2.4 数据流详解

以单样本为例：

输入: (23, 4096) - 23个通道，每个通道4096个时间步 ├── InceptionModule 1 (in=23, out=32) │ ├── Bottleneck: 23 → 32 │ ├── 分支1: conv(k/4=10) → (32, 4096) │ ├── 分支2: conv(k/2=20) → (32, 4096) │ ├── 分支3: conv(k=40) → (32, 4096) │ ├── 分支4: pool+conv → (32, 4096) │ └── Concat: (32*4=128, 4096) │ ├── InceptionModule 2-6 (in=128, out=32) │ └── 同样结构，输出: (128, 4096) │ ├── GlobalAvgPool: (128, 4096) → (128,) │ ├── Dropout(0.5): 随机丢弃部分神经元 │ └── FC(128→1): 输出logit值

2.5 核心参数统计

组件	参数数量	说明
InceptionModule × 6	约 46万	6个Inception模块
GlobalAvgPool	0	无参数
Dropout	0	无参数
FC	129	128→1 + bias
总计	约47万	非常轻量

三、实验配置与训练

3.1 训练配置

classConfig:# 数据配置MAX_LENGTH=4096# 序列长度NUM_CHANNELS=23# 通道数# 训练配置BATCH_SIZE=16# 批次大小NUM_EPOCHS=50# 训练轮数LEARNING_RATE=1e-4# 学习率NUM_FOLDS=5# 5折交叉验证# InceptionTime 超参数NUM_FILTERS=32# 每个分支的滤波器数DEPTH=6# Inception模块堆叠层数KERNEL_SIZE=40# 最大卷积核尺寸DROPOUT=0.5# Dropout比率# 硬件配置DEVICE='cuda'# 使用GPU训练

3.2 训练策略

┌─────────────────────────────────────────────────────────────────┐ │ 训练策略 │ ├─────────────────────────────────────────────────────────────────┤ │ │ │ 优化器: Adam │ │ - 学习率: 1e-4 │ │ - 权重衰减: 1e-5 │ │ │ │ 学习率调度: CosineAnnealingLR │ │ - T_max: 50 epochs │ │ - 周期性调整学习率 │ │ │ │ 损失函数: BCEWithLogitsLoss │ │ - 结合 Sigmoid 和 BCELoss │ │ - 支持混合精度训练 │ │ │ │ 早停策略: 基于验证集 F1 分数 │ │ - 保存最佳 F1 模型 │ │ │ │ 混合精度训练: torch.cuda.amp │ │ - 加速训练 │ │ - 减少显存占用 │ │ │ └─────────────────────────────────────────────────────────────────┘

四、实验结果

4.1 Fold 1 训练曲线

┌─────────────────────────────────────────────────────────────────┐ │ Fold 1/5 训练结果 │ ├─────────────────────────────────────────────────────────────────┤ │ │ │ Epoch 1: Train Loss=0.6993, Acc=51.78% │ │ Epoch 5: Train Loss=0.6563, Acc=57.14% │ │ Epoch 10: Train Loss=0.6254, Acc=60.95% | Val Acc=62.23% [保存]│ │ Epoch 15: Train Loss=0.5810, Acc=66.56% │ │ Epoch 20: Train Loss=0.5545, Acc=68.72% | Val Acc=66.81% [保存]│ │ Epoch 25: Train Loss=0.5352, Acc=70.92% │ │ Epoch 30: Train Loss=0.5170, Acc=72.23% | Val Acc=70.31% [保存]│ │ │ │ 训练损失持续下降，准确率稳步提升 │ │ 验证集准确率达到 70.31% │ │ │ └─────────────────────────────────────────────────────────────────┘

4.2 结果可视化

┌─────────────────────────────────────────────────────────────────┐ │ 训练指标可视化 │ ├─────────────────────────────────────────────────────────────────┤ │ │ │ 准确率 (%): │ │ Train ████████████████░░░░░░░░░░░░░░░░░░░░░ 72.23% │ │ Val ██████████████████░░░░░░░░░░░░░░░░░░░░ 70.31% │ │ │ │ 损失值: │ │ Train ░░░░░░░░░░███████████████████████░░░░ 0.5170 │ │ Val ░░░░░░░░░░███████████████████████░░░░ 0.5248 │ │ │ │ 学习率: │ │ LR ████████████████████████████████████ 1e-4 (cosine) │ │ │ └─────────────────────────────────────────────────────────────────┘

4.3 结果分析

指标	Fold 1 (30 epochs)	说明
训练准确率	72.23%	模型在训练集上的表现
验证准确率	70.31%	泛化性能
训练损失	0.5170	持续下降，无明显过拟合
验证损失	0.5248	与训练损失接近

关键发现：

模型在30个epoch内达到70%以上的验证准确率
训练损失和验证损失保持接近，表明模型泛化能力良好
继续训练有望获得更好的结果

五、代码实现要点

5.1 模型定义

classInceptionModule(nn.Module):"""Inception 模块 - 多尺度特征提取"""def__init__(self,in_channels,out_channels,kernel_size=40,use_bottleneck=True):super().__init__()# 瓶颈层：通道压缩ifuse_bottleneckandin_channels>1:self.bottleneck=nn.Conv1d(in_channels,32,kernel_size=1,bias=False)self.bn_bottleneck=nn.BatchNorm1d(32)branch_channels=32else:self.bottleneck=Nonebranch_channels=in_channels# 三个并行卷积分支self.convs=nn.ModuleList([nn.Sequential(nn.Conv1d(branch_channels,out_channels,kernel_size=ks,padding=ks//2,bias=False),nn.BatchNorm1d(out_channels),nn.ReLU(inplace=True))forksin[kernel_size//4,kernel_size//2,kernel_size]])# 池化分支self.pool_conv=nn.Sequential(nn.MaxPool1d(kernel_size=3,stride=1,padding=1),nn.Conv1d(in_channels,out_channels,kernel_size=1,bias=False),nn.BatchNorm1d(out_channels),nn.ReLU(inplace=True))defforward(self,x):x_original=x# 瓶颈变换ifself.bottleneckisnotNone:x=self.bottleneck(x)x=self.bn_bottleneck(x)# 并行卷积outputs=[conv(x)forconvinself.convs]# 池化分支pool_out=self.pool_conv(x_original)outputs.append(pool_out)# 通道维度拼接returntorch.cat(outputs,dim=1)

5.2 数据加载

classNGAFIDDataset(Dataset):"""NGAFID 数据集加载"""def__getitem__(self,idx):x=self.data[idx]# (length, channels)y=self.labels[idx]# 归一化x=(x-self.min_val)/(self.max_val-self.min_val+1e-8)# 转换为 PyTorch 格式: (channels, length)x=x.transpose(0,1)returntorch.FloatTensor(x),torch.FloatTensor([y])

六、不足与改进方向

6.1 当前不足

问题	描述	影响
仅用1折验证	Fold 1结果可能不稳定	评估不够全面
无数据增强	时序数据未做增强	模型泛化受限

6.2 改进方向

6.2.1 模型架构优化

当前: InceptionTime (47万参数) │ ├── 短期改进 │ ├── 增加 Inception 模块深度 (6 → 9) │ ├── 引入注意力机制 (CBAM) │ └── 多尺度融合策略 │ ├── 中期改进 │ ├── 轻量化 Transformer (TF-Lite) │ ├── 模型蒸馏压缩 │ └── AutoML 超参数搜索 │ └── 长期改进 └── 端到端异常检测 (而非二分类)

6.2.2 训练策略优化

学习率调度
- 尝试 OneCycleLR 或 ReduceLROnPlateau
- Warmup 策略避免初期震荡
损失函数改进
- 类别不平衡处理：Focal Loss
- 标签平滑 (Label Smoothing)
数据增强
- 时间扭曲 (Time Warping)
- 随机裁剪 (Random Cropping)
- 噪声注入 (Noise Injection)

七、总结与展望

7.1 项目成果

成功实现InceptionTime 模型的 PyTorch 版本
验证有效性在 NGAFID 数据集上达到 70%+ 准确率
轻量化设计仅 47万参数，适合边缘部署
完整训练流程5折交叉验证，早停机制，模型保存

7.2 后续计划

Phase 1 (短期): 完成5折交叉验证 └── 获取更稳定的性能评估 Phase 2 (中期): 模型优化 ├── 增加训练轮数 ├── 尝试更深的 InceptionTime └── 数据增强实验 Phase 3 (长期): 工程落地 ├── 模型压缩与量化 ├── 导出 ONNX/TensorRT └── 边缘设备部署

7.3 技术栈

组件	技术选型
深度学习框架	PyTorch 2.0
数据处理	NumPy, Pandas
可视化	Matplotlib
硬件加速	CUDA 11.x + GTX 1060 6GB
环境管理	Conda

参考文献

Fawaz, H. I., et al. (2019). “InceptionTime: Finding AlexNet for Time Series Classification.”arXiv preprint arXiv:1909.04939
“A Large-Scale Annotated Multivariate Time Series Aviation Maintenance Dataset from the NGAFID”
Szegedy, C., et al. (2015). “Going Deeper with Convolutions.”CVPR

项目地址: NGAFID_Binary_Classification

查看全文

http://www.jsqmd.com/news/576683/