当前位置：首页 > news >正文

用Informer搞定你下一个时序预测项目：从ETDataset数据预处理到模型训练完整Pipeline

news 2026/7/28 5:42:24

Informer实战指南：从ETDataset预处理到长序列预测模型部署

时序预测领域近年来迎来Transformer架构的革新浪潮，而AAAI最佳论文Informer以其独特的ProbSparse注意力机制和生成式解码器，成为处理长序列预测（LSTF）任务的利器。本文将带您完整走通一个工业级预测项目的全流程，涵盖数据预处理、模型构建、训练调优到结果分析各个环节。

1. 环境配置与数据准备

在开始之前，我们需要配置适合深度学习的环境。推荐使用Python 3.8+和PyTorch 1.10+的组合：

conda create -n informer python=3.8 conda activate informer pip install torch==1.10.0+cu113 torchvision==0.11.1+cu113 -f https://download.pytorch.org/whl/torch_stable.html pip install pandas scikit-learn matplotlib

对于ETDataset这类多变量时间序列数据，原始数据通常包含多个传感器读数。以电力变压器数据集为例，典型结构如下：

时间戳	负荷率	油温	冷却效率	环境温度	湿度	电压波动	电流谐波
2016-07-01 00:00:00	0.72	65.3	0.81	28.5	0.45	0.02	0.07
2016-07-01 01:00:00	0.68	63.8	0.79	27.9	0.47	0.03	0.08

提示：实际项目中务必检查数据完整性，对缺失值可采用线性插值或前向填充处理

2. 数据格式化与特征工程

Informer对输入数据有特定的格式要求，我们需要将原始时间序列转换为模型可接受的张量形式。关键步骤包括：

时间戳编码：将日期时间转换为四维特征向量[年,月,日,小时]
序列划分：采用滑动窗口生成训练样本
归一化处理：对每个特征进行Min-Max标准化

def create_informer_samples(data, enc_len=96, dec_len=72, stride=1): """ 生成符合Informer要求的编码器-解码器样本 :param data: 原始数据 (N, features) :param enc_len: 编码器输入长度 :param dec_len: 解码器输入长度 :param stride: 滑动步长 :return: (x_enc, x_mark_enc, x_dec, x_mark_dec) """ samples = [] for i in range(0, len(data)-enc_len-dec_len, stride): enc_start = i enc_end = i + enc_len dec_end = enc_end + dec_len # 编码器部分（历史序列） x_enc = data[enc_start:enc_end] x_mark_enc = time_features[enc_start:enc_end] # 解码器部分（已知序列+预测占位符） x_dec = np.vstack([ data[enc_end-enc_len//2:enc_end], # 历史后半段 np.zeros((dec_len - enc_len//2, data.shape[1])) # 预测占位 ]) x_mark_dec = time_features[enc_end-enc_len//2:dec_end] samples.append((x_enc, x_mark_enc, x_dec, x_mark_dec)) return samples

3. 模型架构实现要点

Informer的核心创新在于其高效的注意力机制和蒸馏结构。我们重点解析几个关键组件：

3.1 ProbSparse注意力层

传统Transformer的注意力计算复杂度为O(L²)，而ProbSparse通过以下优化降至O(L log L)：

Query稀疏性评估：计算各query的注意力分布与均匀分布的KL散度
Top-u选择：仅对最具信息量的queries进行精确计算
均值填充：对非活跃queries使用值向量的均值作为近似

class ProbAttention(nn.Module): def __init__(self, mask_flag=True, factor=5, scale=None, attention_dropout=0.1): super(ProbAttention, self).__init__() self.factor = factor self.scale = scale self.mask_flag = mask_flag self.dropout = nn.Dropout(attention_dropout) def _prob_QK(self, Q, K, sample_k, n_top): # Q, K: [batch, heads, seq_len, dim] B, H, L_K, E = K.shape _, _, L_Q, _ = Q.shape # 计算稀疏性评估指标M K_expand = K.unsqueeze(-3).expand(B, H, L_Q, L_K, E) index_sample = torch.randint(L_K, (L_Q, sample_k)) K_sample = K_expand[:, :, torch.arange(L_Q).unsqueeze(1), index_sample, :] Q_K_sample = torch.matmul(Q.unsqueeze(-2), K_sample.transpose(-2, -1)).squeeze() M = Q_K_sample.max(-1)[0] - torch.mean(Q_K_sample, dim=-1) # 选择top-u个queries M_top = M.topk(n_top, sorted=False)[1] Q_reduce = Q[torch.arange(B)[:, None, None], torch.arange(H)[None, :, None], M_top, :] return Q_reduce, M_top def forward(self, queries, keys, values): B, L_Q, H, D = queries.shape _, L_K, _, _ = keys.shape queries = queries.transpose(2, 1) keys = keys.transpose(2, 1) values = values.transpose(2, 1) U_part = self.factor * np.ceil(np.log(L_K)).astype('int').item() u = self.factor * np.ceil(np.log(L_Q)).astype('int').item() # 稀疏化处理 Q_reduce, top_index = self._prob_QK(queries, keys, sample_k=U_part, n_top=u) # 计算稀疏注意力 scale = 1. / math.sqrt(D) attention = torch.softmax( torch.matmul(Q_reduce, keys.transpose(-2, -1)) * scale, dim=-1) attention = self.dropout(attention) context = torch.matmul(attention, values) # 对未选中的queries使用均值填充 context_mean = torch.mean(values, dim=2, keepdim=True).expand(B, H, L_Q, D) context[torch.arange(B)[:, None, None], torch.arange(H)[None, :, None], top_index, :] = context context = context.transpose(2, 1).contiguous() return context, attention

3.2 注意力蒸馏机制

通过卷积层实现特征蒸馏，逐步减少序列长度同时保留关键信息：

Encoder堆叠结构： 输入序列 → Conv1D(k=3, stride=2) → LayerNorm → ELU激活 → 输出序列

这种设计使每层编码器的序列长度减半，显著降低了计算负担。

4. 训练策略与超参数调优

Informer的训练需要特别注意以下几个关键参数：

参数	推荐值	作用说明
enc_seq_len	96-168	编码器输入长度（历史数据点）
dec_seq_len	72-120	解码器输入长度
learning_rate	0.0001-0.001	初始学习率
batch_size	32-64	批次大小
factor	5	ProbSparse采样因子
d_model	512	特征维度
n_heads	8	注意力头数
e_layers	2-3	编码器层数
d_layers	1	解码器层数

注意：预测长度较长时(>48)，建议增加enc_seq_len以提供更充分的历史上下文

训练过程中建议采用学习率预热和余弦退火策略：

optimizer = torch.optim.Adam(model.parameters(), lr=1e-4) scheduler = torch.optim.lr_scheduler.CosineAnnealingLR( optimizer, T_max=20, eta_min=1e-5)

5. 预测结果分析与模型部署

训练完成后，我们需要评估模型的实际预测能力。对于多步预测任务，建议采用以下评估指标：

MSE/MAE：衡量整体预测精度
MAPE（平均绝对百分比误差）：评估相对误差
Dynamic Time Warping（DTW）：衡量预测曲线与真实曲线的形状相似度

可视化分析时，重点关注以下典型问题模式：

滞后效应：预测曲线相位偏移 → 增加时间特征工程
幅度压缩：预测值波动不足 → 调整损失函数权重
长尾偏差：极端值预测不准 → 检查数据分布均衡性

对于生产环境部署，推荐使用TorchScript将模型导出：

# 导出模型 example_input = torch.randn(1, 96, 7) traced_model = torch.jit.trace(model, example_input) traced_model.save("informer_lstf.pt") # 加载推理 model = torch.jit.load("informer_lstf.pt") with torch.no_grad(): predictions = model(enc_data, enc_mark, dec_data, dec_mark)

实际项目中，我们还需要建立自动化监控机制，持续跟踪模型性能衰减。当预测误差超过阈值时触发重新训练流程，确保预测系统长期稳定运行。

查看全文

http://www.jsqmd.com/news/960491/