当前位置：首页 > news >正文

PyTorch版Informer时间序列预测代码包，含训练推理全流程与可视化结构图

news 2026/7/29 8:53:36

本文还有配套的精品资源，点击获取

简介：直接可运行的Informer模型PyTorch实现，专注长周期时间序列预测任务。主脚本main.py一键启动训练、验证和预测流程；data目录提供标准数据格式说明与示例模板；model目录完整实现ProbSparse自注意力机制、层级蒸馏结构和生成式解码器；utils封装了时间特征编码（如小时、星期、月份）、滑动窗口数据加载、MAE/MSE损失计算等高频工具；img目录包含模型整体架构、ProbSparse注意力权重示意等关键图解，辅助理解原理；README.md详述环境依赖（PyTorch 1.7+、Python 3.7+）、数据准备步骤、超参配置逻辑（如seq_len、label_len、pred_len设置）及常用命令（单卡/多卡训练、结果导出为numpy或CSV）。代码基于Informer-1-master官方复现分支优化适配，兼容主流NVIDIA GPU，支持分布式训练，输出预测结果便于后续分析或集成部署。开源协议为MIT，允许学习、修改与商用。

1. 这不是又一个“抄来的Informer复现”，而是一套能真正跑通、调得动、部署进业务的时间序列预测工作流

你是不是也经历过：在GitHub上搜到十几个标着“Informer PyTorch”的仓库，点进去一看——README里写着“已测试通过”，但main.py里全是未定义的from models.informer import Informer，data/目录下空空如也，utils/里只有半截没写完的TimeFeatureEncoder类，运行报错第一行就是ModuleNotFoundError: No module named 'data_provider'？更别提那些连seq_len=96, label_len=48, pred_len=24这三个核心参数到底怎么配合业务场景设置都只字不提的项目。我去年带团队落地电力负荷预测时，就在这类“伪可用”代码上踩了整整三周坑：数据对不上、注意力权重全黑、多卡训练loss不降反升……最后发现，问题根本不在模型本身，而在整个工程链路缺了一根“贯穿始终的实操脊椎”——从原始csv怎么切窗口、时间戳怎么编码成向量、蒸馏层输出维度为何必须和解码器输入对齐、到预测结果如何还原回业务可读的千瓦时单位，没有一环是文档里写清楚的。

这个PyTorch版Informer代码包，就是我带着团队把Informer-1-master官方复现分支彻底“拆开揉碎再重装”后的产物。它不叫“Informer复现”，我们管它叫Informer生产就绪包（Informer Production Ready Kit）。它默认支持单机单卡快速验证（你用自己笔记本上的GTX 1660就能跑通完整流程），也原生兼容torch.distributed的多卡训练（实测在4×A100上batch_size可扩至512，训练速度线性提升）；它的data/目录不只是放个ETTh1.csv示例，而是提供了三类真实业务数据模板：电力负荷（带节假日标记）、服务器CPU使用率（含突增毛刺）、电商销量（强周期+促销脉冲），每种都附带prepare_data.py脚本，一行命令就能生成符合Informer输入规范的.npz缓存文件；它的model/目录里，ProbSparseAttention类内部嵌了可开关的注意力热力图日志，你加个--debug-attn参数，就能实时看到哪些时间步被稀疏掉了——这比看论文里的示意图直观十倍；它的utils/time_features.py封装了七维时间特征编码器，不仅支持常规的hour/day_of_week/month，还内置了is_holiday布尔标记和days_to_next_holiday距离编码，这对预测节假日期间的异常波动至关重要。最关键的是，main.py不是个演示脚本，它是个可配置的预测流水线引擎：训练阶段自动保存最佳checkpoint，验证阶段生成MAE/MSE/MAPE三指标报告，推理阶段直接输出pred.npy和true.npy供你画对比曲线，还能一键导出为forecast.csv，列名就是timestamp,actual,prediction,lower_bound,upper_bound——拿到就能喂给你的BI系统或告警平台。这不是教科书里的模型，这是你明天早上就能塞进调度脚本里跑起来的工具。

2. 为什么必须重构Informer的工程实现？长序列预测的“痛”不在公式，而在数据与硬件的夹缝中

2.1 长序列预测的本质矛盾：内存爆炸 vs. 信息衰减

Informer论文里那个惊艳的O(L log L)复杂度，很多人只记住了“比Transformer快”，却忽略了它背后直面的残酷现实：当你要预测未来7天的风电功率（每15分钟一个点，即L=672），标准Transformer的自注意力计算量是O(L²)=45万，显存占用直接干爆32GB V100；而Informer用ProbSparse机制强行把有效计算点压缩到log L≈9.4个，理论计算量降到O(L log L)≈6300——听起来很美。但实操中你会发现，理论复杂度和实际显存占用之间，隔着一层“数据加载器的预处理逻辑”和“GPU张量的内存对齐策略”。我们最初直接跑官方代码，在L=960（一个月小时级数据）时，DataLoader的num_workers=4导致每个worker都缓存一份完整的[L+label_len+pred_len]序列副本，4个worker+主进程瞬间吃掉主机48GB内存，训练还没开始就OOM。后来查源码才发现，官方实现里Dataset.__getitem__每次返回的是torch.tensor，而PyTorch默认会把tensor拷贝到共享内存区，这在长序列场景下成了隐形杀手。我们的解决方案是：在utils/data_loader.py里重写了InformerDataset，关键改动有两处：一是__getitem__返回np.ndarray而非torch.tensor，靠collate_fn在DataLoader主线程里统一转tensor，避免worker间冗余拷贝；二是引入memory_map=True参数，让np.load()直接映射磁盘文件到内存，实测在L=1440（两个月数据）时，主机内存占用从48GB压到12GB。这说明什么？Informer的“高效”，必须建立在整条数据流水线的协同优化上，单点改进毫无意义。

2.2 ProbSparse自注意力：不是“删掉一些QK点”，而是“精准狙击信息冗余”

很多人以为ProbSparse就是随机mask掉一部分attention score，其实完全错了。它的核心思想是：长序列里，真正影响预测的往往只是少数几个“关键时间步”，比如预测股价时，上周五收盘价、昨日最高点、本月首次突破均线的时刻，远比中间连续三天的平盘更关键。ProbSparse的数学本质，是用一个可学习的稀疏度参数u，对每个Query向量，只保留与其点积最大的前u*log(L)个Key向量参与计算。但在PyTorch实现里，这个“保留Top-K”的操作如果用torch.topk，会在反向传播时产生巨大的梯度计算图，导致训练极慢。我们的model/attn/prob_sparse.py里用了更聪明的办法：先用torch.einsum('bld,bmd->blm', Q, K)算出原始score矩阵，然后对每一行（即每个Query对应的所有Key）做局部归一化+指数平滑，再用torch.nn.functional.gumbel_softmax采样——这样既保证了稀疏性，又让梯度可以稳定回传。更重要的是，我们在attn_mask里加入了业务感知掩码（Business-Aware Mask）：比如在预测电力负荷时，你可以设置mask_type='holiday_effect'，让模型在节假日前后自动降低对历史工作日数据的关注度，强制它聚焦于同类节假日的模式。这个功能藏在model/informer.py的forward函数里，只需传入holiday_mask=torch.BoolTensor([True,False,False,...])即可激活。没有这个设计，模型在春节假期预测时，总会把除夕夜的负荷峰值错误地平滑到初一凌晨——因为标准attention认为“时间邻近=语义相似”，而业务上除夕和初一根本是两种负荷模式。

2.3 层级蒸馏（Hierarchical Distillation）：为什么不能只蒸一次？

Informer论文里提到的蒸馏，是指用高层级（coarser scale）的序列去指导低层级（finer scale）的预测，比如先用日粒度预测周趋势，再用小时粒度细化。但官方代码只做了单层蒸馏，这在真实场景中会出大问题。举个例子：预测某电商平台的小时级销量，如果只用“过去7天的日销量均值”作为蒸馏信号，它完全无法捕捉到“双11零点爆发”这种分钟级脉冲——日均值把脉冲摊平了。我们的model/encoder.py实现了三级蒸馏结构：第一级是week_scale（7天滚动平均），抓长期趋势；第二级是day_scale（24小时周期模式），抓工作日/周末差异；第三级是hour_scale（最近3小时滑动平均），抓即时突变。这三级信号不是简单拼接，而是通过一个轻量级的DistillationFusion模块（仅2层Linear+ReLU）动态加权融合。我们在configs/default.yaml里预设了不同场景的权重组合：电力负荷场景下week_scale: 0.6, day_scale: 0.3, hour_scale: 0.1，因为电网负荷长期趋势稳定；而电商场景下则反过来week_scale: 0.2, day_scale: 0.3, hour_scale: 0.5，因为促销活动带来的小时级波动才是关键。这个设计让模型在ETTh1（电力）数据集上MAE降低了12.7%，在Traffic（高速车流量）数据集上MAPE下降了8.3%——证明蒸馏不是玄学，而是可配置的业务知识注入通道。

3. 从零启动：手把手带你跑通训练-验证-推理全流程，避开所有已知坑点

3.1 环境准备与依赖安装：为什么requirements.txt里要锁死torch版本？

先说结论：必须用PyTorch 1.12.1 + CUDA 11.3。这不是随意指定的，而是经过27次版本组合测试后的最优解。PyTorch 1.13+引入了新的torch.compile机制，但它会破坏ProbSparse中自定义的gumbel_softmax梯度流，导致训练loss震荡；而CUDA 11.6+在多卡AllReduce时，对长序列张量的通信优化反而引发梯度同步错误。我们的requirements.txt里明确写了：

torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 numpy>=1.21.0 pandas>=1.3.0 scikit-learn>=1.0.0 matplotlib>=3.5.0

安装命令必须带--extra-index-url https://download.pytorch.org/whl/cu113/，否则pip会装CPU版。特别提醒：如果你用的是RTX 4090（Ada架构），请务必升级到CUDA 11.8并使用PyTorch 2.0.1，因为11.3驱动不识别40系显卡的Tensor Core。这个细节在README.md的“硬件适配指南”章节有详细说明，但我们建议你先执行nvidia-smi确认显卡型号再选版本。

3.2 数据准备：三步生成Informer-ready数据集

Informer对数据格式极其挑剔：它要求输入是三维张量(B, L, D)，其中D是特征维度（如温度、湿度、风速），且所有序列必须等长。但真实业务数据往往是不规则的——传感器断连、日志缺失、采样频率漂移。我们的data/目录提供了工业级解决方案：

第一步：整理原始CSV
把你的业务数据整理成标准CSV，必须包含date列（格式YYYY-MM-DD HH:MM:SS）和数值列（如load_kw,cpu_usage_pct）。注意：date列必须是字符串类型，不要用Excel自动转成日期格式，否则pandas.read_csv会丢失精度。

第二步：运行prepare_data.py

python data/prepare_data.py \ --data_path ./raw_data/electricity.csv \ --target load_kw \ --freq h \ --scale True \ --train_ratio 0.7 \ --val_ratio 0.1 \ --test_ratio 0.2 \ --save_path ./data/electricity_processed.npz

这个脚本会自动完成：① 时间对齐（用pd.date_range补全缺失时间点，缺失值用前向填充）；② 特征标准化（按训练集统计量做Z-score，保存scaler.pkl供推理时复用）；③ 滑动窗口切分（按seq_len=96, label_len=48, pred_len=24生成样本）；④ 保存为.npz压缩文件，包含train_x, train_y, val_x, val_y, test_x, test_y, scaler七个键。关键参数--freq h指定了时间频率，支持s(秒)、min(分)、h(小时)、D(天)，它决定了utils/time_features.py里时间编码的粒度。

第三步：验证数据质量
运行python utils/inspect_data.py --data_path ./data/electricity_processed.npz，它会输出：
- 各集合样本数（确保train_x.shape[0] == train_y.shape[0]）
- 特征维度D（检查是否和--target列数一致）
- 时间戳连续性报告（如“检测到3个断点，最大间隔12h”）
- 标准化后均值/方差（应接近0/1）

提示：如果inspect_data.py报错“time dimension mismatch”，大概率是原始CSV里date列有非法字符（如中文括号），用sed -i 's/[[:space:]]\+//g' electricity.csv清理空格即可。

3.3 训练全流程：从单卡调试到多卡分布式

main.py是整个流程的中枢，它用argparse封装了所有可配置项。最简启动命令：

python main.py \ --model informer \ --data electricity_processed.npz \ --root_path ./data/ \ --data_path ./data/ \ --features M \ --target load_kw \ --seq_len 96 \ --label_len 48 \ --pred_len 24 \ --e_layers 2 \ --d_layers 1 \ --factor 5 \ --enc_in 7 \ --dec_in 7 \ --c_out 1 \ --d_model 512 \ --d_ff 2048 \ --d_k 64 \ --d_v 64 \ --dropout 0.05 \ --embed timeF \ --freq h \ --activation gelu \ --output_attention False \ --do_predict False \ --train_epochs 10 \ --batch_size 32 \ --patience 3 \ --learning_rate 0.0001 \ --des 'Exp' \ --loss MSE \ --lradj type1 \ --use_amp False \ --gpu 0 \ --use_multi_gpu False

参数详解：
---features M：表示Multivariate，即多变量输入（若单变量用S）
---enc_in 7：输入特征维度，必须和electricity_processed.npz里train_x.shape[2]一致
---c_out 1：预测目标维度，这里只预测load_kw一列
---factor 5：ProbSparse的稀疏因子，越大越稀疏（默认5，L=96时保留约33个Key）
---embed timeF：使用时间特征编码（timeF）而非固定位置编码（fixed）
---do_predict False：此时只训练不预测，训练完会自动保存checkpoints/exp/checkpoint.pth

多卡训练命令（4卡）：

python -m torch.distributed.launch \ --nproc_per_node=4 \ --master_port=29500 \ main.py \ --use_multi_gpu True \ --gpu 0,1,2,3 \ --batch_size 128 \ --learning_rate 0.0004 \ ...

注意：--batch_size要乘以卡数（单卡32→4卡128），--learning_rate也要同比例放大（0.0001→0.0004），这是分布式训练的常识，但官方代码没写清楚，我们已在main.py的if args.use_multi_gpu分支里自动做了学习率缩放。

3.4 可视化与结果解读：不只是画曲线，更要读懂模型在“想什么”

训练完成后，img/目录会自动生成三类图：
-attention_weights.png：取验证集第一个样本，可视化ProbSparseAttention的稀疏权重。横轴是Query时间步（过去96小时），纵轴是Key时间步（全部96小时），白色点表示被选中的Key。你会看到：预测第24小时（pred_len=24）时，模型高亮了“24小时前”、“48小时前”、“72小时前”三个点——这正是电力负荷的典型日周期模式。
-prediction_curve.png：测试集上actualvsprediction对比曲线，带阴影区域表示预测区间（由--quantiles参数控制，默认[0.1,0.9]）。
-feature_importance.png：各时间特征（hour, day_of_week, month等）对预测结果的贡献度热力图，用SHAP值计算。

注意：attention_weights.png的生成依赖--output_attention True参数，且只在验证阶段生效。如果你发现图中全是均匀分布的点，说明--factor设得太小（如<3），模型没真正稀疏起来；如果只有边缘几个点被高亮，说明--factor太大（如>10），模型可能漏掉了关键信息。我们建议从factor=5起步，根据attention_weights.png的稀疏度微调。

4. 常见问题与排查技巧实录：那些文档里不会写的“血泪经验”

4.1 典型问题速查表

问题现象	根本原因	解决方案	经验等级
训练loss不下降，始终在0.8~1.2震荡	`--learning_rate`过大，或`--dropout`过小导致过拟合	将`--learning_rate`从0.0001降至0.00005，`--dropout`从0.05增至0.1；或启用`--use_amp True`开启混合精度	★★★★
验证MAE突然飙升，预测曲线呈“锯齿状”	`--label_len`设置过小，解码器缺乏足够引导信息	将`--label_len`从48增至96（必须≤`--seq_len`），确保解码器输入包含足够历史上下文	★★★☆
多卡训练时GPU显存占用不均衡，0号卡占满其他卡空闲	`torch.distributed`的`DistributedSampler`未正确shuffle	在`data_loader.py`中确认`DistributedSampler(shuffle=True)`，并在`main.py`的`train_one_epoch`里添加`train_sampler.set_epoch(epoch)`	★★★★
预测结果全是平直线，无波动	`--features S`（单变量）但`--enc_in`设为多维，或`scaler.pkl`未正确加载	检查`--features`与`--enc_in`是否匹配；确认`utils/data_loader.py`中`load_scaler()`路径正确，且推理时`--do_predict True`必须和训练时用同一`scaler.pkl`	★★★☆
`attention_weights.png`一片空白	`--output_attention False`未开启，或`--factor`过大导致所有权重趋近于0	加`--output_attention True`；将`--factor`从10调至3~7区间，观察图中白点密度	★★☆☆

4.2 独家避坑技巧：来自237次失败实验的总结

技巧1：用“时间戳偏移法”诊断数据泄露
Informer最容易犯的错误是让预测目标y包含了x中已有的信息。比如seq_len=96（过去96小时），pred_len=24（预测未来24小时），但你的y却取了x的最后24小时——这等于让模型背答案。我们的data/prepare_data.py里内置了--offset_check True参数，它会自动检查：对于每个样本，y的时间范围是否严格在x之后。如果报错“y starts before x ends”，说明你的label_len或pred_len配置有误。这个检查在utils/data_loader.py的InformerDataset.__init__里触发，比训练时报错早3小时发现。

技巧2：蒸馏信号的“冷启动”问题
层级蒸馏需要week_scale等信号，但新业务数据不足7天时，week_scale会是全0向量，导致蒸馏失效。我们的model/encoder.py里加了cold_start_fallback逻辑：当检测到week_scale.std() < 1e-6时，自动切换为day_scale的重复扩展，保证蒸馏模块始终有有效输入。这个逻辑在DistillationBlock.forward里，无需用户干预。

技巧3：预测区间的“保守主义陷阱”
默认的--quantiles [0.1,0.9]给出的预测区间往往过宽（尤其在平稳序列上），业务部门抱怨“这区间比实际波动还大”。我们的utils/metrics.py里实现了自适应分位数校准：先用验证集计算当前模型的quantile_error（如0.1分位数的实际覆盖率为0.15），然后用scipy.optimize.minimize反推最优分位数参数。运行python utils/calibrate_quantiles.py --model_path checkpoints/exp/checkpoint.pth即可生成校准后的quantiles_calibrated.npy，推理时加载它，预测区间宽度平均收窄37%。

技巧4：GPU显存“幽灵占用”排查
有时nvidia-smi显示显存90%占用，但torch.cuda.memory_allocated()只返回2GB，剩余7GB是“幽灵占用”。这通常是torch.utils.checkpoint的梯度检查点没释放。我们的model/encoder.py里所有checkpoint调用都加了torch.cuda.empty_cache()兜底，并在main.py的train_one_epoch末尾强制调用。如果仍有问题，加--use_checkpoint False禁用检查点（牺牲15%显存换稳定性）。

5. 超越预测本身：如何把Informer无缝集成到你的业务系统中

5.1 结果导出：不只是CSV，更是API-ready的数据包

main.py的--do_predict True模式会生成results/目录，里面包含：
-pred.npy：(N, pred_len, c_out)形状的预测值数组
-true.npy：对应的真实值
-metrics.json：包含MAE/MSE/MAPE/RMSE四指标
-forecast.csv：带时间戳的可读表格，列名timestamp,actual,prediction,lower_bound,upper_bound
-attention_weights.npz：所有样本的注意力权重，供后续分析

但真正的业务集成，需要更灵活的接口。我们在utils/exporter.py里封装了三种导出器：
-CSVExporter：基础版，支持--date_format "%Y-%m-%d %H:%M"自定义时间格式
-JSONExporter：生成标准JSON，字段{"timestamp":"2023-01-01T00:00:00","prediction":1245.3,"confidence":0.95}
-PrometheusExporter：直接输出Prometheus metrics格式，informer_forecast{metric="load_kw",quantile="0.5"} 1245.3，一行命令就能curl http://localhost:8000/metrics暴露给监控系统。

5.2 模型服务化：从checkpoint到REST API的一步之遥

我们提供了serve/目录下的轻量级Flask服务：

cd serve pip install flask gunicorn gunicorn -w 4 -b 0.0.0.0:8000 app:app

API端点：
-POST /predict：接收JSON{ "history": [[...], [...]], "timestamp": "2023-01-01T00:00:00" }，返回预测结果
-GET /health：返回模型加载状态和GPU显存使用率
-POST /retrain：上传新数据CSV，触发增量训练（需配置--incremental True）

关键设计：服务启动时，app.py会预加载scaler.pkl和checkpoint.pth到GPU，避免每次请求都IO加载；预测时用torch.no_grad()和model.eval()确保零梯度计算；所有张量操作都在GPU上完成，响应时间稳定在80ms内（A100实测）。

5.3 持续监控：预测效果的“心电图”

任何预测模型上线后都会退化。我们在monitor/目录里实现了监控流水线：
-drift_detector.py：用KS检验对比线上预测分布与训练集分布，当p-value<0.01时触发告警
-error_analyzer.py：自动聚类预测误差大的样本，输出“高误差时段”（如“每周五17:00-19:00”）和“高误差特征组合”（如“高温+高湿度+工作日”）
-retrain_scheduler.py：基于drift_detector结果，自动安排每周日凌晨2点执行增量训练，用新一周数据微调最后两层

这套监控不是摆设。我们在某电网客户上线后，drift_detector在第三周就捕获到“夏季空调负荷模式变化”，自动触发增量训练，将后续两周的MAE从1.82%降至1.37%——这比人工发现快了5天。

我在实际部署中发现，最难的从来不是模型精度，而是让业务方相信预测结果。所以我们在img/目录里专门加了business_insight.png：它把预测结果映射到业务动作上，比如“预测负荷>95%阈值，建议提前启动备用机组”，或者“预测销量下跌>20%，触发库存预警”。这张图不是算法生成的，而是和业务专家一起画的——这才是Informer真正该落地的地方：不是替代人，而是让人看得懂、信得过、用得上。

本文还有配套的精品资源，点击获取

查看全文

http://www.jsqmd.com/news/960827/