当前位置: 首页 > news >正文

Datawhale 春训营新能源预测(数据处理)

[!NOTE] 数据背景介绍
数据来自 比赛举办方: 主要数据是 三个天气数据源nwp1 nwp2 nwp3,以及历史发电功率数据

新能源预测(数据处理)

1. NWP 数据

1.1 nwp数据

nwp 数据 -- NWP代表数值天气预报(Numerical Weather Prediction),通过python 第三方库netCDF4 来对nwp 数据进行读取,并转换为方便处理的csv 格式。

结构示例:


🔢 维度 Dimensions
------------------------------
time: size = 1
channel: size = 8
lead_time: size = 24
lat: size = 11
lon: size = 11📊 变量 Variables
------------------------------
time: shape = (1,), dtype = int64
channel: shape = (8,), dtype = <class 'str'>
data: shape = (1, 24, 8, 11, 11), dtype = float64
lat: shape = (11,), dtype = int64
lon: shape = (11,), dtype = int64
lead_time: shape = (24,), dtype = int64dimensions: ('lead_time',)
📅 原始 time 值: [0]
⏱ 原始 lead_time 值: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
📆 解析后的起始时间: 2024-01-01 16:00:00

各个数据源 chanel 包含的天气信息

[!NOTE] 官方解释
比赛输入数据来自三个不同的气象预报数据,数据格式为nc,共8个变量,需要注意气象源NWP_2的变量与另外两个稍有不同。气象变量说明见下文。每个文件是第二天北京时间0点开始的未来24小时气象预报,时间间隔1小时,文件名的日期表示预报发布日期,如20240101.nc是2024年1月1日发布的,对1月2日的预报。每个输入文件有5个维度,time,channel,hour,lat,lon。
time表示数据第一个时刻,为世界时;channel为变量,共8维;hour为从起始时间到预报时间的时间间隔,数值为0~23;lat为纬度,数值从小到大为从北向南排列;lon为经度,数值从小到大为从西向东排列。这里经纬度数值仅代表相对关系,中心点为离场站最近的点。
参赛队伍可以不使用全部气象源的全部变量做为输入。

怎么理解这个解释嘞?

数据首先是时间序列(0-23),每个小时的每个特征 有11 * 11 的分布,例如下边这样

Feature Table

变量名称 NWP 模型 1 NWP 模型 2 NWP 模型 3 中文解释
ghi ✔️ ✔️ ✔️ 全球水平辐照度
poai ✔️ ✔️ ✔️ 平面总辐射
sp ✔️ ✔️ 地表温度
msl ✔️ 平均海平面气压
t2m ✔️ ✔️ ✔️ 2米高度温度
tcc ✔️ ✔️ ✔️ 总云量
tp ✔️ ✔️ ✔️ 降水量
u100 ✔️ ✔️ ✔️ 100米高度处的东风分量
v100 ✔️ ✔️ ✔️ 100米高度处的北风分量

✔️ 表示该模型包含此变量。

1.2 处理nwp数据

从每个气象预报文件(格式为 DATE.nc)中提取24小时的预报数据,并对每个小时内的8个气象变量进行空间平均计算(即在经纬度维度上取平均值)。最终生成一个形状为 (24, 8) 的二维数组 daily_data,表示每天24小时、每个小时中8个变量的空间平均值。

完成前置数据处理后,依次进行以下操作:

  1. 检查缺失值(NaN)
  2. 归一化处理(Normalization)
  3. 将结果保存为CSV文件
  4. 特征工程
    • 通过u/v100 计算wind_speed ,并作为新的feature 添加到数据中。
    • 由于每个站点的发电功率对每个feature的依赖不同,因此针对不同站点其用于训练的特征不同。
      • 通过baseline来获取不同站点的feature importance 信息,根据importance信息来筛选feature 见Table 1。同时计算三个数据源中ghi,poai,wind_speed的平均值保存为train_means.csv 和 test_means.csv。

Table 1 :Features used for each station.

Station Features
1 wind_speed, wind_direction
2 wind_speed, wind_direction, poai, t2m, tp, tcc, sp
3 wind_direction, t2m, wind_speed, tcc, tp
4 wind_speed, wind_direction, poai, t2m, tp, tcc, sp
5 wind_speed, wind_direction, poai, t2m, tp, tcc, sp
6 ghi
7 ghi
8 ghi, time, wind_direction, t2m, tp
9 poai
10 wind_speed, wind_direction, poai, t2m, tp, tcc, sp

2. Target数据

总共10 个target 数据,是训练集对应的发电功率数据。

其中每个站点的target数据,是该站点2024 年的发电功率数据,其中数据的统计步长为15分钟,共35136 条数据。

2.1 数据处理:

  • 清除异常数据,对nan数据进行线性插值处理。
  • 将其数据步长更改为1h。(四个只保留整点数据)
  • 保存为csv文件。
http://www.jsqmd.com/news/20006/

相关文章:

  • 权威调研榜单:实验用超细粉碎机实力厂家TOP7榜单好评深度解析
  • AI股票预测分析报告 - 2025年10月23日
  • 智能化时代下,企业DevOps平台的选型突围:谁在真正驱动业务价值?
  • 2025年10月deepseek排名优化推荐:主流机构对比排行榜
  • 异常值检测算法学习
  • 取方案
  • Maven的使用(Leo)
  • 数字化实战:医疗器械行业售后工程师如何借CRM实现高效运维​
  • 2025年10月geo优化服务商推荐:知名机构评测列表
  • pg数据库表的大小
  • 20251020_QQ_Cipher
  • 高压差分探头PKDV508E使用常见问题与解决方案
  • 好拼|免费在线拼图工具上架谷歌商店啦 - ops
  • 基于MATLAB/Simulink的光照强度模型构建方法
  • 2025年10月geo公司推荐:主流排行榜与避坑指南
  • 地中海、双肩包、格子衫?从业9年程序员聊聊真实的程序员是什么样子
  • 2025年10月又红又痒用什么产品推荐:口碑排行五款精华评价
  • 2025年10月美白精华产品推荐榜:临床验证数据排行
  • 卫星遥感技术在河湖监管中的应用
  • RJ45
  • ETH和TCP/IP报文协议与网络编程
  • 2025年10月黄黑皮美白产品榜:持证淡斑五强深度评测
  • 股票操作统计分析报告 - 2025年10月23日
  • 基于Java+Springboot+Vue开发的民宿酒店客房预订管理系统源码+运行步骤
  • 2025年10月黄褐斑改善产品推荐榜:权威排行与效果对比
  • 2025年10月婚礼前美白产品推荐:热门榜对比评价指南
  • windows11关闭自动更新,通用解决方法
  • 2025年10月海南监理公司评测榜:五家实力排名全览
  • VonaJS AOP编程:魔术方法
  • 推动教育质量,布谷鸟网络科技定制K12在线教育在线教育网校软件服务