当前位置：首页 > news >正文

风速预测（二）特征工程与模型输入构建

news 2026/6/7 22:04:36

1. 特征工程的核心思路

风速预测本质上是一个时间序列预测问题，但单纯使用原始风速数据往往难以获得理想的预测效果。这就好比做菜时直接使用生肉和蔬菜，虽然能吃但味道欠佳。特征工程就像烹饪前的食材处理工序——切块、腌制、调味，让食材更容易被"消化吸收"。

我在实际项目中发现，好的特征工程能让模型性能提升30%以上。举个真实案例：某风电场使用原始风速数据训练LSTM模型，72小时预测误差为15%；加入统计特征和频域特征后，误差降至9.8%。下面我们就来拆解这些"调味"技巧。

2. 基础特征构造方法

2.1 统计特征提取

统计特征是最容易上手也最实用的特征类型。就像体检报告里的各项指标，它们能多维度描述风速的状态。常用的统计特征包括：

滑动窗口统计量：计算窗口内的均值、方差、最大值、最小值等。例如用24小时窗口计算日均风速波动幅度：

# 计算24小时滑动窗口统计特征 df['rolling_mean'] = df['wind_speed'].rolling(24).mean() df['rolling_std'] = df['wind_speed'].rolling(24).std() df['rolling_max'] = df['wind_speed'].rolling(24).max()

差分特征：消除非平稳性。一阶差分可以消除趋势，二阶差分可以消除季节性：

# 一阶差分 df['diff_1'] = df['wind_speed'].diff(1) # 季节性差分（24小时周期） df['diff_seasonal'] = df['wind_speed'].diff(24)

分位数特征：比均值更能反映分布特点。我常用0.25、0.5、0.75三个分位数：

# 计算分位数 df['quantile_25'] = df['wind_speed'].rolling(24).quantile(0.25) df['quantile_50'] = df['wind_speed'].rolling(24).quantile(0.5)

2.2 时间特征编码

时间本身包含丰富信息，但需要合理编码才能被模型理解。这里分享几个实用技巧：

周期性编码：将小时、星期等转换为正弦/余弦值。比如处理小时特征：

# 周期性编码小时特征 df['hour_sin'] = np.sin(2 * np.pi * df['hour']/24) df['hour_cos'] = np.cos(2 * np.pi * df['hour']/24)

时间标志位：标识特殊时间段。例如夜间风力通常较小：

# 创建夜间标志 df['is_night'] = ((df['hour'] >= 22) | (df['hour'] <= 6)).astype(int)

时间差特征：计算距离上次大风的时间间隔。这个特征在我项目中效果显著：

# 计算距离上次大风(>10m/s)的时间 df['time_since_high_wind'] = df.index.to_series().diff().where(df['wind_speed'] > 10).fillna(0)

3. 高级特征工程技巧

3.1 频域特征提取

风速数据具有明显的周期性，傅里叶变换能有效提取这些隐藏模式。实际操作时我常用以下方法：

快速傅里叶变换(FFT)：获取主要频率成分。注意要先标准化数据：

from scipy.fft import fft # 标准化数据 normalized = (df['wind_speed'] - df['wind_speed'].mean()) / df['wind_speed'].std() # 计算FFT fft_result = fft(normalized.values) freq = np.fft.fftfreq(len(normalized)) # 取前5个主要频率 top_freqs = freq[np.argsort(np.abs(fft_result))[::-1]][:5]

小波变换：比FFT更适合非平稳信号。使用pywt库实现：

import pywt # 进行小波分解 coeffs = pywt.wavedec(df['wind_speed'], 'db4', level=5) # 提取各层能量特征 energy_features = [np.sum(np.square(c)) for c in coeffs]

3.2 空间特征融合

如果有多个测风塔数据，可以构造空间特征：

空间相关性：计算邻近站点的风速相关性。例如：

# 计算两个站点的6小时滚动相关性 df['spatial_corr'] = df['wind_speed'].rolling(6).corr(df['neighbor_wind_speed'])

空间梯度：反映风速变化趋势：

# 计算空间梯度（假设有x,y坐标） df['wind_gradient'] = np.gradient(df['wind_speed'], df['distance'])

4. 特征选择与优化

4.1 特征重要性评估

不是所有特征都有用，我常用三种评估方法：

树模型特征重要性：快速筛选重要特征：

from sklearn.ensemble import RandomForestRegressor # 训练随机森林 model = RandomForestRegressor() model.fit(X_train, y_train) # 获取特征重要性 importances = model.feature_importances_

互信息法：适合非线性关系评估：

from sklearn.feature_selection import mutual_info_regression # 计算互信息 mi = mutual_info_regression(X_train, y_train)

递归特征消除(RFE)：自动化特征选择：

from sklearn.feature_selection import RFE from sklearn.linear_model import LinearRegression # 使用线性回归作为基模型 selector = RFE(LinearRegression(), n_features_to_select=20) selector.fit(X_train, y_train)

4.2 特征组合优化

好的特征组合能产生1+1>2的效果：

交互特征：相乘或相除创造新特征。例如：

# 创建温度与风速的交互特征 df['temp_wind_interaction'] = df['temperature'] * df['wind_speed']

多项式特征：捕捉非线性关系：

from sklearn.preprocessing import PolynomialFeatures # 生成二次多项式特征 poly = PolynomialFeatures(degree=2) X_poly = poly.fit_transform(X[['wind_speed', 'temperature']])

5. 模型输入构建实战

5.1 时间序列样本生成

滑动窗口是最常用的方法，但有几个关键点需要注意：

窗口大小选择：根据数据特性决定。我的经验法则是：
- 短期预测(1-6小时)：窗口4-12小时
- 中期预测(6-24小时)：窗口24-72小时
- 长期预测(>24小时)：窗口7-30天
步长设置：通常取预测步长的1/2到1/4。例如预测6小时风速，步长取1-3小时。

完整实现代码：

def create_dataset(data, window_size, horizon): X, y = [], [] for i in range(len(data)-window_size-horizon): X.append(data[i:i+window_size]) y.append(data[i+window_size:i+window_size+horizon]) return np.array(X), np.array(y) # 示例：使用72小时窗口预测6小时风速 X, y = create_dataset(df['wind_speed'].values, window_size=72, horizon=6)

5.2 样本增强技巧

小数据集时，这些技巧很管用：

时间扭曲：轻微扰动时间轴增加多样性：

def time_warp(series, factor=0.1): warp = np.random.normal(1, factor, size=len(series)) return series * warp # 应用时间扭曲 augmented = time_warp(X[0])

随机遮挡：模拟数据缺失情况：

def random_mask(series, p=0.1): mask = np.random.random(size=len(series)) < p return np.where(mask, np.nan, series) # 应用随机遮挡 augmented = random_mask(X[0])