当前位置：首页 > news >正文

用LightGBM搞定电力负荷预测：从数据清洗到模型调参的完整Python实战

news 2026/6/24 3:52:30

电力负荷预测实战：用LightGBM构建高精度时间序列模型

电力负荷预测是能源管理领域的核心课题之一。想象一下，你正面临一个真实的业务场景：电网调度中心需要未来15分钟的负荷数据来优化发电计划，但原始数据中混杂着各种格式混乱的气象信息、不规范的行业数据。这正是我们将要解决的挑战——从原始数据到可部署的预测模型的全流程实战。

1. 数据清洗：从混乱到规整

真实世界的数据从来不会乖乖听话。我们拿到的原始数据集通常包含各种需要清洗的"脏数据"：温度字段带着"℃"符号、天气状况用"/"分隔、风向描述五花八门。下面让我们一步步解决这些问题。

1.1 温度数据标准化

温度是影响电力负荷的关键因素，但原始数据中的温度字段往往包含无效字符：

# 去除温度字段中的'℃'符号并转换为整数 tianqi['最高温度'] = tianqi['最高温度'].str.replace('℃', '').astype(int) tianqi['最低温度'] = tianqi['最低温度'].str.replace('℃', '').astype(int) # 计算平均温度作为新特征 tianqi['平均温度'] = (tianqi['最高温度'] + tianqi['最低温度']) / 2

常见陷阱：直接使用replace()方法可能导致NaN值，因为不是所有行都包含'℃'符号。更安全的做法是先检查数据分布。

1.2 天气状况拆分与编码

天气状况通常包含白天和夜晚两个时段的描述，用"/"分隔：

# 拆分复合天气字段 weather_split = tianqi['天气状况'].str.split('/', expand=True) tianqi['白天天气'] = weather_split[0] tianqi['夜晚天气'] = weather_split[1] # 定义天气严重程度的有序编码 weather_rank = { '晴':1, '多云':2, '阴':3, '小雨':4, '小雨-中雨':5, '中雨':6, '中雨-大雨':7, '大雨':8 } tianqi['白天天气编码'] = tianqi['白天天气'].map(weather_rank) tianqi['夜晚天气编码'] = tianqi['夜晚天气'].map(weather_rank)

注意：有序编码保留了天气现象的严重程度信息，这比简单的one-hot编码更适合树模型处理。

1.3 风向风力特征工程

风向和风力信息通常混合在一个字段中，需要分别提取：

# 风力等级提取函数 def extract_wind_level(desc): if '无持续风向' in desc: return 0 elif '3～4级' in desc: return 1 elif '4～5级' in desc: return 2 else: return -1 # 未知风力等级 tianqi['白天风力等级'] = tianqi['白天风力风向'].apply(extract_wind_level) tianqi['夜晚风力等级'] = tianqi['夜晚风力风向'].apply(extract_wind_level)

实用技巧：对于更复杂的情况，可以考虑使用正则表达式精确提取风力数值，如(\d+)～(\d+)级可以捕获具体风力范围。

2. 时序特征工程：超越基础日期

电力负荷具有明显的周期性和趋势性。仅仅提取月份、日期是不够的，我们需要更丰富的时序特征。

2.1 基础时间特征

# 转换日期格式并提取基础特征 train['日期时间'] = pd.to_datetime(train['日期时间']) train['月份'] = train['日期时间'].dt.month train['日'] = train['日期时间'].dt.day train['小时'] = train['日期时间'].dt.hour train['分钟'] = train['日期时间'].dt.minute train['星期几'] = train['日期时间'].dt.dayofweek # 周一=0, 周日=6 train['是否周末'] = train['星期几'].isin([5,6]).astype(int)

2.2 高级周期特征

电力负荷往往表现出以天、周、年为周期的变化规律：

# 周期性编码 train['小时_sin'] = np.sin(2 * np.pi * train['小时']/24) train['小时_cos'] = np.cos(2 * np.pi * train['小时']/24) train['星期几_sin'] = np.sin(2 * np.pi * train['星期几']/7) train['星期几_cos'] = np.cos(2 * np.pi * train['星期几']/7) train['月份_sin'] = np.sin(2 * np.pi * train['月份']/12) train['月份_cos'] = np.cos(2 * np.pi * train['月份']/12)

为什么有效：直接将小时、星期几等作为数值特征，模型无法理解24:00和0:00实际上是相邻的。周期性编码解决了这个问题。

2.3 业务特定特征

根据电力行业知识，我们可以构造一些特殊时点标记：

# 重要时间点标记 train['是否节假日'] = train['日期时间'].dt.date.isin(holidays).astype(int) train['是否月初'] = (train['日'] <= 3).astype(int) train['是否月末'] = (train['日'] >= 28).astype(int) train['是否高峰时段'] = train['小时'].between(8, 19).astype(int)

3. LightGBM模型构建与调优

准备好特征后，我们进入模型构建阶段。LightGBM因其高效性和准确性成为时间序列预测的首选。

3.1 基础模型配置

import lightgbm as lgb from sklearn.model_selection import train_test_split # 划分训练集和验证集 X_train, X_val, y_train, y_val = train_test_split( features, target, test_size=0.2, shuffle=False) # 时间序列禁止随机打乱 # 创建LightGBM数据集 train_set = lgb.Dataset(X_train, label=y_train) val_set = lgb.Dataset(X_val, label=y_val, reference=train_set) # 基础参数配置 params = { 'boosting_type': 'gbdt', 'objective': 'regression', 'metric': ['mae', 'rmse'], 'num_leaves': 31, 'learning_rate': 0.05, 'feature_fraction': 0.9, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'verbose': -1, 'seed': 42 }

3.2 关键参数调优指南

LightGBM有数十个可调参数，但实际应用中只需重点关注几个关键参数：

参数	推荐范围	影响说明	调优建议
num_leaves	16-256	单棵树的最大复杂度	从31开始，每轮翻倍测试
learning_rate	0.01-0.2	学习步长	小数据集用大学习率，大数据集用小学习率
feature_fraction	0.6-1.0	特征采样比例	防止过拟合，通常0.8-0.9
bagging_fraction	0.6-1.0	数据采样比例	与feature_fraction配合使用
min_data_in_leaf	20-200	叶节点最小样本数	大数据集可增大此值

实用技巧：使用early_stopping_rounds可以自动确定最佳迭代次数：

model = lgb.train( params, train_set, num_boost_round=1000, valid_sets=[val_set], callbacks=[lgb.early_stopping(stopping_rounds=50)] )

3.3 特征重要性分析

训练完成后，分析特征重要性可以指导我们改进特征工程：

# 获取特征重要性 importance = pd.DataFrame({ 'feature': model.feature_name(), 'importance': model.feature_importance() }).sort_values('importance', ascending=False) # 可视化前20个重要特征 plt.figure(figsize=(10, 8)) sns.barplot(x='importance', y='feature', data=importance.head(20)) plt.title('Top 20 Feature Importance') plt.show()

典型发现：时间相关特征（小时、星期几）通常最重要，其次是温度特征。如果某些精心构造的特征排名靠后，可能需要重新考虑它们的有效性。

4. 模型评估与业务解释

模型训练完成后，我们需要从多个角度评估其性能，并确保预测结果对业务方有可解释性。

4.1 多维度评估指标

除了常见的MAE、RMSE外，电力负荷预测还需要关注以下指标：

from sklearn.metrics import mean_absolute_error, mean_squared_error def calculate_metrics(y_true, y_pred): mae = mean_absolute_error(y_true, y_pred) rmse = np.sqrt(mean_squared_error(y_true, y_pred)) mape = np.mean(np.abs((y_true - y_pred) / y_true)) * 100 # 峰值误差特别重要 peak_idx = np.argmax(y_true) peak_error = np.abs(y_true[peak_idx] - y_pred[peak_idx]) return { 'MAE': mae, 'RMSE': rmse, 'MAPE (%)': mape, 'Peak Error': peak_error }

4.2 预测结果可视化

将预测结果与真实值对比可视化，可以直观发现模型的问题：

# 选取一周数据展示 plt.figure(figsize=(15, 6)) plt.plot(y_val[:672], label='Actual') # 一周=7天×24小时×4(15分钟间隔) plt.plot(predictions[:672], label='Predicted', alpha=0.7) plt.title('One Week Load Forecast') plt.xlabel('Time (15-min intervals)') plt.ylabel('Power Load (kW)') plt.legend() plt.grid(True) plt.show()

典型问题诊断：

如果预测曲线比实际曲线平滑，说明模型可能忽略了短期波动，需要增加对突发性因素的考虑
如果早晚高峰预测不准，可能需要加强时段特异性特征
如果周末模式与工作日无明显区别，可能需要加强周末标记特征

4.3 误差分析

深入分析误差分布可以帮助我们定位问题：

# 计算每小时平均误差 val_set['error'] = np.abs(y_val - predictions) hourly_error = val_set.groupby('小时')['error'].mean() plt.figure(figsize=(12, 6)) hourly_error.plot(kind='bar') plt.title('Average Absolute Error by Hour') plt.xlabel('Hour of Day') plt.ylabel('MAE (kW)') plt.grid(True) plt.show()

业务解释：通常会发现高峰时段的误差较大，这是因为高峰负荷受更多随机因素影响。可以针对高峰时段建立专门的子模型，或者为高峰时段设置更大的损失权重。

5. 生产环境部署建议

将模型从实验环境部署到生产环境需要考虑更多实际问题。

5.1 特征实时管道

生产环境中需要自动化特征生成：

def generate_features(realtime_data): """实时生成特征""" features = {} # 基础时间特征 dt = pd.to_datetime(realtime_data['timestamp']) features['hour'] = dt.hour features['hour_sin'] = np.sin(2 * np.pi * features['hour']/24) features['hour_cos'] = np.cos(2 * np.pi * features['hour']/24) # 天气特征 features['temp'] = float(realtime_data['temperature'].replace('℃', '')) features['weather'] = weather_rank.get(realtime_data['weather'], 0) # 其他业务特征 features['is_peak'] = int(features['hour'] in [8, 18]) return pd.DataFrame([features])

5.2 模型更新策略

电力负荷模式会随时间变化，模型需要定期更新：

增量更新：每周用新数据fine-tune模型
全量更新：每季度用全部历史数据重新训练
异常检测：当预测误差连续3天超过阈值时触发重新训练

5.3 监控指标设计

完善的监控系统应包括：

指标	计算方式	报警阈值
平均绝对误差	过去24小时MAE	>历史平均的1.5倍
峰值误差率	高峰时段误差/实际峰值	>20%
预测延迟	从数据接收到预测完成时间	>1分钟
特征缺失率	缺失特征数/总特征数	>10%

6. 进阶优化方向

对于追求更高精度的团队，可以考虑以下进阶技术：

6.1 多模型集成

结合不同模型的优势：

# 定义多个模型 models = { 'lgb': lgb.LGBMRegressor(), 'xgb': xgb.XGBRegressor(), 'cat': CatBoostRegressor(verbose=0) } # 训练并集成 predictions = [] for name, model in models.items(): model.fit(X_train, y_train) pred = model.predict(X_val) predictions.append(pred) # 加权平均集成 final_pred = 0.5*predictions[0] + 0.3*predictions[1] + 0.2*predictions[2]

6.2 概率预测

对于风险敏感的场景，可以预测负荷的概率分布：

from lightgbm import LGBMRegressor # 使用quantile回归 model = LGBMRegressor( objective='quantile', alpha=0.5, # 中位数 metric='quantile' ) # 训练多个分位数模型 quantiles = [0.1, 0.5, 0.9] models = {} for q in quantiles: models[q] = LGBMRegressor(objective='quantile', alpha=q) models[q].fit(X_train, y_train)

6.3 因果推断

考虑特殊事件（如节假日、极端天气）的影响：

# 使用因果森林估计节假日效应 from econml.dml import CausalForestDML # 定义处理变量(是否节假日)和结果变量(负荷) estimator = CausalForestDML(model_y=LGBMRegressor(), model_t=LGBMRegressor()) estimator.fit(y, X, T=is_holiday) # 估计节假日效应 effect = estimator.effect(X_test)

查看全文

http://www.jsqmd.com/news/734274/