李宏毅深度学习课程集成学习学习报告
近期学习了李宏毅老师深度学习课程中的集成学习(Ensemble Learning) 章节,系统学习了集成学习的核心思想、误差优化原理、Bagging、Boosting、Stacking 三大主流框架。相较于单个模型训练,集成学习通过多模型融合大幅降低模型泛化误差,是机器学习提升精度最核心、最实用的手段之一。本次学习不仅掌握了理论逻辑,同时结合课程公式与实操代码完成了算法验证,对模型优化有了更深的理解。
一、集成学习核心思想
集成学习的核心思想可以概括为:多个弱模型组合成为高精度强模型。
单一模型往往存在固有缺陷:
简单模型:高偏差、欠拟合
复杂模型:高方差、过拟合
集成学习通过多模型差异化训练 + 结果融合,同时降低偏差与方差,从而获得更优的泛化性能。
集成通用预测公式:
二、集成学习三大算法原理(含核心公式)
1. Bagging 并行集成(降低方差)
核心原理
利用自助采样 Bootstrap 构造不同训练集,并行训练多个模型,最后平均融合结果。
集成公式(回归)
Bagging 可以有效抹平单模型方差,因此对容易过拟合的模型(决策树)提升极大,典型代表为随机森林。
2. Boosting 串行集成(降低偏差)
核心原理
串行训练模型,重点学习前一轮错误样本,不断降低模型偏差,逐步提升拟合能力。
AdaBoost 权重更新公式
错误样本权重升高,后续模型更加关注难例数据,不断修正欠拟合问题。
最终集成输出:
3. Stacking 堆叠集成
用多层模型嵌套,第一层多种模型提取特征,第二层模型学习融合权重,拟合能力最强。
三、集成学习误差理论(结合课程 Bias/Variance)
李宏毅老师在课程中明确给出集成学习的误差优化逻辑:
单模型总误差
Error = Bias^2 + Variance + Noise
1. Bagging 主要降低 Variance
多个独立模型平均后:
模型越多,方差越小,过拟合越轻。
2. Boosting 主要降低 Bias
不断迭代修正拟合不足,大幅降低系统偏差,适合弱学习器。
因此:Bagging 稳、Boosting 准、Stacking 强。
四、集成学习 Python 实操代码(可直接运行)
下面给出课程对应随机森林(Bagging)+ AdaBoost(Boosting)完整极简实验代码,可复现集成效果。
# 1.构造数据集
X, y = make_classification(n_samples=1000, random_state=2026)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
# 2.单一决策树(弱模型)
tree = DecisionTreeClassifier()
tree.fit(X_train, y_train)
pred_tree = tree.predict(X_test)
acc_tree = accuracy_score(y_test, pred_tree)
# 3.Bagging:随机森林
rf = RandomForestClassifier(n_estimators=50)
rf.fit(X_train, y_train)
pred_rf = rf.predict(X_test)
acc_rf = accuracy_score(y_test, pred_rf)
# 4.Boosting:AdaBoost
ada = AdaBoostClassifier(n_estimators=50)
ada.fit(X_train, y_train)
pred_ada = ada.predict(X_test)
acc_ada = accuracy_score(y_test, pred_ada)
# 输出对比
print("单一决策树准确率:", acc_tree)
print("随机森林(Bagging)准确率:", acc_rf)
print("AdaBoost(Boosting)准确率:", acc_ada)
实验结论
单棵决策树:准确率最低,存在过拟合/不稳定
随机森林:方差更低,结果更稳定
AdaBoost:偏差更低,拟合精度更高
完美对应李宏毅老师课程的理论讲解。
五、学习收获与总结
通过本次集成学习的学习,并结合公式推导与代码实验,我完整掌握了集成学习的底层逻辑:
1. Bagging 通过并行平均降低方差,解决过拟合;
2. Boosting 通过迭代加权降低偏差,解决欠拟合;
3. 集成学习本质是对 Bias、Variance 的双向优化;
4. 多模型融合是低成本、高效提升模型泛化能力的核心方法。
本次学习打通了误差理论—优化算法—代码实现的完整链路,不仅理解了理论公式,也能够独立完成集成模型训练。后续我将继续结合梯度下降、反向传播知识,深入深度学习模型的集成与调优,进一步夯实深度学习基础。
