当前位置：首页 > news >正文

李宏毅深度学习课程集成学习学习报告

news 2026/6/29 17:09:06

近期学习了李宏毅老师深度学习课程中的集成学习（Ensemble Learning）章节，系统学习了集成学习的核心思想、误差优化原理、Bagging、Boosting、Stacking 三大主流框架。相较于单个模型训练，集成学习通过多模型融合大幅降低模型泛化误差，是机器学习提升精度最核心、最实用的手段之一。本次学习不仅掌握了理论逻辑，同时结合课程公式与实操代码完成了算法验证，对模型优化有了更深的理解。

一、集成学习核心思想

集成学习的核心思想可以概括为：多个弱模型组合成为高精度强模型。

单一模型往往存在固有缺陷：

简单模型：高偏差、欠拟合

复杂模型：高方差、过拟合

集成学习通过多模型差异化训练 + 结果融合，同时降低偏差与方差，从而获得更优的泛化性能。

集成通用预测公式：

二、集成学习三大算法原理（含核心公式）

1. Bagging 并行集成（降低方差）

核心原理

利用自助采样 Bootstrap 构造不同训练集，并行训练多个模型，最后平均融合结果。

集成公式（回归）

Bagging 可以有效抹平单模型方差，因此对容易过拟合的模型（决策树）提升极大，典型代表为随机森林。

2. Boosting 串行集成（降低偏差）

核心原理

串行训练模型，重点学习前一轮错误样本，不断降低模型偏差，逐步提升拟合能力。

AdaBoost 权重更新公式

错误样本权重升高，后续模型更加关注难例数据，不断修正欠拟合问题。

最终集成输出：

3. Stacking 堆叠集成

用多层模型嵌套，第一层多种模型提取特征，第二层模型学习融合权重，拟合能力最强。

三、集成学习误差理论（结合课程 Bias/Variance）

李宏毅老师在课程中明确给出集成学习的误差优化逻辑：

单模型总误差

Error = Bias^2 + Variance + Noise

1. Bagging 主要降低 Variance
多个独立模型平均后：

模型越多，方差越小，过拟合越轻。

2. Boosting 主要降低 Bias
不断迭代修正拟合不足，大幅降低系统偏差，适合弱学习器。

因此：Bagging 稳、Boosting 准、Stacking 强。

四、集成学习 Python 实操代码（可直接运行）

下面给出课程对应随机森林（Bagging）+ AdaBoost（Boosting）完整极简实验代码，可复现集成效果。

# 1.构造数据集
X, y = make_classification(n_samples=1000, random_state=2026)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 2.单一决策树（弱模型）
tree = DecisionTreeClassifier()
tree.fit(X_train, y_train)
pred_tree = tree.predict(X_test)
acc_tree = accuracy_score(y_test, pred_tree)

# 3.Bagging：随机森林
rf = RandomForestClassifier(n_estimators=50)
rf.fit(X_train, y_train)
pred_rf = rf.predict(X_test)
acc_rf = accuracy_score(y_test, pred_rf)

# 4.Boosting：AdaBoost
ada = AdaBoostClassifier(n_estimators=50)
ada.fit(X_train, y_train)
pred_ada = ada.predict(X_test)
acc_ada = accuracy_score(y_test, pred_ada)

# 输出对比
print("单一决策树准确率:", acc_tree)
print("随机森林(Bagging)准确率:", acc_rf)
print("AdaBoost(Boosting)准确率:", acc_ada)
实验结论

单棵决策树：准确率最低，存在过拟合/不稳定

随机森林：方差更低，结果更稳定

AdaBoost：偏差更低，拟合精度更高
完美对应李宏毅老师课程的理论讲解。

五、学习收获与总结

通过本次集成学习的学习，并结合公式推导与代码实验，我完整掌握了集成学习的底层逻辑：

1. Bagging 通过并行平均降低方差，解决过拟合；

2. Boosting 通过迭代加权降低偏差，解决欠拟合；

3. 集成学习本质是对 Bias、Variance 的双向优化；

4. 多模型融合是低成本、高效提升模型泛化能力的核心方法。

本次学习打通了误差理论—优化算法—代码实现的完整链路，不仅理解了理论公式，也能够独立完成集成模型训练。后续我将继续结合梯度下降、反向传播知识，深入深度学习模型的集成与调优，进一步夯实深度学习基础。

查看全文