当前位置：首页 > news >正文

早停聚合：非参数回归超参数调优的高效集成新方法

news 2026/6/25 16:25:55

1. 项目概述：当“早停”遇见“聚合”，非参数回归的调优新思路

在机器学习和统计建模的日常工作中，超参数调优一直是个让人又爱又恨的环节。爱它，是因为它往往是模型性能提升的关键；恨它，是因为它通常伴随着巨大的计算开销和漫长的等待时间。尤其是在非参数回归这类模型（比如核回归、局部多项式回归、决策树集成等）中，模型结构灵活，超参数（如带宽、深度、叶子节点数）的选择对结果影响巨大，传统的网格搜索或随机搜索常常让人望而却步。最近，一种结合了“早停”和“模型聚合”思想的新方法，开始在一些前沿研究和实践中崭露头角，它试图用一种更聪明、更高效的方式来破解这个难题。简单来说，它不再把调优看作一个“一次性选最优”的搜索问题，而是看作一个“边训练边选择，最后再融合”的动态过程。

这个方法的核心，就是“早停聚合”。你可能对“早停”很熟悉，它常用来防止神经网络过拟合，在验证集性能不再提升时提前终止训练。你也可能对“模型聚合”或“集成学习”不陌生，比如Bagging或Boosting。但将两者结合，应用于非参数回归的超参数调优，却是一个颇具巧思的视角。其基本思路是：我们让模型在某个超参数路径（例如，随着树深度增加，或随着核回归带宽减小）上“生长”，但不是只取路径终点的一个模型，而是在这条路径上，按照某种策略（比如基于验证误差）选择多个“检查点”模型。然后，不是简单地从中挑一个最好的，而是将这些处于不同“生长阶段”、对应不同超参数复杂度的模型，通过加权平均的方式聚合起来，形成一个最终的预测器。

这听起来有点反直觉——我们不是要找“最优”超参数吗？为什么要把“次优”的甚至“过拟合”的模型混在一起？这正是其精妙之处。单个最优超参数点对应的模型，可能在训练集或某个验证集上表现最好，但其泛化能力未必最稳定。而聚合多个不同复杂度的模型，实际上是在对模型的不确定性（偏差-方差权衡）进行一种平滑与集成，往往能获得更稳健的预测效果。更重要的是，这个过程极其高效。你只需要沿着一条或少数几条超参数路径训练一次模型，记录中间状态，就能同时获得从简单到复杂的多个候选模型，并完成聚合。相比于对超参数空间进行地毯式搜索，计算量可能下降一个数量级。对于数据量大、模型训练慢的非参数回归任务，这无疑是一个福音。接下来，我们就深入拆解这套方法的原理、实现细节以及我本人在尝试过程中积累的一些实战心得。

2. 核心思路与方案选型：为什么是“早停”加“聚合”？

要理解这套方法的价值，我们得先看看传统方法面临的困境，以及“早停聚合”是如何另辟蹊径的。

2.1 传统超参数调优的瓶颈

在非参数回归中，比如我们要用梯度提升树（GBDT）做预测，核心超参数可能包括树的数量（n_estimators）、树的最大深度（max_depth）、学习率（learning_rate）等。经典的做法是网格搜索或随机搜索：

网格搜索：为每个超参数设定一组候选值，组合成庞大的网格，对每个组合训练一个完整的模型并在验证集上评估。假设我们对3个参数各取10个值，那就是1000次完整训练。对于GBDT这种需要迭代数百上千轮的模型，计算成本是灾难性的。
随机搜索：随机采样超参数组合，相比网格搜索更高效，但本质上仍是“训练-评估”的独立循环。要得到可靠结果，仍然需要相当数量的采样点。

这两种方法的共同问题是：每次尝试都是独立的、完整的训练过程。模型从零开始，训练到收敛，然后被评估、丢弃（除了最优的那个）。这中间存在大量的重复计算和信息浪费。特别是对于像树的数量、正则化强度这类超参数，它们定义了一条模型复杂度递增的路径。我们训练一个n_estimators=500的模型，其实它已经包含了n_estimators=100, 200, ..., 400的所有中间状态，但这些中间状态蕴含的信息在传统方法中被完全忽略了。

2.2 早停聚合的核心思想与优势

“早停聚合”的思路正是要利用这些被浪费的中间信息。它的操作范式可以概括为以下几步：

定义一条超参数路径：选择一个主要的、控制模型复杂度的超参数（我们称之为“路径超参数”），让它从一个较小的值（简单模型）变化到一个较大的值（复杂模型）。例如，在GBDT中，就让n_estimators从1增加到1000；在核回归中，让带宽参数从大到小变化。
单次训练与检查点记录：沿着这条路径进行一次完整的训练。在训练过程中，定期（比如每增加10棵树，或带宽每减小一定比例）保存当前状态的模型作为一个“检查点”或“快照”。这相当于在一次训练中，同时获得了数十上百个不同超参数下的模型。
基于验证集的权重分配：在一个独立的验证集上，评估所有检查点模型的性能（如均方误差MSE）。然后，不是简单地选择误差最小的那个，而是根据每个检查点的验证误差来计算一个权重。一种常见的方法是，误差越小的模型，权重越大。具体权重计算方式有很多，如指数加权weight = exp(-η * error)，其中η是一个温度参数。
加权聚合形成最终模型：最终的预测，是所有这些检查点模型预测值的加权平均。对于回归问题，就是加权求和；对于分类问题，可以是加权投票或加权平均概率。

这种方案的优势非常明显：

极高的计算效率：核心计算成本只是一次完整的训练（沿着一条路径），外加N次验证集前向预测（通常很快）。相比需要M次完整训练的搜索方法，当M远大于N时，效率提升是数量级的。
隐含的模型集成：聚合行为本身是一种集成学习。它集成了从欠拟合到过拟合之间多个复杂度的模型，理论上可以降低方差，提高预测的稳定性，往往能获得比单一“最优”模型更好的泛化性能。
自动化与鲁棒性：减少了对“何时早停”的精确判断的依赖。传统早停需要选择一个确切的停止点，这个点对验证集的波动可能很敏感。而聚合方法包容了停止点附近的一系列模型，结果更加鲁棒。
信息利用最大化：充分利用了训练过程中产生的中间产物，没有浪费任何计算。

注意：早停聚合并非万能。它最适合那些超参数天然构成一条复杂度路径的模型，并且这条路径上的模型序列是可以通过单次训练连续获得的。对于超参数之间耦合性强、或无法形成连续路径的情况（例如，选择不同的核函数类型），这种方法需要调整或结合其他策略。

2.3 方案选型考量：路径超参数与聚合权重的选择

在实际操作前，有两个关键决策点：

选择哪个作为“路径超参数”？
- 首要标准：该超参数应能连续地控制模型的复杂度或容量。增大它，模型变得更复杂，训练误差降低，但更容易过拟合；减小它则相反。
- 典型候选：
  - 迭代次数：如GBDT的n_estimators，神经网络的训练轮数epochs。这是最直接、最通用的选择。
  - 正则化强度：如L2正则化的系数λ，从大到小变化（正则化变弱，模型变复杂）。
  - 平滑参数：如核回归的带宽bandwidth，从大到小变化（带宽越小，拟合越局部，越复杂）。
  - 树深度：如决策树的max_depth，但注意，增加深度通常需要重新生长树，可能无法在单次训练中连续获得。这时可以考虑用“深度作为早停条件”的变体。
- 我的经验：优先选择迭代次数。因为它最符合“单次训练，自然演化”的设定，实现起来最方便。对于非迭代模型（如固定深度的树），可能需要通过子采样或正则化强度来构造路径。
如何计算聚合权重？
- 核心思想：赋予验证集上表现更好的检查点模型更高的权重。
- 常用方法：
  - 指数加权（Softmax）：weight_i = exp(-η * error_i) / sum(exp(-η * error_j))。其中error_i是第i个检查点在验证集上的损失（如MSE），η是温度参数，控制权重的集中程度。η越大，权重越向误差最小的模型集中；η越小，权重越平均。
  - 性能排名加权：根据验证误差对检查点排序，按排名分配权重（如倒数排名）。
  - 简单平均：所有权重相等。这相当于对路径上所有检查点做了一次简单的Bagging，有时效果出奇地好，特别是当验证集较小或不稳定时。
- 我的建议：从指数加权开始，η可以尝试设为1 / (2 * σ^2)，其中σ是验证误差的标准差估计。同时，一定要和简单平均的结果做个对比。在实际项目中，我遇到过简单平均由于更稳定而胜出的情况。

3. 核心细节解析与实操要点

理解了宏观思路，我们深入到实现层面。早停聚合的实现有几个关键细节，处理不好容易掉坑里。

3.1 检查点的采样策略：何时保存模型？

沿着训练路径，我们需要决定在哪些“时刻”保存模型检查点。这并非均匀采样那么简单。

固定间隔采样：最直观的方法。例如，每训练10轮（或每增加10棵树）保存一次。优点是规则简单，易于实现。
- 缺点：在训练初期，模型变化剧烈，10轮间隔可能太长，错过了重要的变化点；在训练后期，模型趋于稳定，10轮间隔又可能太密，保存了大量高度相似的模型，浪费存储且增加不必要的计算。
对数间隔采样：更好的策略。在训练轮数的对数尺度上均匀采样。例如，计划保存50个检查点，我们可以让检查点位于第1, 2, 4, 8, 16, 32, ..., 2^49轮。或者更实用一点，在[1, total_epochs]区间内，生成对数值均匀分布的轮数序列，然后取整。
- 优点：在训练早期采样密集，能捕捉模型的快速学习阶段；在训练后期采样稀疏，避免冗余。这更符合模型学习的动态过程。
基于验证损失的动态采样：更高级的策略。监控验证集损失，当损失下降超过一个阈值（如相对下降5%）时，保存一个检查点。
- 优点：直接与模型性能挂钩，保存的都是“有进步”的关键状态。
- 缺点：实现稍复杂，需要实时监控验证集，并且可能出现在平台期长时间不保存检查点的情况。

实操心得：对于大多数项目，我推荐使用对数间隔采样。它在复杂度和效果之间取得了很好的平衡。在Python中，用np.logspace或np.geomspace可以轻松生成这样的序列。例如，要获得K个检查点，覆盖从第1轮到第N轮：

import numpy as np checkpoint_iters = np.unique(np.geomspace(1, total_iterations, num=K, endpoint=True).astype(int))

这里用np.unique是为了避免重复（因为取整可能导致重复）。确保第一个检查点是1（初始模型），最后一个检查点是total_iterations（最终模型）。

3.2 验证集的使用与数据泄露陷阱

早停聚合严重依赖验证集来分配权重。因此，如何划分和使用验证集至关重要，必须严防数据泄露。

严格的三分法：必须将数据划分为训练集、验证集和测试集。
- 训练集：用于沿着路径训练模型，生成所有检查点。
- 验证集：仅用于评估各个检查点的性能，并据此计算聚合权重。这个验证集在训练过程中绝对不能以任何形式影响模型参数更新（即不能用于梯度计算、早停决策等，除非你采用动态采样策略，但那需要格外小心）。
- 测试集：仅用于最终评估聚合后模型的泛化性能，在整个调优和权重计算过程中完全不可见。
常见的泄露场景：
- 错误复用：用验证集计算了权重后，又根据这些权重在验证集上微调了某些参数（如温度参数η），然后报告测试集结果。这相当于验证集信息间接泄露给了最终模型。
- 嵌套循环泄露：如果你想用交叉验证来更稳健地确定聚合权重（或温度参数η），流程会变得复杂。你必须确保在交叉验证的每一折中，用于计算权重的“验证部分”与用于评估的“测试部分”是严格分开的。一个安全的方法是做两层交叉验证：外层用于评估最终方法，内层用于确定聚合策略的参数。

我的避坑指南：对于初步探索和大多数应用，坚持使用简单的单次划分（如60%训练，20%验证，20%测试）并保持清醒的头脑。在计算权重和最终评估时，时刻问自己：“这个数据在模型‘学习’过程中被看到过吗？” 如果项目对稳健性要求极高，可以考虑使用交叉验证进行聚合，但务必设计好数据流，或者使用现成的、实现了该方法的库（如scikit-learn的某些扩展）。

3.3 聚合的具体实现：在线与离线

模型聚合可以在两个阶段进行：离线聚合和在线聚合。

离线聚合（训练阶段）：
- 做法：保存所有检查点模型的完整参数（或整个模型对象）。在预测时，加载所有模型，分别对输入数据进行预测，然后根据预计算好的权重进行加权平均。
- 优点：灵活。可以事后调整权重，尝试不同的聚合方案（如简单平均、指数加权等），无需重新训练。
- 缺点：存储开销大。如果模型很大（如深度神经网络），保存几十上百个检查点会占用大量磁盘空间。预测速度慢，需要运行N个模型的前向传播。
在线聚合（训练阶段集成到模型内部）：
- 做法：在训练框架内部实现。例如，在GBDT中，每增加一棵树，就更新一个“聚合预测器”，该预测器是所有历史树预测值的加权平均，权重根据当前树在验证集上的贡献动态计算（这需要框架支持访问中间验证误差）。或者，在神经网络中，维护一个权重的指数移动平均（EMA）版本，最终使用这个EMA模型进行预测，这可以看作是一种特殊的聚合。
- 优点：预测效率高。最终只有一个聚合后的模型，预测时只需一次前向传播。存储开销小。
- 缺点：灵活性差。聚合策略和权重计算方式被固化在训练过程中，难以事后调整。

选择建议：在研究和实验阶段，使用离线聚合。它允许你自由地探索不同的权重计算方法和检查点选择策略，是理解方法特性的最佳方式。在生产部署阶段，如果预测延迟和存储是瓶颈，可以考虑将离线聚合得到的权重“蒸馏”到一个单一模型中，或者寻找支持在线聚合的高效实现（如LightGBM的early_stopping_rounds配合自定义评估函数记录中间状态）。

4. 实操过程：以梯度提升树为例的完整实现

下面，我将以最常用的梯度提升树（例如使用xgboost或lightgbm库）为例，展示一个完整的、可复现的早停聚合实现流程。我们假设任务是回归问题。

4.1 环境准备与数据划分

首先，准备必要的库和数据集。我们使用一个公开的数据集进行演示。

import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error import lightgbm as lgb import warnings warnings.filterwarnings('ignore') # 假设我们有一个特征矩阵X和目标向量y # 这里用模拟数据代替 np.random.seed(42) n_samples, n_features = 1000, 20 X = np.random.randn(n_samples, n_features) true_coef = np.random.randn(n_features) y = X.dot(true_coef) + np.random.randn(n_samples) * 0.5 # 严格的三分法：训练集、验证集、测试集 X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42) X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42) print(f"训练集: {X_train.shape}, 验证集: {X_val.shape}, 测试集: {X_test.shape}")

4.2 定义训练路径与检查点采样

我们选择num_boost_round（提升轮数）作为路径超参数。计划训练500轮，并希望保存约50个检查点。采用对数间隔采样。

total_rounds = 500 num_checkpoints = 50 # 生成对数间隔的检查点轮数序列，确保包含第1轮和最后1轮 checkpoint_rounds = np.unique( np.geomspace(1, total_rounds, num=num_checkpoints, endpoint=True).astype(int) ) print(f"检查点轮数（前10个）: {checkpoint_rounds[:10]}...") print(f"总共 {len(checkpoint_rounds)} 个检查点")

4.3 单次训练与检查点模型保存

使用LightGBM进行训练，并利用回调函数在指定轮数保存模型。

# 创建LightGBM数据集 train_data = lgb.Dataset(X_train, label=y_train) val_data = lgb.Dataset(X_val, label=y_val, reference=train_data) # 基础参数配置 params = { 'objective': 'regression', 'metric': 'l2', 'boosting_type': 'gbdt', 'num_leaves': 31, 'learning_rate': 0.05, 'feature_fraction': 0.9, 'verbose': -1, 'seed': 42, } # 用于存储检查点模型的列表 checkpoint_models = [] checkpoint_val_preds = [] # 同时存储验证集预测值，避免后续重复预测 checkpoint_rounds_actual = [] # 实际保存的轮数 # 自定义回调函数，用于在指定轮数保存模型和预测 def save_checkpoint_callback(env): iteration = env.iteration if iteration in checkpoint_rounds: # 保存当前模型状态（Booster对象） model = env.model checkpoint_models.append(model) checkpoint_rounds_actual.append(iteration) # 获取当前模型对验证集的预测 val_pred = model.predict(X_val, num_iteration=model.best_iteration if hasattr(model, 'best_iteration') else iteration) checkpoint_val_preds.append(val_pred.copy()) # 可选：打印信息 if len(checkpoint_models) % 10 == 0: mse = mean_squared_error(y_val, val_pred) print(f" 已保存第 {iteration} 轮检查点，验证MSE: {mse:.4f}") # 开始训练，传入自定义回调 print("开始训练并保存检查点...") bst = lgb.train( params, train_data, num_boost_round=total_rounds, valid_sets=[val_data], callbacks=[save_checkpoint_callback, lgb.log_evaluation(0)], # 关闭默认日志 ) print(f"训练完成。实际保存了 {len(checkpoint_models)} 个检查点模型。")

4.4 计算聚合权重

现在，我们有了所有检查点模型在验证集上的预测结果checkpoint_val_preds。接下来计算每个检查点的验证误差，并使用指数加权法计算权重。

# 计算每个检查点在验证集上的MSE checkpoint_val_errors = [] for pred in checkpoint_val_preds: mse = mean_squared_error(y_val, pred) checkpoint_val_errors.append(mse) checkpoint_val_errors = np.array(checkpoint_val_errors) print(f"验证误差范围: {checkpoint_val_errors.min():.4f} ~ {checkpoint_val_errors.max():.4f}") # 指数加权法计算权重 temperature = 1.0 # 温度参数η，可以调整 # 为了数值稳定，减去最小值 errors_shifted = checkpoint_val_errors - checkpoint_val_errors.min() weights = np.exp(-temperature * errors_shifted) weights = weights / weights.sum() # 归一化 print(f"权重计算完成。最小误差模型（第{checkpoint_rounds_actual[np.argmin(checkpoint_val_errors)]}轮）权重: {weights[np.argmin(checkpoint_val_errors)]:.3f}")

4.5 进行加权聚合预测

最后，用计算好的权重，对所有检查点模型在测试集上的预测进行加权平均。

# 初始化测试集预测值为零 final_pred_test = np.zeros_like(y_test, dtype=float) # 遍历所有检查点模型，进行加权预测 for i, (model, weight) in enumerate(zip(checkpoint_models, weights)): # 获取该模型对测试集的预测 # 注意：预测时使用模型保存时的迭代轮数 pred_i = model.predict(X_test, num_iteration=checkpoint_rounds_actual[i]) final_pred_test += weight * pred_i # 计算聚合模型的测试集MSE mse_ensemble = mean_squared_error(y_test, final_pred_test) print(f"早停聚合模型的测试集MSE: {mse_ensemble:.4f}") # 作为对比，计算单一最优模型（验证集上误差最小）的测试集性能 best_idx = np.argmin(checkpoint_val_errors) best_model = checkpoint_models[best_idx] best_pred_test = best_model.predict(X_test, num_iteration=checkpoint_rounds_actual[best_idx]) mse_best = mean_squared_error(y_test, best_pred_test) print(f"单一最优模型（第{checkpoint_rounds_actual[best_idx]}轮）的测试集MSE: {mse_best:.4f}") # 也可以计算简单平均聚合的效果 simple_avg_pred_test = np.mean([model.predict(X_test, num_iteration=r) for model, r in zip(checkpoint_models, checkpoint_rounds_actual)], axis=0) mse_simple_avg = mean_squared_error(y_test, simple_avg_pred_test) print(f"简单平均聚合的测试集MSE: {mse_simple_avg:.4f}")

通过这个流程，你就完成了一次完整的早停聚合实验。可以比较聚合模型、单一最优模型以及简单平均模型在测试集上的表现，验证聚合方法的有效性。

5. 常见问题与排查技巧实录

在实际应用早停聚合时，你可能会遇到一些典型问题。下面是我在实践中总结的一些情况和解决方法。

5.1 问题一：聚合效果不如单一最优模型

现象：计算出的早停聚合模型，在测试集上的性能反而比验证集上误差最小的那个单一检查点模型还要差。

可能原因与排查：

验证集过小或代表性不足：用于计算权重的验证集太小，或者与测试集分布有差异，导致基于验证误差计算的权重不可靠，无法正确反映模型在测试集上的相对性能。
- 检查：增大验证集比例，或使用交叉验证来计算更稳健的权重。观察验证误差曲线与测试误差曲线是否大致平行。如果验证集上A模型比B模型好很多，但测试集上反而B更好，说明验证集可能有问题。
温度参数η选择不当：指数加权中的温度参数η控制权重的集中程度。η太大，权重几乎全集中在最优模型上，聚合退化为单一模型；η太小，权重过于平均，可能会让一些很差的模型拉低整体性能。
- 排查：尝试不同的η值（例如0.1, 0.5, 1, 2, 5），观察聚合模型性能的变化。可以在一小部分数据上（或通过内层交叉验证）进行调优。
检查点采样不合理：检查点太少，或者采样间隔不合理，导致关键模型状态没有被捕捉到，或者包含了太多性能极差的早期模型。
- 排查：增加检查点数量，特别是训练早期的密度。可视化每个检查点的验证误差，确保误差曲线是相对平滑下降然后可能上升的。如果早期模型误差极高，可以考虑从某个误差开始显著下降的点之后才开始聚合（即设置一个起始轮数阈值）。
模型预测之间的相关性过高：如果所有检查点模型都高度相似（例如，在训练后期，模型变化很小），那么聚合带来的方差减少效应就很有限，而偏差可能被“平均”得不好。
- 排查：计算不同检查点模型预测结果的相关性矩阵。如果后期模型之间的相关性接近1，考虑只聚合训练中前期差异较大的模型，或者引入随机性（如对数据子采样）来增加模型多样性。

我的经验：遇到聚合效果不好，首先尝试简单平均。如果简单平均的效果都比不上单一最优模型，那很可能是验证集或检查点采样的问题。如果简单平均效果尚可，但加权平均更差，那问题很可能出在权重计算（尤其是温度参数）上。

5.2 问题二：计算或存储开销过大

现象：保存大量检查点模型导致内存/磁盘爆炸，或者预测时需要加载运行所有模型，速度太慢。

解决方案：

选择性保存：不必保存完整的模型对象。对于很多模型（如线性模型、树模型），可以只保存其“预测函数”在验证集和测试集上的输出结果。这样只需要存储两个矩阵：val_preds(N_checkpoints × N_val_samples) 和test_preds(N_checkpoints × N_test_samples)。计算权重和最终预测时，直接操作这些矩阵即可，无需加载模型。
- 实现：在回调函数中，不保存model，而是保存model.predict(X_val)和model.predict(X_test)的结果。
模型剪枝与压缩：对于必须保存模型本身的情况，考虑使用模型特定的压缩方法。例如，对于LightGBM模型，可以使用model.save_model()保存为文本文件，它比Python对象更省空间。或者定期保存，并在之后删除一些中间检查点。
在线聚合与模型蒸馏：如前所述，考虑在线聚合方案，或者用聚合模型的知识去蒸馏训练一个更小的单一模型，用于最终部署。

5.3 问题三：如何选择“路径超参数”？

困惑：我的模型有多个重要超参数（如树的深度max_depth和学习率learning_rate），应该选哪个作为路径超参数？

决策指南：

主次分明：早停聚合最适合处理那个对模型复杂度影响最直接、最单调的超参数。在GBDT中，树的数量 (n_estimators/num_boost_round)是首选，因为它定义了训练过程本身。
处理其他超参数：对于其他超参数（如max_depth,learning_rate），你有两种选择：
- 固定它们：将这些参数设置为一个合理的、中间的值。早停聚合的主要收益来自于对迭代次数的自动化、集成化处理。其他参数可以用传统的网格搜索或随机搜索先确定一个较好的值。
- 多路径聚合：这是更高级的用法。你可以针对少数几个最重要的超参数组合，分别进行早停聚合训练，得到多条路径上的聚合模型。然后，可以将这些来自不同路径的聚合模型再次进行集成（例如，用验证集性能加权）。但这会显著增加计算量，适用于非常重要的项目。
一个实用策略：采用两阶段调优。
- 第一阶段：用随机搜索或贝叶斯优化，在中等计算预算下，找到一组表现不错的超参数组合（包括max_depth,learning_rate等），但将n_estimators设得足够大。
- 第二阶段：固定其他超参数，使用这组配置，用早停聚合方法去优化n_estimators（实际上是获得一个聚合模型）。这样既利用了早停聚合的高效，又兼顾了其他参数的选择。

5.4 早停聚合与交叉验证的结合

需求：为了获得更稳健的评估和权重，我想在交叉验证的框架下使用早停聚合。

安全做法（以5折CV为例）：

将全数据分为5折。
对于每一折i（作为测试集）：
- 在剩下的4折数据上，再划分出一个小验证集（或使用内层循环）。
- 在训练集（4折中的一部分）上运行早停聚合训练，用验证集计算权重。
- 用得到的权重聚合模型，对第i折测试集做预测。
最终，你将得到5个聚合模型（每个对应一折）和它们在各自测试集上的预测。拼接这些预测，就得到了整个数据集上的袋外预测（OOB prediction），可用于评估早停聚合方法的整体性能。
如果要得到一个用于部署的最终模型，可以用全部数据重新训练一个早停聚合模型，此时验证集可以从训练集中留出一部分。

关键点：绝对不能用外层CV的测试折信息去影响任何一折内部的权重计算。每一折内部的验证集必须是独立的。

早停聚合为非参数回归乃至更广泛的机器学习模型超参数调优提供了一个新颖而高效的视角。它将调优从一个离散的搜索问题，转变为一个连续的、可集成的学习过程。从我个人的使用经验来看，在计算资源有限、且模型超参数存在明显复杂度路径的场景下，这种方法几乎总是值得一试的。它不一定每次都能带来巨大的性能提升，但几乎总能以极低的额外成本，为你提供一个不逊于、且通常更稳定于传统方法的结果。最后一个小建议是，在实验报告里，除了汇报最终聚合模型的性能，不妨也把单一最优模型和简单平均模型的结果一并列出，这能让你更清晰地看到“聚合”这一操作带来的实际价值。

查看全文

http://www.jsqmd.com/news/1075852/