当前位置：首页 > news >正文

基于预训练嵌入与排序模型的AutoML算法与超参数自动选择方法

news 2026/7/15 3:31:32

1. 项目概述与核心挑战

在自动化机器学习（AutoML）的实际落地过程中，我们经常面临一个看似简单、实则复杂的核心问题：面对一个新的数据集，我应该选择哪个机器学习算法，以及如何配置它的超参数？这就是经典的组合算法与超参数选择问题，即CASH问题。传统的解决方案，比如网格搜索、随机搜索，或者针对单一算法的贝叶斯优化，要么计算成本高得吓人，要么无法跨算法进行有效的知识迁移。你可能会想，能不能像人类专家一样，利用过去处理大量数据集的经验，来快速定位新问题的最优解？这正是我们这次要深入探讨的“基于预训练嵌入与排序模型的CASH问题贝叶斯优化方法”试图回答的问题。

简单来说，这个方法想做的，是构建一个“经验库”和“推荐系统”。它首先在大量多样的源数据集上预训练一套模型，学习如何将不同算法那五花八门的超参数空间，映射到一个统一的、可比的“潜在空间”里。然后，当遇到一个新的目标数据集时，它用一个轻量级的排序模型快速分析这个数据集的特征，从“经验库”中推荐一个最相关的预训练模型来用。最后，在这个统一的潜在空间上，运行高效的贝叶斯优化，快速找到针对当前数据集的最优算法和超参数组合。这就像一位资深的数据科学家，脑子里装着成百上千个项目的调参经验，看到新项目后能迅速调用最相关的经验，而不是每次都从头开始试错。

2. 方法核心设计思路拆解

2.1 为何要构建共享潜在空间？

传统贝叶斯优化处理CASH问题时，一个主要障碍是异质性。支持向量机（SVM）的超参数（如C、gamma）和随机森林（RF）的超参数（如n_estimators、max_depth）在类型、范围和物理意义上都完全不同。直接在原始的超参数空间上构建一个统一的代理模型（比如一个高斯过程）是非常困难的，因为核函数很难定义在这种异构的、条件性的输入上（某个超参数只在特定算法下有效）。

我们提出的核心思路是升维与统一。为每一个机器学习算法 $A^{(m)}$ 训练一个编码器网络 $\phi^{(m)}$，将其特有的超参数配置 $\lambda^{(m)}$ 映射到一个公共的 $d$ 维潜在空间 $z \in \mathbb{R}^d$。即 $z = \phi^{(m)}(\lambda^{(m)})$。这样，无论底层是SVM还是RF，它们的配置都被转换成了同一空间中的点。在这个潜在空间 $z$ 上，我们可以构建一个统一的、强大的代理模型（例如深度核高斯过程）来建模算法性能 $Acc(z)$ 与潜在表示 $z$ 的关系。

注意：这里的“潜在空间”并非玄学，你可以把它理解为一种“通用配置语言”。不同的算法用自己的“方言”（原始超参数）描述配置，而编码器将其翻译成标准的“普通话”（潜在向量）。优化过程就在“普通话”的层面上进行，找到了最优的“普通话”句子后，再通过对应的解码器（如果需要）或直接查询，翻译回具体算法的“方言”执行。

2.2 预训练嵌入模型：从零开始学习还是站在巨人肩膀上？

构建高质量的潜在空间表示 $\phi^{(m)}$ 是成功的关键。一个直接的思路是在目标数据集上从头开始训练这些编码器。但这面临两大问题：

数据稀疏性：在目标数据集上，初期评估点很少，不足以训练一个复杂的编码器网络。
冷启动问题：初始的潜在空间表示可能很差，导致贝叶斯优化早期的搜索效率低下。

因此，我们引入了预训练阶段。我们收集了大量（例如161个）源数据集 ${\mathcal{D}‘s}{s=1}^S$。对于每个算法 $A^{(m)}$，我们在每个源数据集上采样其超参数空间，得到一系列配置-性能对 ${ (\lambda^{(m)}_i, Acc_i) }$。然后，我们利用所有这些源数据集上的数据，通过一个多任务学习框架来预训练编码器 $\phi^{(m)}$。

预训练的目标函数通常包含两部分：

重构损失：确保编码器能够有效捕捉超参数的信息（例如，通过自编码器结构）。
性能预测损失：确保潜在空间 $z$ 与算法性能 $Acc$ 高度相关。这通常通过在潜在空间 $z$ 上接一个预测器（如一个小型神经网络）来实现，并最小化预测性能与实际性能的差异。

通过预训练，$\phi^{(m)}$ 学会了提取对算法性能预测最有信息量的超参数特征，并将它们投影到一个对性能变化敏感、平滑的潜在空间中。这相当于让编码器在“上岗”（处理目标数据集）前，已经在“模拟训练”（大量源数据集）中积累了丰富的经验。

2.3 排序模型：如何为当前任务挑选最合适的“经验包”？

预训练产生了一组编码器集合 ${ \phi^{(m)}_1, \phi^{(m)}_2, ..., \phi^{(m)}_S }$，每个都与一个源数据集关联。并非所有“经验包”都对当前目标数据集 $\mathcal{D}$ 有用。我们需要一个机制来推荐最相关的预训练编码器。

我们为每个源数据集 $\mathcal{D}‘_s$ 计算一个元特征向量$x^{meta}_s$，例如数据集的样本数、特征数、类别数、统计特性等。对于目标数据集 $\mathcal{D}$，我们也计算其元特征 $x^{meta}$。

排序模型 $f_{rank}$ 的任务是：给定目标数据集元特征 $x^{meta}$ 和源数据集元特征 $x^{meta}s$，预测如果使用源数据集 $s$ 预训练的编码器集合，在目标数据集 $\mathcal{D}$ 上执行贝叶斯优化，最终能取得的效果好坏（例如，一个得分或排序）。这个模型的训练数据是通过“留一法”在源数据集上模拟生成的：每次将一个源数据集 $\mathcal{D}‘\tau$ 视为伪目标，用其他源数据集预训练的编码器在其上运行一段贝叶斯优化，根据优化效果为每个源编码器打分，从而构成训练样本 $(x^{meta}_\tau, x^{meta}s, Score\tau(s))$。

在实际应用中，我们使用 LightGBMRanker 这类排序学习算法来训练 $f_{rank}$。对于新的目标数据集，计算其与所有源数据集的元特征差异（如绝对差），排序模型会给出推荐分数，我们选择分数最高的源数据集对应的预训练编码器来初始化 $\phi^{(m)}$。

2.4 整体工作流程与贝叶斯优化循环

整合以上组件，整个方法的工作流程形成一个闭环：

离线预训练（一次性的）：在大量源数据集上，为每个机器学习算法预训练其编码器集合 ${ \phi^{(m)}_s }$，并提取源数据集的元特征 ${ x^{meta}_s }$。
在线推荐与适配：
- 给定目标数据集 $\mathcal{D}$，计算其元特征 $x^{meta}$。
- 使用排序模型 $f_{rank}$，基于 $x^{meta}$ 和 ${ x^{meta}s }$ 推荐最优的源索引 $s^*$，并加载对应的预训练编码器 $\phi^{(m)} = \phi^{(m)}{s^*}$。
- （可选）在目标数据集 $\mathcal{D}$ 的少量初始观测数据上，对预训练编码器的最后一层（或全部）进行微调，使其更好地适应新数据。这是通过一个包含重构损失、性能预测损失以及对预训练参数偏差的正则项构成的损失函数来实现的。
贝叶斯优化循环：
- 构建代理模型：在统一的潜在空间 $z$ 上，使用高斯过程（GP）或深度核高斯过程（DKP）构建性能 $Acc$ 的代理模型。
- 定义采集函数：使用期望改进（EI）或上置信界（UCB）等采集函数 $a(z)$，平衡探索（尝试不确定性高的区域）与开发（在预测性能好的区域搜索）。
- 优化采集函数：最大化 $a(z)$ 以获得下一个待评估的潜在点 $z_{next}$。由于 $z = \phi^{(m)}(\lambda^{(m)})$，这需要同时对算法 $m$ 和其超参数 $\lambda^{(m)}$ 进行优化。实践中，可以采用分两步的启发式方法：先对每个算法 $m$，在其超参数空间 $\Lambda^{(m)}$ 中优化 $a(\phi^{(m)}(\lambda^{(m)}))$ 得到候选点；再在所有算法的候选点中选择 $a(z)$ 值最大的一个。
- 评估与更新：将 $z_{next}$ 对应的具体算法和超参数配置 $(A^{(m*)}, \lambda^{(m*)})$ 在目标数据集 $\mathcal{D}$ 上训练并验证，得到真实性能 $Acc_{next}$。将新的观测对 $(z_{next}, Acc_{next})$ 加入观测集，更新代理模型。
- 重复此循环直至评估预算耗尽。

3. 核心细节解析与实操要点

3.1 潜在空间编码器的网络结构设计

编码器 $\phi^{(m)}$ 通常是一个多层感知机。输入层维度等于算法 $A^{(m)}$ 的超参数数量。对于连续超参数，直接输入；对于离散或类别型超参数，需要先进行嵌入或独热编码。网络中间层需要包含非线性激活函数（如ReLU）。输出层维度即为潜在空间维度 $d$。

关键设计选择：

潜在空间维度 $d$：太小会导致信息压缩丢失，太大则增加优化复杂度和过拟合风险。原文通过实验在源数据集上验证，发现 $d=3$ 是一个较好的平衡点。这是一个需要根据算法复杂度和源数据规模进行调整的超参数。
权重共享：不同算法的编码器是否共享部分权重？共享底层权重可以促进跨算法的知识迁移，但可能削弱对算法特有超参数结构的捕捉。原文中每个算法有独立的编码器，但在预训练时通过多任务学习隐式地共享了学习“如何为性能建模而编码”的范式。
与解码器的配合：如果潜在空间需要可解释或需要反向生成超参数，则需要一个解码器网络 $\psi^{(m)}$，与 $\phi^{(m)}$ 构成自编码器。在纯优化场景下，解码器并非必需，因为我们的目标是从 $z$ 找到高性能点，而不是精确重建 $\lambda$。

3.2 预训练阶段的数据准备与损失函数

预训练的质量直接决定潜在空间的有效性。对于每个源数据集 $\mathcal{D}‘_s$ 和每个算法 $A^{(m)}$，我们需要采样 $N‘^{(m)}$ 个超参数配置 ${\lambda_i^{(m)}}$，并在 $\mathcal{D}‘_s$ 上评估得到性能 ${Acc_i}$。采样策略可以是网格采样、随机采样或拉丁超立方采样，以确保覆盖超参数空间。

预训练的损失函数是精髓所在。一个典型的设计如下：

$$\mathcal{L}{pretrain} = \sum{m=1}^{M} \sum_{s=1}^{S} \left[ \underbrace{\left| \psi^{(m)}(\phi^{(m)}(\lambda_i^{(m)})) - \lambda_i^{(m)} \right|^2}{\text{重构损失}} + \alpha \cdot \underbrace{\left| f{perf}( \phi^{(m)}(\lambda_i^{(m)}) ) - Acc_i \right|^2}{\text{性能预测损失}} + \beta \cdot \underbrace{\mathcal{R}(\theta^{(m)})}{\text{正则化项}} \right]$$

重构损失：确保潜在空间 $z$ 保留了足够重建原始超参数的信息，避免信息丢失。
性能预测损失：这是核心。$f_{perf}$ 是一个在潜在空间上训练的性能预测器（如一个小型MLP）。最小化此损失迫使编码器将那些导致相似性能的超参数配置映射到潜在空间中相近的位置，从而在潜在空间中形成一个平滑的性能响应曲面，这正是贝叶斯优化所依赖的。
正则化项：防止过拟合，例如对编码器参数 $\theta^{(m)}$ 的L2正则化。

实操心得：预训练的数据量要足够大。原文使用了161个源数据集，每个算法在每个数据集上采样了数十到数千个配置点（见表5）。对于资源有限的团队，可以优先选择与自身业务领域相关的、多样性高的开源数据集。性能预测损失中的 $f_{perf}$ 可以设计得简单些，比如单层线性层，因为它的主要作用是引导编码器的学习方向，而非做出绝对精确的预测。

3.3 排序模型的特征工程与训练技巧

排序模型 $f_{rank}$ 的输入是元特征。常用的元特征包括：

简单元特征：样本数、特征数、类别数、数值特征占比、缺失值比例等。
统计元特征：目标变量分布（如类别平衡度）、特征间的相关性统计、PCA后的特征值等。
信息论元特征：类别的熵、特征的互信息等。
基于模型的特征：用简单模型（如决策树桩）在数据上快速训练后提取的特征，如模型深度、准确率等。

原文中使用了目标数据集与源数据集元特征的绝对差 $|x^{meta} - x^{meta}_s|$ 作为排序模型的输入。这是一种简单有效的做法，它衡量了数据集之间的“距离”。

训练排序模型的关键在于构建高质量的排序标签 $Score_\tau(s)$。在模拟阶段（留一法），对于伪目标数据集 $\mathcal{D}‘\tau$，使用源数据集 $s$ 的预训练编码器，在 $\mathcal{D}‘\tau$ 上运行有限轮次（如50轮）的贝叶斯优化。最终得到的验证集准确率（或该轮次内的最佳准确率）即可作为 $Score_\tau(s)$。分数越高，表示该源编码器在此伪目标上表现越好。

注意事项：排序模型的评估指标应与最终优化目标一致。如果我们最终关心的是贝叶斯优化曲线下的面积（AUC）或最终排名，那么在构建 $Score_\tau(s)$ 时也应采用类似的指标。使用LightGBMRanker时，要确保训练数据格式符合其要求，即提供分组信息（query group），每组数据（一个伪目标数据集对应的所有源数据集分数）内部进行排序学习。

3.4 目标数据集上的微调策略

加载了推荐的预训练编码器 $\phi^{(m)}_{s^*}$ 后，并非直接冻结使用。我们可以在目标数据集 $\mathcal{D}$ 上收集的少量初始观测数据（例如，对每个算法随机采样2个点）上对其进行微调。

微调的损失函数与预训练类似，但有一个重要区别：增加了一个对预训练参数的偏差正则项。

$$\mathcal{L}{fine-tune} = \sum{m=1}^{M} \sum_{i \in \mathcal{O}{\mathcal{D}}} \left[ \left| \psi^{(m)}(\phi^{(m)}(\lambda_i^{(m)})) - \lambda_i^{(m)} \right|^2 + \alpha \cdot \left| f{perf}( \phi^{(m)}(\lambda_i^{(m)}) ) - Acc_i \right|^2 \right] + \beta \cdot \sum_{m=1}^{M} \left| \theta^{(m)} - \theta^{(m)}_{pretrain} \right|^2$$

其中 $\theta^{(m)}_{pretrain}$ 是预训练编码器的参数，$\theta^{(m)}$ 是微调中的参数。这个正则项 $\beta$ 项至关重要，它防止模型在目标数据有限的观测下过拟合或遗忘预训练中学到的宝贵通用知识，鼓励模型在预训练的基础上进行“微小的适应”，而不是“推倒重来”。原文的消融实验（图6a）证实，带有预训练和微调的方法显著优于没有预训练（即仅在目标数据上训练）的方法。

4. 实操过程与核心环节实现

4.1 环境准备与依赖库

实现该方法需要以下核心Python库：

PyTorch/TensorFlow：用于构建和训练编码器、解码器、性能预测器等神经网络组件。
GPyTorch/GPflow或BoTorch：用于实现高斯过程代理模型和贝叶斯优化循环。BoTorch是基于PyTorch的贝叶斯优化库，与此框架集成较为方便。
scikit-learn：提供基础的机器学习算法实现、数据预处��和元特征计算工具。
LightGBM：用于训练排序模型LGBMRanker。
OpenML：方便地获取大量标准数据集用于预训练和测试。
NumPy, Pandas：标准的数据处理和数值计算库。

一个典型的项目结构如下：

cash_bo_with_pretrain/ ├── data/ │ ├── source_datasets/ # 存放或缓存源数据集信息 │ └── target_datasets/ # 目标数据集 ├── src/ │ ├── models/ │ │ ├── encoder.py # 编码器网络定义 │ │ ├── decoder.py # 解码器网络定义（可选） │ │ └── perf_predictor.py # 性能预测器 │ ├── bayesian_optimization/ │ │ ├── surrogate.py # 高斯过程代理模型 │ │ ├── acquisition.py # 采集函数（EI, UCB） │ │ └── optimizer.py # 采集函数优化器 │ ├── meta_features/ │ │ └── extractor.py # 元特征提取器 │ ├── ranker/ │ │ └── train_ranker.py # 排序模型训练与预测 │ ├── training/ │ │ ├── pretrain.py # 预训练脚本 │ │ └── finetune.py # 微调脚本 │ └── utils/ │ └── data_loader.py ├── configs/ # 配置文件（超参数、路径） ├── scripts/ │ ├── run_pretrain.sh │ ├── run_bo_on_target.sh │ └── evaluate_all.py └── main.py # 主流程控制

4.2 预训练阶段代码实现要点

预训练是计算最密集的阶段，但只需执行一次。以下是核心步骤的伪代码阐述：

import torch import torch.nn as nn from torch.utils.data import DataLoader from src.models.encoder import AlgorithmSpecificEncoder from src.models.perf_predictor import PerformancePredictor from src.utils.data_loader import load_source_dataset, sample_hyperparameters # 1. 初始化 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') M = len(algorithms) # 算法数量 encoders = {m: AlgorithmSpecificEncoder(...).to(device) for m in algorithms} perf_predictor = PerformancePredictor(latent_dim=d).to(device) optimizer = torch.optim.Adam(list(encoders.values()) + list(perf_predictor.parameters()), lr=1e-3) # 2. 遍历源数据集 for source_dataset in source_datasets: X_s, y_s = load_source_dataset(source_dataset) meta_feature_s = extract_meta_features(X_s, y_s) for algorithm_m in algorithms: # 3. 采样超参数并评估性能 hyperparams_list, acc_list = sample_hyperparameters(algorithm_m, X_s, y_s, n_samples=N_prime_m) # 4. 构建训练数据 # 假设 hyperparams_list 是标准化后的张量 for lambda_i, acc_i in zip(hyperparams_list, acc_list): optimizer.zero_grad() # 编码 z_i = encoders[algorithm_m](lambda_i.unsqueeze(0)) # 重构损失 (如果有解码器) lambda_recon = decoders[algorithm_m](z_i) recon_loss = nn.MSELoss()(lambda_recon, lambda_i) # 性能预测损失 acc_pred = perf_predictor(z_i) perf_loss = nn.MSELoss()(acc_pred, torch.tensor([acc_i], device=device)) # 组合损失 total_loss = recon_loss + alpha * perf_loss + beta * regularization(encoders[algorithm_m]) total_loss.backward() optimizer.step() # 5. 保存预训练模型 torch.save({m: encoders[m].state_dict() for m in algorithms}, 'pretrained_encoders.pth')

关键参数：

alpha和beta：平衡损失项权重的超参数。原文通过交叉验证在源数据集上选择，例如alpha=1e-3,beta=1e-4。
N_prime_m：每个算法在每个源数据集上的采样点数。根据算法超参数空间大小而定，复杂算法如梯度提升需要更多点（见表5，GradientBoostingClassifier采样了8750个点），简单算法如逻辑回归可以少一些（50个点）。

4.3 排序模型训练与目标数据集优化流程

排序模型训练完成后，针对目标数据集的优化流程如下：

import lightgbm as lgb import numpy as np from src.bayesian_optimization.optimizer import BayesianOptimizer from src.ranker.train_ranker import RankerModel # 1. 加载目标数据集和预训练模型 target_data = load_target_dataset('my_target.csv') X_target, y_target = preprocess(target_data) x_meta_target = extract_meta_features(X_target, y_target) pretrained_encoders = torch.load('pretrained_encoders.pth') source_meta_features = np.load('source_meta_features.npy') # [S, meta_dim] source_scores = ... # 预计算的各源数据集在留一验证中的得分 # 2. 使用排序模型推荐最佳源 ranker = RankerModel() ranker.load('lgbm_ranker.model') # 计算目标与所有源的元特征差异 diff_features = np.abs(x_meta_target - source_meta_features) # [S, meta_dim] # 预测得分或排序 scores = ranker.predict(diff_features) best_source_idx = np.argmax(scores) print(f"Recommended pre-trained model from source dataset index: {best_source_idx}") # 3. 加载推荐的编码器并微调 encoder_for_target = load_pretrained_encoder(best_source_idx) # 在目标数据上收集初始观测点（例如，每个算法随机2个点） initial_observations = collect_initial_points(algorithms, X_target, y_target) # 微调编码器（仅优化最后一层或全部，带正则化） finetune_encoder(encoder_for_target, initial_observations, beta=1e-4) # 4. 初始化贝叶斯优化器 bo = BayesianOptimizer( algorithms=algorithms, encoder=encoder_for_target, # 使用微调后的编码器 surrogate_model=DeepKernelGP(), # 使用深度核高斯过程 acquisition_func='EI', ) # 5. 贝叶斯优化主循环 max_iterations = 200 for i in range(max_iterations): # 代理模型拟合当前观测数据 (潜在空间z, 性能acc) bo.fit_surrogate() # 优化采集函数，选择下一个 (算法, 超参数) 对 next_algo, next_hp = bo.suggest_next_point() # 在目标数据集上评估 next_acc = evaluate_on_target(next_algo, next_hp, X_target, y_target) # 编码超参数到潜在空间 z_next = encoder_for_target[next_algo](next_hp) # 更新观测集 bo.add_observation(z_next, next_acc) print(f"Iter {i}: Algo={next_algo}, Acc={next_acc:.4f}") # 输出最佳配置 best_config = bo.get_best_observation() print(f"Best found: {best_config}")

采集函数优化细节：优化a(z) = a(\phi^{(m)}(\lambda^{(m)}))需要对每个算法 $m$ 在其条件空间 $\Lambda^{(m)}$ 内进行。原文采用了一种启发式方法（附录A）：

对每个算法 $m$，随机初始化一个超参数配置 $\lambda^{(m)}$。
对 $\lambda^{(m)}$ 的每一维，在其邻域内采样若干点（连续变量用高斯扰动，计数变量用均匀扰动）。
计算这些采样点的采集函数值，选择最好的一个作为该算法的新候选。
重复步骤2-3直到候选点不再改进。
在所有算法的候选点中，选择采集函数值最大的一个作为最终的下一个评估点(next_algo, next_hp)。

5. 常见问题与排查技巧实录

在实际实现和应用该方法时，你可能会遇到以下典型问题：

5.1 预训练效果不佳，潜在空间无法区分好坏配置

现象：在目标数据集上，贝叶斯优化早期进展缓慢，随机性很强，代理模型预测不准。
可能原因与排查：
1. 源数据集与目标数据集分布差异过大：检查元特征。如果目标数据集与所有源数据集在样本数、特征数、类别数等核心元特征上差异巨大，预训练的知识可能迁移性差。考虑扩充源数据集，或引入领域自适应的技术。
2. 性能预测损失权重 $\alpha$ 过小：编码器可能过于专注重构超参数本身，而忽略了其与性能的关联。尝试增大 $\alpha$，或在预训练后期逐渐增加 $\alpha$ 的权重。
3. 潜在空间维度 $d$ 不合适：$d$ 太小会导致信息瓶颈，$d$ 太大会引入噪声且难以优化。进行消��实验，在保留的验证源数据集上，观察不同 $d$ 下性能预测器的 $R^2$ 分数。
4. 采样点 $N‘^{(m)}$ 不足或不具代表性：确保在源数据集上对每个算法的超参数空间进行了充分、均匀的探索。对于连续参数，使用拉丁超立方采样比随机采样覆盖更好。

5.2 排序模型推荐不准，选择了次优的预训练编码器

现象：自动推荐的预训练模型在目标数据集上表现反而不如随机选一个，或者不如不使用预训练（从头训练）。
可能原因与排查：
1. 元特征缺乏区分度：使用的元特征过于简单，无法捕捉数据集之间在“何种算法有效”这一层面的相似性。尝试引入更复杂的、基于模型性能的元特征，例如在数据子集上用默认参数的简单分类器（如决策树、线性模型）的交叉验证性能。
2. 排序标签 $Score_\tau(s)$ 噪声过大：在留一法模拟中，用于生成 $Score_\tau(s)$ 的贝叶斯优化轮次可能太少，导致评估不稳定。增加模拟优化的轮次（如从50轮增加到100轮），或使用多次运行的平均分作为 $Score_\tau(s)$。
3. 排序模型过拟合：源数据集数量（S）可能有限，而元特征维度较高。尝试对元特征进行降维（如PCA），或对排序模型（如LightGBM）使用更强的正则化（lambda_l1,lambda_l2,min_data_in_leaf）。

5.3 贝叶斯优化在潜在空间上收敛慢或陷入局部最优

现象：优化曲线在几十轮后提升缓慢，早早就停滞了。
可能原因与排查：
1. 采集函数平衡问题：检查采集函数（如EI）中的权衡参数 $\xi$。$\xi$ 过小会导致过于贪婪（开发），陷入局部最优；$\xi$ 过大会导致过度探索，收敛慢。可以动态调整 $\xi$，初期大一些鼓励探索，后期减小加强开发。
2. 代理模型拟合问题：高斯过程的核函数选择不当。在深度核学习中，基础核（如RBF）与深度网络的组合可能难以训练。确保深度核网络的训练充分，监控训练损失。也可以尝试更稳健的代理模型，如随机森林（SMAC所用）。
3. 微调过程破坏了预训练知识：正则化系数 $\beta$ 太小，导致在目标数据有限的初始观测下，编码器参数变化太大，丢失了预训练中学到的平滑性。尝试增大 $\beta$，或者仅微调编码器的最后几层，冻结前面层的参数。
4. 初始点策略：初始观测点（每个算法随机2个点）可能恰好都落在性能很差的区域，给代理模型提供了有偏的初始信息。可以考虑使用基于预训练知识的初始化，例如从预训练数据中，选择在元特征最相似的源数据集上表现最好的几个配置作为初始点。

5.4 计算开销与效率问题

现象：整体流程耗时过长，无法满足实际应用对快速调参的需求。
优化策略：
1. 预训练阶段并行化：不同源数据集、不同算法的采样和评估是完全独立的，可以大规模并行。
2. 编码器网络轻量化：编码器不必很深，2-3层隐藏层通常足够。潜在空间维度 $d$ 也无需太大，原文实验表明3维效果就不错。
3. 排序模型缓存：排序模型预测开销极小，可以忽略。预训练编码器的加载和微调也很快。
4. 贝叶斯优化迭代中的加速：代理模型（高斯过程）的推断复杂度随观测点数量 $O(n^3)$ 增长。当观测点超过几百个时，考虑使用稀疏高斯过程近似或随机森林代理模型。采集函数的优化（在多个算法空间搜索）是主要耗时点，可以设置合理的迭代上限和采样数。
5. 早停机制：在优化循环中，如果连续多轮（如20轮）最佳性能没有显著提升（如相对提升小于0.1%），可以提前终止。

最后，这套方法的优势在于它将耗时的知识学习过程（预训练）前置并复用，在面对新任务时，只需一个快速的推荐和轻量的微调，就能启动一个高度智能化的贝叶斯优化搜索。这特别适合在拥有大量历史调优数据的企业或平台中部署，能够显著降低新项目启动时的算法选择与调参门槛。在实际操作中，建议从一个较小的、但具有代表性的算法集合（如SVM、RF、GBDT、MLP）和源数据集集合开始，验证整个流程的可行性，再逐步扩展。

查看全文

http://www.jsqmd.com/news/877119/