当前位置：首页 > news >正文

基于进化算法的AutoML优化小分子药代动力学性质预测

news 2026/7/19 6:58:56

1. 项目概述与核心价值

在药物研发的漫长且昂贵的征途中，早期筛选环节就像是淘金，目标是从海量的小分子化合物中，快速、准确地识别出那些有潜力成为药物的“金子”。其中，药代动力学（Pharmacokinetics， PK）性质的预测至关重要，它决定了药物在体内的“命运”：能否被有效吸收（Absorption）、如何分布（Distribution）、怎样被代谢（Metabolism）以及最终如何被排泄（Excretion），合称ADME。一个分子结构再精巧，如果口服后无法穿过肠道屏障，或者进入体内五分钟就被肝脏分解殆尽，那它也注定无法成药。因此，在实验室合成和动物实验之前，通过计算模型预测PK性质，能极大地节省成本、缩短周期，并提高成功率。

传统的预测方法主要依赖定量构效关系（QSAR）模型或一些表现优异的单一机器学习算法，如XGBoost。这些方法虽然有效，但存在明显的天花板：首先，分子表征（即如何用数字描述一个分子）方式繁多，从简单的分子描述符到复杂的图神经网络指纹，不同表征对不同PK端点（如渗透性、代谢酶抑制）的预测能力差异巨大，人工选择如同大海捞针。其次，构建一个完整的预测流水线（Pipeline）涉及数据预处理、特征缩放、特征选择、算法选择及超参数调优等多个步骤，组合爆炸使得手动优化几乎不可能找到全局最优解。最后，依赖专家经验手动试错，不仅效率低下，而且结果难以复现和超越。

这正是自动化机器学习（AutoML）大显身手的舞台。AutoML的核心思想是将机器学习应用中的重复性、决策性工作自动化，让算法自己去寻找针对特定数据集和任务的最优解决方案。而我们这次探讨的，是一种将进化算法，特别是语法引导的遗传编程（Grammar-based Genetic Programming， GGP），与AutoML深度结合的方法，用于攻克小分子PK预测这一难题。简单来说，我们不是手动设计一个模型，而是设计一套“语法规则”来定义所有可能的模型组件（表征、处理、算法）及其组合方式，然后让进化算法像自然界优胜劣汰一样，自动地“进化”出性能最优的机器学习流水线。

从提供的性能对比数据（表4）来看，这套基于进化算法的AutoML方法在12个不同的PK性质预测任务上，其平均马修斯相关系数（MCC）达到了0.516，优于传统方法pkCSM（0.456）和直接使用XGBoost（0.497）。更重要的是，AutoML在单次运行中搜索到的最佳流水线（Best AutoML-Selected）平均MCC高达0.530，排名第一（平均排名1.417）。这有力地证明了，通过自动化搜索和组合，我们不仅能达到甚至能超越精心挑选的单一强基准模型，为药物化学家和计算生物学家提供了一个更强大、更省心的预测工具。接下来，我将深入拆解这套方法的设计思路、实现细节以及在实际操作中的心得体会。

2. 核心设计思路与架构拆解

这套基于进化算法的AutoML系统，其设计哲学可以概括为“定义空间，放任进化”。它不像一些基于贝叶斯优化的AutoML工具（如Auto-sklearn）那样专注于超参数微调，而是将整个机器学习流水线视为一个可演化的程序个体，从更宏观的层面进行结构创新。整个架构围绕四个核心模块展开，并通过一种灵活的“语法”将它们编织在一起。

2.1 四层流水线架构解析

首先，我们需要理解一个完整的PK预测流水线包含哪些关键环节。该方法将其抽象为四个顺序执行的层，这构成了AutoML搜索的基本骨架：

分子表征层（Molecular Representation）：这是将化学结构转化为机器学习可理解数字特征的第一步，也是决定模型性能上限的关键。搜索空间可能包含多种描述符，例如：
- 物理化学描述符：分子量、脂水分配系数（LogP）、可旋转键数等，直接反映分子的物理性质。
- 指纹（Fingerprints）：如ECFP（扩展连通性指纹）、MACCS密钥等，通过哈希算法将子结构信息编码为固定长度的比特向量，擅长捕捉功能团信息。
- 基于图的表征：将分子视为图（原子为节点，化学键为边），使用图神经网络（GNN）学习得到的嵌入向量，能更全面地保留拓扑结构信息。
- 组合表征：将上述多种描述符拼接（Concatenate）在一起，形成更丰富的特征向量。原文结果也指出，组合表征通常更具优势，但最优组合因任务而异。
数据缩放层（Scaling）：许多机器学习算法（如SVM、神经网络）对输入特征的尺度敏感。这一层可选，用于对特征进行标准化（StandardScaler）或归一化（MinMaxScaler）。但值得注意的是，在基于树的算法（如随机森林、XGBoost）占主导的搜索中，这一层经常被跳过，因为树模型对特征尺度不敏感。这正体现了AutoML的价值——它能自动识别并省略不必要的步骤。
特征选择层（Feature Selection）：高维特征（尤其是组合表征后）可能包含冗余或噪声。此层旨在筛选出最相关的特征子集，提升模型效率和泛化能力。搜索空间包含多种统计检验方法，如：
- SelectFwe：控制族系误差率，较为严格。
- SelectFDR：控制错误发现率，在生物信息学中常用。
- VarianceThreshold：移除方差过低的特征（即几乎无变化的特征）。
- 不进行特征选择：当特征维度本身不高或所有特征都可能包含信息时，这也是一个合理选项。
机器学习建模层（ML Modelling）：最终进行分类或回归预测的算法。搜索空间主要集中在集成树模型上，因为它们在表格数据上通常表现稳健且强大，包括：梯度提升（Gradient Boosting）、随机森林（Random Forest）、极端随机树（Extremely Randomized Trees）、XGBoost和自适应提升（AdaBoost）等。

注意：为什么搜索空间以树模型为主？首先，PK预测数据通常是结构化表格数据，树模型对此类数据拟合能力极强。其次，树模型对数据缩放不敏感，这简化了流水线设计，让进化算法可以更专注于表征和特征选择。最后，树模型训练和预测速度相对较快，有利于在有限的进化代数内进行大量评估。

2.2 语法引导的遗传编程（GGP）作为搜索引擎

定义了“做什么”（四层流水线），接下来是关键“怎么做”——如何自动化地组装和优化这个流水线。这里采用了语法引导的遗传编程。

什么是遗传编程（GP）？传统遗传算法优化的是参数向量，而遗传编程优化的是计算机程序（在这里就是流水线）。每个个体（程序）通过交叉、变异等操作产生后代，并根据其适应度（预测性能）进行选择。
“语法引导”意味着什么？为了避免进化出语法无效、无法执行的“畸形”程序，我们使用上下文无关文法（Context-Free Grammar）来定义所有合法流水线的生成规则。这就像给进化过程设定了一套建筑规范。语法规则会明确规定：流水线必须以“表征”开始，后接可选的“缩放”，然后是“特征选择”，最后是“建模”。每一层内部，语法会列出所有可选的组件（如表征 -> ECFP | 物理化学描述符 | 组合(ECFP，物理化学描述符)）。

搜索过程简述：

初始化：根据语法随机生成一批初始流水线个体。
评估：在训练集上运行每个流水线，使用交叉验证计算其性能指标（如MCC），作为该个体的适应度。
选择：根据适应度，选择表现优异的个体作为“父母”。
进化：对选中的父母个体进行交叉（交换流水线中的某些组件）和变异（随机替换某个组件为语法允许的其他选项），产生“子代”。
迭代：将子代与部分父代合并，形成新一代种群，重复步骤2-4，直至达到预设的进化代数或收敛条件。

这种方法的优势在于其强大的探索能力。它不仅能调整超参数，更能改变流水线的拓扑结构（例如，决定是否加入特征选择，或者选择哪种表征组合），这是传统网格搜索或贝叶斯优化难以做到的。

2.3 性能评估与对比基准

为了公正地评估AutoML的效果，研究设定了严格的对比实验：

评估指标：采用马修斯相关系数（MCC）。MCC是用于二分类任务的平衡性指标，尤其在正负样本不均衡时（这在生物数据中很常见），比准确率或F1分数更可靠。其值范围在-1到1之间，1表示完美预测，0表示随机预测。
对比方法：
- pkCSM：一个基于图签名（Graph-based Signatures）的专门用于预测小分子PK/毒性性质的权威在线工具，代表了领域内传统计算方法的较高水平。
- XGBoost：直接使用强大的XGBoost算法，配合常用的分子指纹（如ECFP4）作为输入，代表了“手工设计+强算法”的基线。
实验设置：在12个不同的PK性质数据集上（如Caco-2细胞渗透性、CYP450酶抑制等），对AutoML方法进行20次独立运行（以消除随机性），并在独立的盲测集（Blind Test Set）上报告性能。最终比较平均MCC和平均排名。

这种对比设计非常扎实，既挑战了领域专用工具，也挑战了通用的强机器学习模型，充分检验了AutoML方法的泛化能力和稳健性。

3. 实操流程与核心环节实现

理解了设计思路后，我们来看如何具体实现这样一个基于进化算法的AutoML系统。这里我将结合常用的开源工具（如TPOT、scikit-learn）和自定义代码，勾勒出一个可操作的实现框架。请注意，以下流程是对原文方法的工程化实现和扩展。

3.1 环境准备与数据预处理

1. 工具栈选择：

核心机器学习库：scikit-learn(sklearn)，提供了几乎所有的预处理、特征选择和机器学习算法组件。
进化AutoML框架：虽然完全自定义GGP是可行的，但我们可以基于TPOT（Tree-based Pipeline Optimization Tool）进行二次开发。TPOT本身就是一个使用遗传编程优化机器学习流水线的AutoML库，其底层与我们的思路高度契合。
化学信息学工具：RDKit，一个功能强大的化学信息学开源工具包，用于计算分子描述符和指纹。
计算框架：Python 3.8+，pandas用于数据处理，numpy用于数值计算。

2. 数据准备： PK预测数据通常来自公共数据库（如ChEMBL）或内部实验。一个样本数据框（DataFrame）应至少包含两列：SMILES（分子的字符串表示）和Target（PK性质标签，如0/1表示是否具有高渗透性）。

import pandas as pd from rdkit import Chem from rdkit.Chem import Descriptors, AllChem # 假设有一个CSV文件 data = pd.read_csv('pk_data.csv') smiles_list = data['SMILES'].tolist() y = data['Target'].values # 使用RDKit创建分子对象 mols = [Chem.MolFromSmiles(s) for s in smiles_list]

3.2 定义自定义的分子表征搜索空间

TPOT默认处理数值特征，我们需要扩展其能力，使其能“进化”出不同的分子表征方法。这需要通过自定义Transformer来实现。

from sklearn.base import BaseEstimator, TransformerMixin import numpy as np class MolecularDescriptorTransformer(BaseEstimator, TransformerMixin): """生成物理化学描述符""" def __init__(self, descriptor_list=['MolWt', 'LogP', 'NumHDonors', 'NumHAcceptors']): self.descriptor_list = descriptor_list self.descriptor_funcs = {'MolWt': Descriptors.MolWt, 'LogP': Descriptors.MolLogP, # ... 添加更多描述符函数 } def fit(self, X, y=None): # 不需要拟合 return self def transform(self, X, y=None): # X 是 RDKit 分子对象列表 features = [] for mol in X: row = [self.descriptor_funcs[name](mol) for name in self.descriptor_list] features.append(row) return np.array(features) class ECFPFingerprintTransformer(BaseEstimator, TransformerMixin): """生成ECFP指纹""" def __init__(self, radius=2, nBits=2048): self.radius = radius self.nBits = nBits def fit(self, X, y=None): return self def transform(self, X, y=None): features = [] for mol in X: fp = AllChem.GetMorganFingerprintAsBitVect(mol, self.radius, nBits=self.nBits) features.append(list(fp)) return np.array(features) class CombinedRepresentationTransformer(BaseEstimator, TransformerMixin): """组合多种表征（例如，描述符+指纹）""" def __init__(self, transformers): self.transformers = transformers def fit(self, X, y=None): for transformer in self.transformers: transformer.fit(X, y) return self def transform(self, X, y=None): transformed = [transformer.transform(X) for transformer in self.transformers] # 水平拼接特征 return np.hstack(transformed)

3.3 配置TPOT进行语法式进化搜索

接下来，我们需要配置TPOT，使其搜索空间包含我们自定义的表征器，并遵循大致的四层流水线结构。TPOT通过config_dict参数来定义搜索空间。

from tpot import TPOTClassifier from sklearn.preprocessing import StandardScaler, MinMaxScaler from sklearn.feature_selection import SelectFwe, SelectFdr, VarianceThreshold, SelectPercentile, f_classif from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, ExtraTreesClassifier, AdaBoostClassifier from xgboost import XGBClassifier # 假设我们已经将自定义Transformer导入 # 定义自定义的搜索空间配置 custom_config = { # 分子表征层 'representation': { 'descriptor_transformer': [MolecularDescriptorTransformer()], 'ecfp_transformer': [ECFPFingerprintTransformer()], 'combined_rep': [CombinedRepresentationTransformer([MolecularDescriptorTransformer(), ECFPFingerprintTransformer()])] }, # 数据缩放层 (可选) 'sklearn.preprocessing': { 'StandardScaler': {StandardScaler()}, 'MinMaxScaler': {MinMaxScaler()}, # 也可以包含一个“None”选项，表示不缩放 'passthrough': ['passthrough'] }, # 特征选择层 (可选) 'sklearn.feature_selection': { 'SelectFwe': {SelectFwe(score_func=f_classif)}, 'SelectFdr': {SelectFdr(score_func=f_classif)}, 'VarianceThreshold': {VarianceThreshold()}, 'SelectPercentile': {SelectPercentile(score_func=f_classif)}, 'passthrough': ['passthrough'] }, # 机器学习建模层 'sklearn.ensemble': { 'RandomForestClassifier': RandomForestClassifier(), 'GradientBoostingClassifier': GradientBoostingClassifier(), 'ExtraTreesClassifier': ExtraTreesClassifier(), 'AdaBoostClassifier': AdaBoostClassifier() }, 'xgboost.XGBClassifier': { 'XGBClassifier': XGBClassifier(use_label_encoder=False, eval_metric='logloss') } } # 由于TPOT原生不支持这种分层的、自定义的配置字典，我们需要一个包装器或修改其内部机制。 # 更实际的做法是，我们预先计算多种表征，作为不同的特征集输入给TPOT。 # 这里展示一种简化但有效的策略：并行进化多个流水线，每个流水线从一种预设的特征集开始。 # 策略：为每种表征方式单独运行TPOT representations = { 'Descriptors': descriptor_features, # 预先计算好的描述符矩阵 'ECFP': ecfp_features, 'Combined': combined_features } best_pipelines = {} for rep_name, X_features in representations.items(): print(f"正在为 {rep_name} 表征搜索最优流水线...") # 配置一个相对标准的TPOT，搜索缩放、特征选择和模型 tpot = TPOTClassifier(generations=10, population_size=20, cv=5, random_state=42, verbosity=2, config_dict='TPOT light') tpot.fit(X_features, y) best_pipelines[rep_name] = tpot.fitted_pipeline_ print(f"{rep_name} 最佳流水线 MCC (在训练CV上): {tpot.score(X_features, y)}") tpot.export(f'best_pipeline_{rep_name}.py')

实操心得：完全复现原文的语法引导搜索需要较深的框架修改能力。上述“分而治之”的策略虽然不能实现表征层的完全自动化组合，但在工程上更简单可靠。我们可以并行运行多个TPOT实例，每个实例针对一种特征输入（描述符、指纹或组合），让TPOT去优化后续的缩放、特征选择和模型。最后，我们在验证集上比较这几个“代表队”的性能，选择最优者。这实际上模拟了一个两阶段搜索：先人工或规则选择表征，再自动优化后续流程，依然能获得大部分收益。

3.4 模型评估与最终流水线导出

在所有进化搜索完成后，需要在独立的测试集上评估最终选出的最佳流水线。

# 假设我们有预留的测试集 X_test_smiles = test_data['SMILES'].tolist() y_test = test_data['Target'].values # 为测试集计算相同的特征 X_test_descriptors = descriptor_transformer.transform([Chem.MolFromSmiles(s) for s in X_test_smiles]) X_test_ecfp = ecfp_transformer.transform([Chem.MolFromSmiles(s) for s in X_test_smiles]) X_test_combined = np.hstack([X_test_descriptors, X_test_ecfp]) # 评估每个表征下的最佳流水线 from sklearn.metrics import matthews_corrcoef for rep_name, pipeline in best_pipelines.items(): if rep_name == 'Descriptors': X_test = X_test_descriptors elif rep_name == 'ECFP': X_test = X_test_ecfp else: X_test = X_test_combined y_pred = pipeline.predict(X_test) mcc = matthews_corrcoef(y_test, y_pred) print(f"{rep_name} 流水线在测试集上的 MCC: {mcc:.3f}") # 选择测试集上MCC最高的流水线作为最终模型 final_rep_name = max(best_pipelines.keys(), key=lambda k: mcc_score[k]) # 假设mcc_score是上面计算存储的字典 final_pipeline = best_pipelines[final_rep_name] print(f"\n最终选择的流水线基于表征: {final_rep_name}") print(f"流水线结构: {final_pipeline}")

最终，TPOT可以导出一个完整的Python脚本文件（best_pipeline_combined.py），里面包含了从特征预处理到模型训练的所有代码，可以直接用于部署和对新分子进行预测。这个脚本就是我们的“进化结晶”。

4. 结果深度分析与经验解读

回到原文提供的性能表格，我们可以从中挖掘出许多超越数字本身的洞见，这些对于指导我们实际应用AutoML至关重要。

4.1 性能对比的深层含义

表4的数据清晰地显示，AutoML方法搜索到的最佳流水线（Best AutoML-Selected）在12个数据集上的平均排名（1.417）显著优于其他方法。这意味着，在大多数任务上，进化算法都能找到比固定方法（pkCSM或单一XGBoost）更优的解决方案。

对基准模型的超越：平均MCC 0.530 vs. XGBoost的0.497和pkCSM的0.456。这验证了自动化流水线搜索的价值——它通过优化“特征工程+模型”的整体组合，释放了额外的性能潜力。XGBoost本身很强，但给它喂不同的“食物”（特征），它的表现会天差地别。AutoML做的就是找到最适合它的“食谱”。
结果的波动性：观察“Proposed AutoML Method”（我理解为多次运行的平均性能）和“Best AutoML-Selected”（多次运行中最好的那一次）两列，可以发现存在差距（0.516 vs 0.530）。这揭示了进化算法固有的随机性。一次运行的结果可能不是全局最优，因此在实际研究中，进行多次独立运行并保留最佳模型是标准操作。这也提示我们，在比较AutoML工具时，不能只看单次结果，而要看其稳定找到优解的能力。
任务特异性：不同PK端点（数据集）上，各方法的优劣顺序并非一成不变。例如，在“Skin Perm.”（皮肤渗透性）预测上，AutoML最佳流水线（0.394）甚至略低于XGBoost（0.368）的基准？等等，这里需要仔细看：AutoML最佳是0.394，XGBoost是0.368，AutoML仍领先。而在“CYP3A4 Substrate”数据集上，XGBoost（0.440）表现最好。这说明没有放之四海而皆准的“银弹”模型。AutoML的优势在于它能针对每个具体任务进行定制化搜索，从而在大多数任务上取得综合最佳表现。

4.2 AutoML选择偏好带来的启示

原文分析了进化算法在搜索过程中表现出的组件选择偏好，这些发现极具实践指导意义：

特征缩放常被省略：在树模型主导的搜索空间中，超过一半的优选流水线没有包含特征缩放步骤。这印证了我们的先验知识：基于树的算法对特征尺度不敏感。这给我们一个重要的工程优化提示：当确定使用树模型时，可以优先关闭缩放步骤的搜索，以节省计算资源，加快进化速度。
特征选择被频繁使用但非必需：SelectFwe、VarianceThreshold等方法被广泛选择，但同时“不进行特征选择”也占了约17.9%的比例。这表明：
- 当初始特征维度很高（例如组合了多种指纹和描述符）时，特征选择至关重要，能有效防止过拟合、提升速度。
- 当特征维度本身较低或信息密度很高时，强行降维可能会损失信息，此时保留所有特征是更好的选择。
- AutoML的价值在于它能自动做出这个判断，而无需我们凭经验猜测。
复杂集成模型占主导：梯度提升（42.5%）、随机森林（20%）、极端随机树（17.5%）和XGBoost（15.4%）几乎包揽了所有选择，简单的决策树从未被选中。这强烈表明，对于PK预测这类复杂、噪声可能存在的生物数据，更强大、抗过拟合能力更强的集成学习模型是更可靠的选择。进化算法通过性能反馈，自然地收敛到了这些更先进的模型上。

4.3 实操中的关键考量与调优建议

基于上述分析和我的项目经验，在具体实施此类项目时，有几个关键点需要特别注意：

计算成本与效率的权衡：进化算法需要评估大量候选流水线（种群大小 × 世代数），每次评估都需要进行交叉验证，计算开销巨大。对于大规模数据集或复杂表征（如GNN），这可能成为瓶颈。
- 建议：从小种群、少世代开始实验，快速验证想法。利用并行计算（TPOT支持）加速进化过程。考虑使用性能预测模型（Surrogate Model）来近似评估流水线，减少真实模型训练次数。
搜索空间的精心设计：搜索空间的大小和质量直接决定最终效果的上限和搜索效率。
- 建议：不要盲目添加所有可能的算法。基于领域知识进行初筛。例如，在PK预测中，可以优先纳入树模型和线性模型，暂时排除对数据分布假设较强的模型（如朴素贝叶斯）。对于分子表征，可以纳入几种公认有效的指纹和描述符集。
过拟合风险：AutoML在训练集和验证集上疯狂搜索，有可能找到在特定数据分割下“运气好”的流水线，而在未知测试集上泛化不佳。
- 建议：使用嵌套交叉验证（Nested Cross-Validation）来更稳健地评估AutoML流程。即，在外层循环划分训练/测试集，在内层循环中对训练集进行AutoML搜索和验证。确保测试集在搜索过程中完全不可见。
结果的可解释性：进化出的最佳流水线可能是一个复杂的组合（例如“ECFP指纹 -> SelectFwe -> 梯度提升”）。虽然性能好，但我们需要理解为什么这个组合有效。
- 建议：对最终模型进行事后解释分析。使用特征重要性分析（对于树模型）、SHAP值等工具，理解是哪些分子子结构或物理化学性质对预测贡献最大。这不仅能验证模型的合理性，还能为药物化学家提供可操作的洞见，指导分子设计。

5. 常见问题与排查技巧实录

在实际操作基于进化算法的AutoML项目时，你几乎一定会遇到下面这些问题。这里我把自己踩过的坑和解决方案总结出来，希望能帮你节省大量时间。

5.1 进化过程缓慢，迟迟没有收敛

问题现象：程序运行了很久，但每一代的最佳适应度提升缓慢，或者来回震荡。
排查思路与解决：
1. 检查种群多样性与早熟：查看进化日志，如果早期几代后就出现了适应度极高的个体，并迅速统治种群，可能导致早熟收敛，陷入局部最优。可以增加变异率（mutation rate），或者引入小生境技术（Nicheng）来维持种群多样性，让算法有更多探索空间。
2. 评估开销过大：每个流水线都用5折或10折交叉验证评估，成本太高。可以先使用3折交叉验证或简单的Hold-out验证进行快速搜索，在找到潜力较大的区域后，再用更严格的验证方式对Top-K的候选进行精细评估。
3. 搜索空间过大或无效区域多：如果语法定义允许产生大量无效或性能极差的流水线（例如，为树模型搭配了不必要的复杂缩放），进化过程会浪费大量时间在评估“垃圾”个体上。精简和优化搜索空间，利用领域知识排除明显不合理的组合。
4. 并行化设置：确保充分利用了多核CPU。在TPOT中设置n_jobs=-1来使用所有核心。

5.2 最终模型在测试集上表现远低于验证集

问题现象：AutoML搜索得到的最佳流水线在交叉验证中MCC很高（例如0.85），但在完全独立的测试集上暴跌（例如0.60）。
排查思路与解决：
1. 数据泄露（Data Leakage）：这是最可能的原因。检查在特征工程阶段（尤其是分子表征计算）是否无意中使用了全局统计信息（如整个数据集的均值、方差进行缩放）。必须确保所有预处理步骤（如缩放、特征选择）都只在训练集上拟合（fit），然后应用到训练集和测试集上（transform）。在使用TPOT时，它内部会处理好流水线内的数据流转，但如果你自己拼接了特征再输入，就需要格外小心。
2. 验证集与测试集分布不一致：如果数据划分不是随机的（例如按时间划分、按分子骨架划分），可能导致验证集和测试集来自不同分布。对于药物数据，更推荐基于分子骨架（Scaffold）的划分方式，这能更好地模拟现实中发现新结构分子时的预测场景。TPOT默认支持随机划分，对于骨架划分需要自定义交叉验证迭代器。
3. 过拟合搜索过程：AutoML在有限的验证集上进行了大量搜索，可能偶然找到了一个特别适配该验证集分割的流水线。使用嵌套交叉验证是评估AutoML流程泛化能力的金标准。或者，进行多次不同随机种子的AutoML运行，取在验证集上表现稳定且优异的模型。

5.3 进化出的最佳流水线过于复杂

问题现象：最好的模型是一个十几层的“巨无霸”流水线，包含了多次特征选择、复杂的多项式特征扩展等，虽然验证集分数高零点几个百分点，但部署和解释成本剧增。
排查思路与解决：
1. 引入多目标优化：目前的搜索只优化了预测性能（如MCC）。我们可以修改适应度函数，同时优化流水线的复杂度（如管道中的操作步骤数、总训练时间）。这样，进化算法会在性能和简洁性之间寻找帕累托最优解。可以使用像NSGA-II这样的多目标进化算法。
2. 后剪枝（Post-hoc Pruning）：先让AutoML自由搜索得到一个高性能但复杂的流水线，然后手动或自动地尝试移除其中某些组件（例如，移除特征选择层，或者用更简单的模型替换复杂模型），观察性能下降是否在可接受范围内。通常能找到几乎同等性能但简单得多的替代方案。
3. 在搜索空间中限制复杂度：在定义语法时，直接限制流水线的最大深度或某些组件的最大使用次数。

5.4 如何处理类别不平衡的PK数据？

问题背景：许多PK性质（如是否为CYP3A4抑制剂）的数据集中，正负样本比例可能严重失衡（例如1:9）。这会导致模型倾向于预测多数类，MCC值很低。
解决策略：
1. 在评估指标层面：这正是使用MCC而不是准确率的主要原因。MCC对类别不平衡不敏感。确保你的AutoML以MCC作为优化目标。
2. 在数据层面：可以在进化搜索的交叉验证内部，使用过采样（如SMOTE）或欠采样技术。但要注意，采样策略本身也应作为搜索空间的一部分（如果使用imbalanced-learn库，可以将其集成到自定义Transformer中），或者固定使用一种经过验证有效的采样方法。
3. 在算法层面：许多分类算法（如RandomForestClassifier,XGBClassifier）都支持class_weight参数，可以设置为‘balanced’来自动调整类别权重。确保这些带权重的模型变体包含在你的搜索空间中。

5.5 自定义Transformer与TPOT集成的调试问题

问题现象：自己编写的分子表征Transformer在单独使用时工作正常，但集成到TPOT配置中后报错，提示特征维度不匹配或数据类型错误。
排查技巧：
1. 确保Transformer接口一致性：严格遵循scikit-learn的Transformer接口（fit,transform,fit_transform）。fit方法即使不执行任何操作，也必须返回self。transform方法必须返回一个numpy数组。
2. 检查输入输出：在自定义Transformer的transform方法中打印输入X的形状和类型，以及输出数组的形状。确保在流水线中，上一个组件的输出能被下一个组件接受。例如，你的分子表征Transformer输出的是数值矩阵，那么后续的StandardScaler才能正常工作。
3. 使用TPOT的verbosity=3：获取最详细的日志，看错误具体发生在流水线的哪个环节。
4. 简化测试：先构建一个最小的、仅包含你的自定义Transformer和一个简单模型的流水线，在TPOT外使用sklearn.pipeline.Pipeline测试是否能正常fit和predict。确保基础功能无误后，再放入TPOT的复杂搜索中。

最后，我想分享一点个人体会：基于进化算法的AutoML在药物发现领域，特别是像PK预测这样的复杂任务上，展现出的是一种“授人以渔”的能力。它不仅仅是一个调参工具，更是一个流水线架构师。它把我们从繁琐的“试错-对比”循环中解放出来，让我们能更专注于定义问题、准备高质量的数据以及解读最终模型产生的生物学洞见。虽然初始设置和计算资源要求较高，但一旦流程跑通，它就能持续、稳定地为新的预测任务输出接近最优的解决方案，这种可扩展性和自动化能力，对于加速药物研发进程具有长远的价值。当然，它不能替代领域专家的知识，专家的作用前移到了更关键的环节：设计有意义的搜索空间，以及理解和信任AI进化出的“黑箱”模型。

查看全文

http://www.jsqmd.com/news/875090/