当前位置：首页 > news >正文

用Rdkit和Python搞定化学分子溶解度预测：从SMILES到机器学习模型实战

news 2026/6/16 16:35:20

用Rdkit和Python构建化学分子溶解度预测实战指南

在药物研发和材料科学领域，准确预测化学分子的溶解度是至关重要的环节。传统实验测定方法耗时耗力，而基于机器学习的预测模型为研究人员提供了高效的计算工具。本文将手把手带您实现从SMILES字符串到完整预测模型的构建过程，特别适合具有Python基础的化学研究者快速上手。

1. 环境准备与数据获取

首先需要配置Python科学计算环境。推荐使用Anaconda创建独立环境：

conda create -n solubility python=3.8 conda activate solubility conda install -c rdkit rdkit scikit-learn pandas matplotlib seaborn jupyter

溶解度数据集可从多个公开资源获取：

AqSolDB（水溶解度数据库）
ESOL（Delaney经典数据集）
自建实验数据

典型数据格式应包含两列：

SMILES字符串（分子结构表示）
实验测定的logS值（溶解度对数）

import pandas as pd data = pd.read_csv('solubility_data.csv') print(data.head())

2. SMILES到分子描述符的转换

Rdkit的核心价值在于将化学结构转化为机器学习可用的数值特征。以下是关键转换步骤：

from rdkit import Chem from rdkit.Chem import Descriptors def smiles_to_features(smiles): mol = Chem.MolFromSmiles(smiles) if mol is None: # 无效SMILES处理 return None # 计算基础描述符 mw = Descriptors.MolWt(mol) logp = Descriptors.MolLogP(mol) h_bond_donor = Descriptors.NumHDonors(mol) # 高级描述符计算 topological_surface = Descriptors.TPSA(mol) rotatable_bonds = Descriptors.NumRotatableBonds(mol) return [mw, logp, h_bond_donor, topological_surface, rotatable_bonds]

常用分子描述符类型对比：

描述符类别	示例	物理意义
物化性质	分子量	分子大小指标
拓扑结构	键数量	分子复杂度
电子特性	极化率	电子分布特征
表面特性	TPSA	极性表面积

提示：描述符选择应基于化学直觉和特征重要性分析，避免维度灾难

3. 特征工程与数据预处理

原始描述符通常需要进一步处理才能用于建模：

from sklearn.preprocessing import StandardScaler from sklearn.feature_selection import SelectKBest, f_regression # 特征标准化 scaler = StandardScaler() scaled_features = scaler.fit_transform(features) # 特征选择 selector = SelectKBest(score_func=f_regression, k=10) selected_features = selector.fit_transform(scaled_features, targets) # 检查特征重要性 feature_scores = pd.DataFrame({ 'Feature': feature_names, 'Score': selector.scores_ }).sort_values('Score', ascending=False)

常见数据问题及处理方法：

无效SMILES：过滤或人工校正
溶解度单位：统一转换为logS
离群值：3σ原则或箱线图识别
数据不平衡：过采样或加权损失函数

4. 机器学习模型构建与优化

我们对比几种典型算法的预测效果：

from sklearn.ensemble import RandomForestRegressor from sklearn.svm import SVR from xgboost import XGBRegressor from sklearn.model_selection import cross_val_score models = { 'RandomForest': RandomForestRegressor(n_estimators=100), 'SVR': SVR(kernel='rbf'), 'XGBoost': XGBRegressor() } for name, model in models.items(): scores = cross_val_score(model, X_train, y_train, cv=5, scoring='r2') print(f"{name}平均R²分数: {scores.mean():.3f}")

超参数优化示例（以随机森林为例）：

from sklearn.model_selection import GridSearchCV param_grid = { 'n_estimators': [50, 100, 200], 'max_depth': [None, 5, 10], 'min_samples_split': [2, 5, 10] } grid_search = GridSearchCV( estimator=RandomForestRegressor(), param_grid=param_grid, cv=5, scoring='neg_mean_squared_error' ) grid_search.fit(X_train, y_train)

5. 模型评估与可视化

评估指标应兼顾统计意义和化学意义：

import matplotlib.pyplot as plt from sklearn.metrics import mean_squared_error, r2_score y_pred = model.predict(X_test) mse = mean_squared_error(y_test, y_pred) r2 = r2_score(y_test, y_pred) plt.figure(figsize=(8,6)) plt.scatter(y_test, y_pred, alpha=0.5) plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], 'r--') plt.xlabel('实验值(logS)') plt.ylabel('预测值(logS)') plt.title(f'预测效果 (R²={r2:.3f})') plt.show()

模型解释技术：

SHAP值分析
特征重要性排序
局部依赖图（PDP）

6. 实际应用与部署

将训练好的模型封装为预测工具：

import joblib # 保存模型 joblib.dump(model, 'solubility_predictor.pkl') # 加载使用 loaded_model = joblib.load('solubility_predictor.pkl') def predict_solubility(smiles): features = smiles_to_features(smiles) if features is None: return "无效SMILES" scaled = scaler.transform([features]) return loaded_model.predict(scaled)[0]

实际应用中的注意事项：