当前位置：首页 > news >正文

分子预测与生成模型评估指标详解

news 2026/6/3 3:22:14

1. 分子预测与生成任务中的评估指标概述

在化学信息学和药物发现领域，分子预测与生成模型的性能评估至关重要。评估指标就像化学实验中的pH试纸，能够直观反映模型的"酸碱度"——即模型性能的优劣。这些指标不仅用于学术论文中的模型比较，更是指导实际药物研发流程的罗盘。

传统化学研究依赖实验验证，而现代AI方法需要量化评估。就像化学家需要精确的滴定终点判断一样，机器学习从业者需要可靠的指标来度量模型表现。评估指标的选择直接影响模型优化方向，不当的指标可能导致"看似高性能实则无用"的模型，就像用错误的pH试纸会得到误导性的酸碱度读数。

2. 分子属性预测任务的评估指标

2.1 分类任务指标：AUROC详解

AUROC（Area Under the Receiver Operating Characteristic Curve）是分子分类任务的金标准指标。它衡量模型将阳性样本（如活性分子）排在阴性样本（如非活性分子）前面的能力，完美分类器得分为1，随机猜测为0.5。

计算原理：给定预测分数s_i和真实标签y_i∈{0,1}，AUROC计算公式为：

AUROC = 1/(n+ * n-) * ΣΣ I(s_i > s_j)

其中n+和n-分别是正负样本数，I是指示函数。分子生成任务中，我们通常提取模型输出的"是/否"token的logits差值作为预测分数。

化学应用场景：

药物活性分类（如Tox21毒性预测）
药物代谢性质判断（如CYP450抑制预测）
分子可合成性评估

注意事项：AUROC对类别不平衡不敏感，但在极度不平衡时（如1:100）可能需要结合其他指标。实践中，我们建议同时报告精确率-召回率曲线下面积（AUPRC）作为补充。

2.2 回归任务指标：RMSE与MAE

RMSE（均方根误差）：

RMSE = sqrt(1/n * Σ(y_pred - y_true)^2)

RMSE放大较大误差的影响，对异常值敏感。在量子化学性质预测（如HOMO-LUMO能隙）中特别有用，因为大误差在能量计算中代价更高。

MAE（平均绝对误差）：

MAE = 1/n * Σ|y_pred - y_true|

MAE更稳健，解释更直观。适用于溶解度（LogS）、分配系数（LogP）等性质预测。

对比选择：

指标	优点	缺点	适用场景
RMSE	强调大误差	对异常值敏感	能量计算、需要惩罚大误差的场景
MAE	稳健直观	不区分误差大小	一般性质预测、数据有噪声时

3. 分子生成任务的评估指标

3.1 字符串层面指标

精确匹配（Exact Match）：生成SMILES与参考SMILES完全相同的比例。看似严格但很重要——就像化学反应中特定异构体的产率。

BLEU分数：衡量生成与参考SMILES的n-gram重叠。虽然来自机器翻译，但能捕捉局部结构相似性。实践中发现BLEU-4与化学家主观评估相关性较好。

Levenshtein距离：将生成SMILES转为参考SMILES所需的最少单字符编辑次数。反映结构差异程度，对芳香环表示方式等SMILES语法变化敏感。

3.2 分子层面指标

指纹相似度（FTS）：

FTS(x,y) = |F(x)∩F(y)| / |F(x)∪F(y)|

其中F(·)是分子指纹（常用RDKit、MACCS、Morgan）。三种指纹各有侧重：

RDKit：基于子结构
MACCS：166个关键特征
Morgan：圆形指纹，捕捉局部环境

化学有效性（Validity）：用RDKit的Chem.MolFromSmiles检查SMILES能否解析为合法分子。无效分子直接丢弃——就像合成化学中剔除不纯产物。

实操建议：

from rdkit import Chem def check_validity(smiles): mol = Chem.MolFromSmiles(smiles, sanitize=True) return mol is not None # 返回是否有效

4. 评估指标的实战应用与陷阱

4.1 分类任务案例：AtomDisc模型评估

表S5展示了AtomDisc在MoleculeNet基准测试中的表现（ROC-AUC%）：

方法	BBBP	Tox21	ClinTox	平均
非LM基线(KANO)	96.0	83.7	94.4	84.3
LM基线(MoLFormer)	93.7	84.7	94.8	-
AtomDisc	95.2	85.6	96.4	84.7

关键发现：

结构token的引入带来稳定提升（+0.9-1.6%）
在毒性预测(Tox21)等复杂任务优势明显
小数据集（如ClinTox）上也能很好泛化

4.2 回归任务案例：量子化学性质预测

表S6比较了前沿模型在QM9数据集上的MAE：

模型	HOMO(↓)	LUMO(↓)	Δε(↓)
InstructMol	0.0048	0.0050	0.0061
UniMoT	0.0042	0.0047	0.0055
AtomDisc	0.0033	0.0032	0.0042

AtomDisc在HOMO-LUMO能隙预测上的优势，显示了其对电子结构特征的捕捉能力。

4.3 分子生成任务评估陷阱

表面指标与化学合理性的冲突：

高BLEU但低有效性：模型"记住"了训练集语法但生成非法结构
高FTS但低多样性：模型总生成相似分子

解决方案：

多指标并行：同时监控有效性、唯一性、FTS
人工审核：定期抽样检查生成分子
引入3D评估：如构象能差、药效团匹配

5. 高级评估技术与案例研究

5.1 注意力分析与可解释性

AtomDisc通过结构token实现原子级可解释性。例如：

羟基氧被稳定分配到特定token（如319、338）
不同token对应不同的局部极性表面积(PSA)分布
通过token交换实验验证性质预测的因果性

# 示例：分析token属性分布 import numpy as np from scipy.stats import wasserstein_distance def compare_token_properties(token1_props, token2_props): """计算两个token属性分布的Wasserstein距离""" return wasserstein_distance(token1_props, token2_props)

5.2 生成任务的化学合理性评估

表S9展示了AtomDisc在逆合成分析中的泛化能力：

案例	模型提议路线	参考路线	评估
1	酰胺键断开	胺醛缩合	两种可行路线
2	氯代物	溴代物	合理替代
3	脲衍生物	异氰酸酯	新颖但可行

这种"化学直觉"般的表现，正是优秀评估指标引导的结果。

6. 评估指标的选择与实施建议

6.1 指标选择决策树

任务类型：
- 分类 → AUROC, AUPRC
- 回归 → RMSE, MAE
- 生成 → 有效性+FTS+多样性
数据特性：
- 类别不平衡 → 补充F1分数
- 噪声多 → 选用MAE而非RMSE
应用需求：
- 虚拟筛选 → 强调早期富集(EF)
- 合成规划 → 强调反应产率预测

6.2 实施最佳实践

代码示例：综合评估函数

from sklearn.metrics import roc_auc_score, mean_squared_error from rdkit.Chem import AllChem def evaluate_model(y_true, y_pred, smiles_list=None): metrics = {} # 分类任务 if len(np.unique(y_true)) <= 2: metrics['AUROC'] = roc_auc_score(y_true, y_pred) # 回归任务 else: metrics['RMSE'] = np.sqrt(mean_squared_error(y_true, y_pred)) metrics['MAE'] = np.mean(np.abs(y_true - y_pred)) # 生成任务 if smiles_list: valid = [check_validity(s) for s in smiles_list] metrics['Validity'] = np.mean(valid) # 计算指纹相似度等... return metrics

常见问题排查：