蛋白质-配体对接与虚拟筛选:从分子力学到深度学习
点击“AladdinEdu,你的AI学习实践工作坊”,注册即送-H卡级别算力,沉浸式云原生集成开发环境,80G大显存多卡并行,按量弹性计费,教育用户更享超低价。
摘要:蛋白质-配体相互作用是药物分子发挥活性的基础,对接与虚拟筛选技术通过计算预测结合模式与亲和力,是计算机辅助药物发现的核心手段。本文系统梳理蛋白质-配体对接与虚拟筛选技术的发展历程,从基于分子力学的刚性对接、半柔性对接到柔性对接的算法演进,深入解析经典打分函数(力场、经验、知识)的数学原理与局限性;全面介绍基于机器学习和深度学习的打分函数、构象采样方法及端到端对接模型,探讨图神经网络、3D卷积神经网络、几何深度学习、扩散模型等前沿技术在提升对接精度与速度方面的突破。通过对比主流软件(AutoDock、Glide、DiffDock)与深度学习模型(DeepDTA、EquiBind、DiffDock)的性能,分析当前挑战(泛化能力、诱导契合、水分子参与)并展望未来发展方向(多模态数据融合、基于结构的生成模型、实验-计算闭环)。
关键词:分子对接;虚拟筛选;打分函数;深度学习;图神经网络;药物发现
1. 引言:从药物发现到计算筛选
药物发现是一个漫长、昂贵且高风险的过程,平均需要10年以上、耗资超过20亿美元才能将一个新药推向市场。早期药物发现的核心是识别能够与疾病靶点(通常是蛋白质)特异性结合并调节其功能的小分子化合物。传统的实验筛选方法(如高通量筛选)虽能测试数百万化合物,但成本高、耗时长,且受限于化合物库规模。
计算机辅助药物设计(CADD)通过计算方法预测蛋白质-配体相互作用,加速了先导化合物发现与优化。其中,分子对接(molecular docking)和虚拟筛选(virtual screening)是核心技术:对接算法预测配体在蛋白质结合口袋中的优势构象和取向,打分函数估算结合亲和力;虚拟筛选则利用对接评分对大规模化合物库进行排序,挑选潜在活性分子。
过去三十年,对接与虚拟筛选技术经历了从基于分子力学的物理模型到数据驱动的机器学习方法的深刻变革。传统方法(如AutoDock、Glide)依赖能量计算和经验打分,精度尚可但计算量大,且受限于打分函数的近似。近年来,深度学习(尤其是图神经网络、3D卷积网络、扩散模型)的引入显著提升了结合模式预测的准确性和筛选效率,同时能够学习复杂的结构-活性关系,为虚拟筛选带来了新的突破。
本文将从传统方法出发,系统介绍对接与虚拟筛选的原理、算法、工具和评估指标,深入分析基于深度学习的最新进展,并展望未来发展方向。
2. 分子对接的基本原理
分子对接的目标是预测配体分子在蛋白质结合口袋中的最优结合构象(位置、取向、扭转角),并估算其结合亲和力。对接过程通常包含两个核心组件:构象采样(搜索算法)和打分函数(评估结合模式优劣)。
2.1 构象采样算法
2.1.1 刚性对接
早期方法将蛋白质和配体均视为刚体,仅考虑6个自由度(3个平移+3个旋转)。这种假设忽略了结合诱导的构象变化,但计算速度快。代表性算法:基于几何哈希表(如DOCK)或形状匹配(如FRODOCK)。
2.1.2 半柔性对接
固定蛋白质构象,允许配体柔性(可旋转键)。是目前最常用的模式,平衡了精度与速度。采样算法包括:
- 蒙特卡洛(MC):随机扰动配体位姿,依据Metropolis准则接受新构象。
- 模拟退火:结合MC和温度退火,寻找全局能量最小。
- 遗传算法(GA):将配体构象编码为染色体,通过交叉、变异进化出最优解(如AutoDock)。
- 片段生长:将配体分解为片段,在结合腔内逐步构建(如FlexX)。
- 确定性方法:如构象枚举、系统搜索(如Glide的HTVS)。
2.1.3 柔性对接
同时考虑蛋白质侧链和主链的柔性,以模拟结合诱导的“诱导契合”效应。常用方法:
- 侧链旋转异构体库(如RosettaLigand)
- 分子动力学模拟(MD)结合对接
- 整体对接:将蛋白质柔性表示为多个构象的集合(ensemble docking)
2.2 打分函数
打分函数用于评估配体-蛋白质复合物的结合亲和力,其准确性直接影响虚拟筛选的成功率。主要分为三类:
2.2.1 基于力场的打分函数
基于分子力场(如MMFF、AMBER)计算结合能,包括范德华(Lennard-Jones)、静电(Coulomb)和键合项(键长、键角、二面角)。优点是物理意义明确,但计算量大,且需要准确处理溶剂效应(通常隐式溶剂模型如GB/SA)。代表性:AutoDock的半经验力场、DOCK的AMBER打分。
2.2.2 经验打分函数
通过多元线性回归或神经网络拟合实验结合亲和力,采用能量项的组合(氢键、疏水接触、旋转键熵罚、金属配位等)进行线性加权。参数通过大量训练集拟合得到。优点:计算速度快,对亲和力预测表现良好。缺点:可迁移性受限(针对特定靶点或化学空间)。代表性:Glide的SP/XP打分、LigScore、ChemScore。
2.2.3 知识打分函数
基于统计势能,从已知蛋白质-配体复合物结构中统计原子对出现的频率,转换为能量项(如PMF、DrugScore)。原理:自然发生的接触频率越高,能量越低。优点:无需参数拟合,广泛适用。缺点:对稀有相互作用预测能力弱。
2.2.4 共识打分
结合多个打分函数的结果,取平均或投票,可提高筛选准确性。
3. 传统虚拟筛选流程与工具
3.1 标准虚拟筛选流程
- 靶点准备:选择或构建蛋白质三维结构(如PDB),添加氢原子、分配电荷、优化几何。
- 配体库准备:收集化合物库(如ZINC、Enamine、商业化库),生成三维构象(如OMEGA),质子化,分配电荷。
- 对接计算:运行对接软件,生成每个配体的多个结合姿势。
- 打分与排序:对每个配体的最佳姿势打分,根据得分排序。
- 后处理与验证:聚类分析、人工检查、分子动力学模拟验证、实验测试。
3.2 主流软件对比
| 软件 | 采样方法 | 打分函数 | 特点 | 适用场景 |
|---|---|---|---|---|
| AutoDock 4 | 遗传算法+拉马克 | 半经验力场 | 开源,灵活性高,支持可旋转键 | 学术研究,小规模筛选 |
| AutoDock Vina | 迭代局部搜索 | 经验打分 | 速度快,精度高 | 大规模虚拟筛选 |
| Glide | 系统搜索+构象枚举 | SP/XP | 商业软件,高精度 | 药物发现项目 |
| DOCK | 片段生长 | AMBER+经验 | 开源,适合配体库对接 | 学术研究 |
| GOLD | 遗传算法 | GoldScore/ChemScore | 商业,考虑蛋白质柔性 | 诱导契合研究 |
| Surflex-Dock | 分子相似性 | 经验打分 | 快速,适合大规模筛选 | 早期筛选 |
3.3 评估指标
- 富集因子:在给定得分阈值下,活性化合物在筛选前X%中的富集倍数。
- ROC-AUC:受试者工作特征曲线下面积,评估筛选区分能力。
- 对接成功率:预测结合姿势与实验结构RMSD < 2Å的比例。
4. 基于机器学习的打分函数
传统打分函数受限于手工设计的能量项,难以捕捉复杂的结构-活性关系。机器学习通过从大量数据中学习,显著提升了打分性能。
4.1 经典机器学习打分函数
- 随机森林(RF):使用分子描述符(如分子指纹、物理化学性质)作为特征,训练分类或回归模型预测结合亲和力(如RF-Score)。
- 支持向量机(SVM):构建超平面区分活性与非活性分子。
- 深度学习前馈网络:以分子指纹或性质作为输入,预测pIC50值。
局限:输入特征依赖手工设计,丢失了三维结构信息。
4.2 基于3D结构的深度学习
4.2.1 3D卷积神经网络(3D-CNN)
将蛋白质-配体复合物表示为三维网格(如Å分辨率),每个体素包含原子类型、电荷等特征,使用3D CNN预测亲和力。代表性模型:
- AtomNet:首个应用于虚拟筛选的3D CNN,在DUD-E数据集上表现优异。
- DeepDTA:预测药物-靶点相互作用。
- Kdeep:结合化学语言模型与3D-CNN。
优点:直接学习三维结构特征;缺点:网格分辨率影响性能,计算量大。
4.2.2 图神经网络(GNN)
将分子表示为图(原子为节点,键为边),蛋白质-配体相互作用表示为相互作用图。GNN能高效学习原子间的相互作用。代表性模型:
- GraphDTA:图神经网络预测药物-靶点结合亲和力。
- PIGNet:蛋白质-配体相互作用图网络。
- Interaction Graph Neural Network (IGNN):端到端预测结合亲和力。
优点:保留原子连接性,参数少;缺点:需要处理蛋白质大图,如何高效结合配体与蛋白质图是挑战。
4.2.3 几何深度学习
针对三维欧氏空间中的等变性问题(如旋转、平移不变性),几何深度学习(SE(3)-equivariant networks)被用于直接处理原子坐标。代表性:
- EGNN(Equivariant Graph Neural Network):保持旋转平移等变性,适合构象预测。
- EquiBind:端到端对接模型,直接预测配体结合姿势,无需大量采样。
5. 深度学习在构象采样中的突破
传统对接算法依赖大量随机采样,计算成本高。深度学习模型可直接学习从结合口袋到配体构象的映射,实现快速、准确的对接。
5.1 DiffDock:基于扩散模型的对接
DiffDock(2022)将分子对接视为生成式任务,采用扩散概率模型(diffusion model)从噪声中逐步恢复配体构象。流程:
- 训练:对已知复合物结构逐步添加噪声,学习逆扩散过程。
- 推理:从随机噪声开始,通过神经网络迭代去噪,生成配体位置、取向和扭转角。
- 特点:无需大量采样,一次性生成高精度构象(RMSD < 2Å 成功率显著高于传统方法)。
优势:全局搜索能力强,能处理诱导契合(通过多构象蛋白质输入)。局限:对蛋白质柔性建模仍需改进。
5.2 EquiBind:等变几何学习
EquiBind(2022)利用等变神经网络直接预测配体在结合口袋中的位置和取向,不依赖采样。输入:蛋白质口袋的原子坐标和配体原子坐标(随机初始),输出:配体的变换(平移、旋转)和扭转角更新,迭代优化至收敛。
优势:极快(毫秒级),可处理数千配体的大规模筛选。缺点:精度略低于DiffDock,对复杂结合模式泛化不足。
5.3 其他端到端模型
- GeoDock:结合几何深度学习和传统能量最小化。
- DockString:将蛋白质-配体相互作用编码为序列,用Transformer预测。
6. 案例分析与性能对比
6.1 基准数据集
- PDBbind:高质量蛋白质-配体复合物结构数据库,含亲和力数据。
- DUD-E:针对虚拟筛选的数据集,包含活性与非活性配体。
- CASF:对接与打分评估基准。
6.2 对接精度对比(CASF-2016)
| 方法 | 对接成功率(Top1 RMSD<2Å) | 备注 |
|---|---|---|
| AutoDock Vina | 约60% | 半柔性,多次运行取最佳 |
| Glide SP | 约65% | 依赖高质量蛋白质结构 |
| DiffDock | 约75% | 一次性生成,泛化强 |
| EquiBind | 约55% | 速度极快 |
6.3 虚拟筛选富集对比(DUD-E)
| 方法 | ROC-AUC | 特点 |
|---|---|---|
| AutoDock Vina | 0.68 | 传统方法基线 |
| RF-Score | 0.72 | 机器学习打分 |
| AtomNet | 0.78 | 3D-CNN |
| GraphDTA | 0.75 | 图神经网络 |
| DiffDock | 0.80 | 端到端对接+打分 |
7. 挑战与未来方向
7.1 当前挑战
- 诱导契合:大多数方法忽略蛋白质柔性,导致假阴性。结合分子动力学或多构象对接是改进方向。
- 水分子参与:水分子在结合中扮演重要角色,显式水模型增加复杂度。
- 泛化能力:深度学习模型在已知靶点上表现好,对新靶点(低同源性)泛化不足。
- 打分函数的绝对精度:预测亲和力与实际实验值仍存在较大误差。
- 计算资源:基于深度学习的对接方法仍需较高GPU算力。
7.2 未来趋势
- 多模态融合:整合序列、结构、化学信息、组学数据(如结合转录组、蛋白质组)提高预测准确性。
- 基于结构的生成模型:使用扩散模型或生成对抗网络直接生成对特定靶点具有高亲和力的新分子,实现“逆向设计”。
- 结合自由能计算:将深度学习方法与自由能微扰(FEP)结合,提高亲和力预测精度。
- 实验-计算闭环:通过主动学习,让计算模型指导实验筛选,快速迭代优化。
- 可解释人工智能:揭示深度学习模型做出预测的依据,为药物化学家提供结构-活性关系洞察。
8. 结语
蛋白质-配体对接与虚拟筛选技术从最初的刚性几何匹配发展到如今融合深度学习的端到端模型,极大地提升了计算机辅助药物发现的效率与精度。传统分子力学方法奠定了坚实的物理基础,而机器学习方法则通过学习大量实验数据,捕捉复杂的相互作用模式,弥补了物理模型的不足。尤其是扩散模型(DiffDock)和等变几何网络(EquiBind)的出现,使得对接过程从“穷举采样”转向“生成式预测”,开启了虚拟筛选的新范式。
然而,挑战依然存在:蛋白质柔性、水分子参与、泛化能力、绝对亲和力预测等仍是亟待突破的瓶颈。未来,多模态数据融合、基于结构的生成模型、实验-计算闭环将是该领域的主要发展方向。随着算法和算力的持续进步,我们有理由相信,计算机辅助药物发现将在新药研发中发挥越来越核心的作用,加速从靶点确认到临床候选化合物的进程。
参考文献:
- Meng, X. Y., et al. (2011). Molecular docking: a powerful approach for structure-based drug discovery.Current Computer-Aided Drug Design, 7(2), 146-157.
- Trott, O., & Olson, A. J. (2010). AutoDock Vina: improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading.Journal of Computational Chemistry, 31(2), 455-461.
- Friesner, R. A., et al. (2004). Glide: a new approach for rapid, accurate docking and scoring. 1. Method and assessment of docking accuracy.Journal of Medicinal Chemistry, 47(7), 1739-1749.
- Crampon, K., et al. (2022). Machine-learning methods for ligand–protein molecular docking.Drug Discovery Today, 27(1), 151-164.
- Stärk, H., et al. (2022). EquiBind: Geometric deep learning for drug binding structure prediction.International Conference on Machine Learning.
- Corso, G., et al. (2023). DiffDock: Diffusion steps, twists, and turns for molecular docking.International Conference on Learning Representations.
