当前位置：首页 > news >正文

蛋白质-配体对接与虚拟筛选：从分子力学到深度学习

news 2026/4/1 2:00:07

点击“AladdinEdu，你的AI学习实践工作坊”，注册即送-H卡级别算力，沉浸式云原生集成开发环境，80G大显存多卡并行，按量弹性计费，教育用户更享超低价。

摘要：蛋白质-配体相互作用是药物分子发挥活性的基础，对接与虚拟筛选技术通过计算预测结合模式与亲和力，是计算机辅助药物发现的核心手段。本文系统梳理蛋白质-配体对接与虚拟筛选技术的发展历程，从基于分子力学的刚性对接、半柔性对接到柔性对接的算法演进，深入解析经典打分函数（力场、经验、知识）的数学原理与局限性；全面介绍基于机器学习和深度学习的打分函数、构象采样方法及端到端对接模型，探讨图神经网络、3D卷积神经网络、几何深度学习、扩散模型等前沿技术在提升对接精度与速度方面的突破。通过对比主流软件（AutoDock、Glide、DiffDock）与深度学习模型（DeepDTA、EquiBind、DiffDock）的性能，分析当前挑战（泛化能力、诱导契合、水分子参与）并展望未来发展方向（多模态数据融合、基于结构的生成模型、实验-计算闭环）。

关键词：分子对接；虚拟筛选；打分函数；深度学习；图神经网络；药物发现

1. 引言：从药物发现到计算筛选

药物发现是一个漫长、昂贵且高风险的过程，平均需要10年以上、耗资超过20亿美元才能将一个新药推向市场。早期药物发现的核心是识别能够与疾病靶点（通常是蛋白质）特异性结合并调节其功能的小分子化合物。传统的实验筛选方法（如高通量筛选）虽能测试数百万化合物，但成本高、耗时长，且受限于化合物库规模。

计算机辅助药物设计（CADD）通过计算方法预测蛋白质-配体相互作用，加速了先导化合物发现与优化。其中，分子对接（molecular docking）和虚拟筛选（virtual screening）是核心技术：对接算法预测配体在蛋白质结合口袋中的优势构象和取向，打分函数估算结合亲和力；虚拟筛选则利用对接评分对大规模化合物库进行排序，挑选潜在活性分子。

过去三十年，对接与虚拟筛选技术经历了从基于分子力学的物理模型到数据驱动的机器学习方法的深刻变革。传统方法（如AutoDock、Glide）依赖能量计算和经验打分，精度尚可但计算量大，且受限于打分函数的近似。近年来，深度学习（尤其是图神经网络、3D卷积网络、扩散模型）的引入显著提升了结合模式预测的准确性和筛选效率，同时能够学习复杂的结构-活性关系，为虚拟筛选带来了新的突破。

本文将从传统方法出发，系统介绍对接与虚拟筛选的原理、算法、工具和评估指标，深入分析基于深度学习的最新进展，并展望未来发展方向。

2. 分子对接的基本原理

分子对接的目标是预测配体分子在蛋白质结合口袋中的最优结合构象（位置、取向、扭转角），并估算其结合亲和力。对接过程通常包含两个核心组件：构象采样（搜索算法）和打分函数（评估结合模式优劣）。

2.1 构象采样算法

3. 传统虚拟筛选流程与工具

3.1 标准虚拟筛选流程

靶点准备：选择或构建蛋白质三维结构（如PDB），添加氢原子、分配电荷、优化几何。
配体库准备：收集化合物库（如ZINC、Enamine、商业化库），生成三维构象（如OMEGA），质子化，分配电荷。
对接计算：运行对接软件，生成每个配体的多个结合姿势。
打分与排序：对每个配体的最佳姿势打分，根据得分排序。
后处理与验证：聚类分析、人工检查、分子动力学模拟验证、实验测试。

3.2 主流软件对比

软件	采样方法	打分函数	特点	适用场景
AutoDock 4	遗传算法+拉马克	半经验力场	开源，灵活性高，支持可旋转键	学术研究，小规模筛选
AutoDock Vina	迭代局部搜索	经验打分	速度快，精度高	大规模虚拟筛选
Glide	系统搜索+构象枚举	SP/XP	商业软件，高精度	药物发现项目
DOCK	片段生长	AMBER+经验	开源，适合配体库对接	学术研究
GOLD	遗传算法	GoldScore/ChemScore	商业，考虑蛋白质柔性	诱导契合研究
Surflex-Dock	分子相似性	经验打分	快速，适合大规模筛选	早期筛选

4. 基于机器学习的打分函数

传统打分函数受限于手工设计的能量项，难以捕捉复杂的结构-活性关系。机器学习通过从大量数据中学习，显著提升了打分性能。

4.1 经典机器学习打分函数

随机森林（RF）：使用分子描述符（如分子指纹、物理化学性质）作为特征，训练分类或回归模型预测结合亲和力（如RF-Score）。
支持向量机（SVM）：构建超平面区分活性与非活性分子。
深度学习前馈网络：以分子指纹或性质作为输入，预测pIC50值。

局限：输入特征依赖手工设计，丢失了三维结构信息。

4.2 基于3D结构的深度学习

4.2.1 3D卷积神经网络（3D-CNN）

将蛋白质-配体复合物表示为三维网格（如Å分辨率），每个体素包含原子类型、电荷等特征，使用3D CNN预测亲和力。代表性模型：

AtomNet：首个应用于虚拟筛选的3D CNN，在DUD-E数据集上表现优异。
DeepDTA：预测药物-靶点相互作用。
Kdeep：结合化学语言模型与3D-CNN。

优点：直接学习三维结构特征；缺点：网格分辨率影响性能，计算量大。

4.2.2 图神经网络（GNN）

将分子表示为图（原子为节点，键为边），蛋白质-配体相互作用表示为相互作用图。GNN能高效学习原子间的相互作用。代表性模型：

GraphDTA：图神经网络预测药物-靶点结合亲和力。
PIGNet：蛋白质-配体相互作用图网络。
Interaction Graph Neural Network (IGNN)：端到端预测结合亲和力。

优点：保留原子连接性，参数少；缺点：需要处理蛋白质大图，如何高效结合配体与蛋白质图是挑战。

4.2.3 几何深度学习

针对三维欧氏空间中的等变性问题（如旋转、平移不变性），几何深度学习（SE(3)-equivariant networks）被用于直接处理原子坐标。代表性：

EGNN（Equivariant Graph Neural Network）：保持旋转平移等变性，适合构象预测。
EquiBind：端到端对接模型，直接预测配体结合姿势，无需大量采样。

5. 深度学习在构象采样中的突破

传统对接算法依赖大量随机采样，计算成本高。深度学习模型可直接学习从结合口袋到配体构象的映射，实现快速、准确的对接。

5.1 DiffDock：基于扩散模型的对接

DiffDock（2022）将分子对接视为生成式任务，采用扩散概率模型（diffusion model）从噪声中逐步恢复配体构象。流程：

训练：对已知复合物结构逐步添加噪声，学习逆扩散过程。
推理：从随机噪声开始，通过神经网络迭代去噪，生成配体位置、取向和扭转角。
特点：无需大量采样，一次性生成高精度构象（RMSD < 2Å 成功率显著高于传统方法）。

优势：全局搜索能力强，能处理诱导契合（通过多构象蛋白质输入）。局限：对蛋白质柔性建模仍需改进。

5.2 EquiBind：等变几何学习

EquiBind（2022）利用等变神经网络直接预测配体在结合口袋中的位置和取向，不依赖采样。输入：蛋白质口袋的原子坐标和配体原子坐标（随机初始），输出：配体的变换（平移、旋转）和扭转角更新，迭代优化至收敛。

优势：极快（毫秒级），可处理数千配体的大规模筛选。缺点：精度略低于DiffDock，对复杂结合模式泛化不足。

5.3 其他端到端模型

GeoDock：结合几何深度学习和传统能量最小化。
DockString：将蛋白质-配体相互作用编码为序列，用Transformer预测。

6. 案例分析与性能对比

6.1 基准数据集

PDBbind：高质量蛋白质-配体复合物结构数据库，含亲和力数据。
DUD-E：针对虚拟筛选的数据集，包含活性与非活性配体。
CASF：对接与打分评估基准。

6.2 对接精度对比（CASF-2016）

方法	对接成功率（Top1 RMSD<2Å）	备注
AutoDock Vina	约60%	半柔性，多次运行取最佳
Glide SP	约65%	依赖高质量蛋白质结构
DiffDock	约75%	一次性生成，泛化强
EquiBind	约55%	速度极快