当前位置: 首页 > news >正文

蛋白质-配体对接与虚拟筛选:从分子力学到深度学习

点击AladdinEdu,你的AI学习实践工作坊”,注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价


摘要:蛋白质-配体相互作用是药物分子发挥活性的基础,对接与虚拟筛选技术通过计算预测结合模式与亲和力,是计算机辅助药物发现的核心手段。本文系统梳理蛋白质-配体对接与虚拟筛选技术的发展历程,从基于分子力学的刚性对接、半柔性对接到柔性对接的算法演进,深入解析经典打分函数(力场、经验、知识)的数学原理与局限性;全面介绍基于机器学习和深度学习的打分函数、构象采样方法及端到端对接模型,探讨图神经网络、3D卷积神经网络、几何深度学习、扩散模型等前沿技术在提升对接精度与速度方面的突破。通过对比主流软件(AutoDock、Glide、DiffDock)与深度学习模型(DeepDTA、EquiBind、DiffDock)的性能,分析当前挑战(泛化能力、诱导契合、水分子参与)并展望未来发展方向(多模态数据融合、基于结构的生成模型、实验-计算闭环)。

关键词:分子对接;虚拟筛选;打分函数;深度学习;图神经网络;药物发现


1. 引言:从药物发现到计算筛选

药物发现是一个漫长、昂贵且高风险的过程,平均需要10年以上、耗资超过20亿美元才能将一个新药推向市场。早期药物发现的核心是识别能够与疾病靶点(通常是蛋白质)特异性结合并调节其功能的小分子化合物。传统的实验筛选方法(如高通量筛选)虽能测试数百万化合物,但成本高、耗时长,且受限于化合物库规模。

计算机辅助药物设计(CADD)通过计算方法预测蛋白质-配体相互作用,加速了先导化合物发现与优化。其中,分子对接(molecular docking)和虚拟筛选(virtual screening)是核心技术:对接算法预测配体在蛋白质结合口袋中的优势构象和取向,打分函数估算结合亲和力;虚拟筛选则利用对接评分对大规模化合物库进行排序,挑选潜在活性分子。

过去三十年,对接与虚拟筛选技术经历了从基于分子力学的物理模型到数据驱动的机器学习方法的深刻变革。传统方法(如AutoDock、Glide)依赖能量计算和经验打分,精度尚可但计算量大,且受限于打分函数的近似。近年来,深度学习(尤其是图神经网络、3D卷积网络、扩散模型)的引入显著提升了结合模式预测的准确性和筛选效率,同时能够学习复杂的结构-活性关系,为虚拟筛选带来了新的突破。

本文将从传统方法出发,系统介绍对接与虚拟筛选的原理、算法、工具和评估指标,深入分析基于深度学习的最新进展,并展望未来发展方向。

2. 分子对接的基本原理

分子对接的目标是预测配体分子在蛋白质结合口袋中的最优结合构象(位置、取向、扭转角),并估算其结合亲和力。对接过程通常包含两个核心组件:构象采样(搜索算法)和打分函数(评估结合模式优劣)。

2.1 构象采样算法

2.1.1 刚性对接

早期方法将蛋白质和配体均视为刚体,仅考虑6个自由度(3个平移+3个旋转)。这种假设忽略了结合诱导的构象变化,但计算速度快。代表性算法:基于几何哈希表(如DOCK)或形状匹配(如FRODOCK)。

2.1.2 半柔性对接

固定蛋白质构象,允许配体柔性(可旋转键)。是目前最常用的模式,平衡了精度与速度。采样算法包括:

2.1.3 柔性对接

同时考虑蛋白质侧链和主链的柔性,以模拟结合诱导的“诱导契合”效应。常用方法:

2.2 打分函数

打分函数用于评估配体-蛋白质复合物的结合亲和力,其准确性直接影响虚拟筛选的成功率。主要分为三类:

2.2.1 基于力场的打分函数

基于分子力场(如MMFF、AMBER)计算结合能,包括范德华(Lennard-Jones)、静电(Coulomb)和键合项(键长、键角、二面角)。优点是物理意义明确,但计算量大,且需要准确处理溶剂效应(通常隐式溶剂模型如GB/SA)。代表性:AutoDock的半经验力场、DOCK的AMBER打分。

2.2.2 经验打分函数

通过多元线性回归或神经网络拟合实验结合亲和力,采用能量项的组合(氢键、疏水接触、旋转键熵罚、金属配位等)进行线性加权。参数通过大量训练集拟合得到。优点:计算速度快,对亲和力预测表现良好。缺点:可迁移性受限(针对特定靶点或化学空间)。代表性:Glide的SP/XP打分、LigScore、ChemScore。

2.2.3 知识打分函数

基于统计势能,从已知蛋白质-配体复合物结构中统计原子对出现的频率,转换为能量项(如PMF、DrugScore)。原理:自然发生的接触频率越高,能量越低。优点:无需参数拟合,广泛适用。缺点:对稀有相互作用预测能力弱。

2.2.4 共识打分

结合多个打分函数的结果,取平均或投票,可提高筛选准确性。

3. 传统虚拟筛选流程与工具

3.1 标准虚拟筛选流程

  1. 靶点准备:选择或构建蛋白质三维结构(如PDB),添加氢原子、分配电荷、优化几何。
  2. 配体库准备:收集化合物库(如ZINC、Enamine、商业化库),生成三维构象(如OMEGA),质子化,分配电荷。
  3. 对接计算:运行对接软件,生成每个配体的多个结合姿势。
  4. 打分与排序:对每个配体的最佳姿势打分,根据得分排序。
  5. 后处理与验证:聚类分析、人工检查、分子动力学模拟验证、实验测试。

3.2 主流软件对比

软件采样方法打分函数特点适用场景
AutoDock 4遗传算法+拉马克半经验力场开源,灵活性高,支持可旋转键学术研究,小规模筛选
AutoDock Vina迭代局部搜索经验打分速度快,精度高大规模虚拟筛选
Glide系统搜索+构象枚举SP/XP商业软件,高精度药物发现项目
DOCK片段生长AMBER+经验开源,适合配体库对接学术研究
GOLD遗传算法GoldScore/ChemScore商业,考虑蛋白质柔性诱导契合研究
Surflex-Dock分子相似性经验打分快速,适合大规模筛选早期筛选

3.3 评估指标

4. 基于机器学习的打分函数

传统打分函数受限于手工设计的能量项,难以捕捉复杂的结构-活性关系。机器学习通过从大量数据中学习,显著提升了打分性能。

4.1 经典机器学习打分函数

局限:输入特征依赖手工设计,丢失了三维结构信息。

4.2 基于3D结构的深度学习

4.2.1 3D卷积神经网络(3D-CNN)

将蛋白质-配体复合物表示为三维网格(如Å分辨率),每个体素包含原子类型、电荷等特征,使用3D CNN预测亲和力。代表性模型:

优点:直接学习三维结构特征;缺点:网格分辨率影响性能,计算量大。

4.2.2 图神经网络(GNN)

将分子表示为图(原子为节点,键为边),蛋白质-配体相互作用表示为相互作用图。GNN能高效学习原子间的相互作用。代表性模型:

优点:保留原子连接性,参数少;缺点:需要处理蛋白质大图,如何高效结合配体与蛋白质图是挑战。

4.2.3 几何深度学习

针对三维欧氏空间中的等变性问题(如旋转、平移不变性),几何深度学习(SE(3)-equivariant networks)被用于直接处理原子坐标。代表性:

5. 深度学习在构象采样中的突破

传统对接算法依赖大量随机采样,计算成本高。深度学习模型可直接学习从结合口袋到配体构象的映射,实现快速、准确的对接。

5.1 DiffDock:基于扩散模型的对接

DiffDock(2022)将分子对接视为生成式任务,采用扩散概率模型(diffusion model)从噪声中逐步恢复配体构象。流程:

优势:全局搜索能力强,能处理诱导契合(通过多构象蛋白质输入)。局限:对蛋白质柔性建模仍需改进。

5.2 EquiBind:等变几何学习

EquiBind(2022)利用等变神经网络直接预测配体在结合口袋中的位置和取向,不依赖采样。输入:蛋白质口袋的原子坐标和配体原子坐标(随机初始),输出:配体的变换(平移、旋转)和扭转角更新,迭代优化至收敛。

优势:极快(毫秒级),可处理数千配体的大规模筛选。缺点:精度略低于DiffDock,对复杂结合模式泛化不足。

5.3 其他端到端模型

6. 案例分析与性能对比

6.1 基准数据集

6.2 对接精度对比(CASF-2016)

方法对接成功率(Top1 RMSD<2Å)备注
AutoDock Vina约60%半柔性,多次运行取最佳
Glide SP约65%依赖高质量蛋白质结构
DiffDock约75%一次性生成,泛化强
EquiBind约55%速度极快

6.3 虚拟筛选富集对比(DUD-E)

方法ROC-AUC特点
AutoDock Vina0.68传统方法基线
RF-Score0.72机器学习打分
AtomNet0.783D-CNN
GraphDTA0.75图神经网络
DiffDock0.80端到端对接+打分

7. 挑战与未来方向

7.1 当前挑战

7.2 未来趋势

8. 结语

蛋白质-配体对接与虚拟筛选技术从最初的刚性几何匹配发展到如今融合深度学习的端到端模型,极大地提升了计算机辅助药物发现的效率与精度。传统分子力学方法奠定了坚实的物理基础,而机器学习方法则通过学习大量实验数据,捕捉复杂的相互作用模式,弥补了物理模型的不足。尤其是扩散模型(DiffDock)和等变几何网络(EquiBind)的出现,使得对接过程从“穷举采样”转向“生成式预测”,开启了虚拟筛选的新范式。

然而,挑战依然存在:蛋白质柔性、水分子参与、泛化能力、绝对亲和力预测等仍是亟待突破的瓶颈。未来,多模态数据融合、基于结构的生成模型、实验-计算闭环将是该领域的主要发展方向。随着算法和算力的持续进步,我们有理由相信,计算机辅助药物发现将在新药研发中发挥越来越核心的作用,加速从靶点确认到临床候选化合物的进程。


参考文献

  1. Meng, X. Y., et al. (2011). Molecular docking: a powerful approach for structure-based drug discovery.Current Computer-Aided Drug Design, 7(2), 146-157.
  2. Trott, O., & Olson, A. J. (2010). AutoDock Vina: improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading.Journal of Computational Chemistry, 31(2), 455-461.
  3. Friesner, R. A., et al. (2004). Glide: a new approach for rapid, accurate docking and scoring. 1. Method and assessment of docking accuracy.Journal of Medicinal Chemistry, 47(7), 1739-1749.
  4. Crampon, K., et al. (2022). Machine-learning methods for ligand–protein molecular docking.Drug Discovery Today, 27(1), 151-164.
  5. Stärk, H., et al. (2022). EquiBind: Geometric deep learning for drug binding structure prediction.International Conference on Machine Learning.
  6. Corso, G., et al. (2023). DiffDock: Diffusion steps, twists, and turns for molecular docking.International Conference on Learning Representations.

点击AladdinEdu,你的AI学习实践工作坊”,注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价

http://www.jsqmd.com/news/520853/

相关文章:

  • S32K3 MCAL实战:EB tresos中UART模块的时钟配置与中断优化
  • 告诉AI“Codex在review你的代码”,它就会干得更卖力
  • TIFF_G4嵌入式解码库:2KB RAM下高效渲染CCITT G4单色图像
  • colcon build 编译工具智能车速度控制节点编译和运行指南实战
  • 昇腾310P边缘端人脸检测实战:YOLOv11-Face模型C++推理性能优化全解析
  • 伏羲天气预报实时进度监控:Web界面日志输出与异常诊断方法
  • 台式机没蓝牙?手把手教你用USB蓝牙适配器+Bluetooth LE Explorer调试BLE模块(Win10实测)
  • Janus-Pro-7B实现简单编译器前端:词法分析与语法树生成演示
  • 手把手教学:通义千问1.8B轻量模型WebUI环境搭建与配置
  • 基于 STM32 + FPGA 船舶电站控制器设计与实现
  • 从EMD到Hilbert谱:Python实战信号瞬时特征提取与FFT对比
  • 避开这些坑!Gitee+Markdown图片外链的3种正确姿势
  • 利用OFA-Image-Caption构建无障碍应用:为视障用户朗读图片内容
  • 图像处理新手必看:3种常见噪声的识别与去除实战(附Python代码)
  • Linux用户与组管理及文件权限配置详解
  • 掌握CREST:从分子构象采样到热力学分析的完整实践指南
  • GitHub Trending霸榜!深度解析AI Coding辅助神器 Superpowers
  • PP-DocLayoutV3与Python爬虫结合:自动化文档解析实战
  • SGP30传感器驱动开发:I²C异步通信与环境补偿实践
  • 如何用HSTracker提升炉石传说对战决策?macOS玩家必备智能助手全解析
  • 学习C语言第28天
  • PCB设计与硬件开发的14个致命误区解析
  • 脉冲神经网络(SNN)创新实践:AAAI-2024时间步长动态调整策略解析
  • 从零构建Samba 4.13.0:源码编译与依赖管理的实战指南
  • 千万级数据批量更新优化:UPDATE替换MERGE INTO
  • Qwen3-ForcedAligner-0.6BGPU算力优化:梯度检查点+FlashAttention内存节省技巧
  • 嵌入式网络丢包故障的分层诊断与工程实践
  • 卡证检测矫正模型效果深度评测:对比传统OCR与深度学习方案
  • CLAP音频分类可演进:支持LoRA微调接口,兼顾零样本与领域适配
  • 基于单片机的温控风扇设计与实现