AlphaFold 后时代的药物发现革命:DrugCLIP 实现全基因组百万倍速虚拟筛选
一、研究背景
药物发现是人类面临的最具挑战性的科学工程之一。人类基因组编码约20,000种蛋白质,其中超过90%与疾病密切相关,但绝大多数长期处于"无药可靶"(undruggable)状态 [1]。传统药物研发从靶点发现到上市药物平均耗时10-15年、耗资超过26亿美元,且成功率不足10% [2]。其中,先导化合物发现(lead discovery)是整个流程中最关键、也最依赖偶然性的环节——研究人员需要在数百万甚至数十亿种化合物中"大海捞针"般地寻找能与靶蛋白结合的先导分子。
虚拟筛选(Virtual Screening)是计算化学领域用于加速先导化合物发现的核心技术,通过计算机模拟预测小分子与靶蛋白的结合能力,从而大幅缩小需要实验验证的候选分子范围 [3]。然而,传统虚拟筛选依赖分子对接(Molecular Docking)——一种基于原子级物理力场模拟的计算方法——存在根本性的"不可能三角":精度、通量和化学空间规模无法同时兼顾。即使使用当前最先进的对接工具,完成单一靶点的十亿级分子库筛选也需数月时间,全基因组规模的筛选更是需要数百年计算时间 [4]。
2020年,DeepMind 的 AlphaFold2 以原子级精度预测蛋白质结构,被誉为"解决了50年来的生物学重大挑战" [5]。2024年,AlphaFold 的开发者 Demis Hassabis 和 John Jumper 因此获得诺贝尔化学奖 [6]。AlphaFold 系列模型已预测了超过2亿个蛋白质结构,为药物发现提供了前所未有的结构基础。然而,一个关键瓶颈始终未被突破:如何利用 AlphaFold 预测的蛋白质结构,在基因组规模上实现对数十亿化合物的快速虚拟筛选?
2026年1月8日,清华大学智能产业研究院(AIR)兰艳艳教授课题组联合多学科团队,在国际顶级期刊Science发表了一项里程碑式研究——DrugCLIP[7]。该平台基于深度对比学习(Contrastive Learning)技术,将药物虚拟筛选重新定义为"跨模态向量检索"问题,实现了比传统对接快1,000万倍的超高通量筛选,并首次完成了全基因组规模的药物映射——约10,000个人类蛋白质靶点对5亿个小分子的全景筛选。DrugCLIP 的诞生,标志着药物研发正式迈入"后 AlphaFold 时代"的规模化、系统化新阶段。
二、研究创新点
DrugCLIP 的核心创新体现在以下五个方面:
1. 范式重构:从物理模拟到跨模态向量检索。传统分子对接需要模拟原子间的物理相互作用力,计算量随分子数量呈指数增长。DrugCLIP 创造性地将问题转化为"蛋白质口袋向量与小分子向量的相似度匹配"——就像互联网搜索引擎检索网页一样,在毫秒级时间内完成匹配。这种算法级的范式转换,使单节点(128核CPU + 8张GPU)的日打分能力达到10万亿次(10^13),较传统工具提升100万倍。
2. 自监督口袋预训练(Pocket Pretraining)。研究团队从海量蛋白质结构中切取片段模拟"假配体"(pseudo-ligand),构造了550万组训练样本。这种策略让模型在接触真实药物分子之前,就已深刻领悟了蛋白质表面结合口袋的结构特征,赋予了模型极强的零样本泛化(zero-shot)能力。
3. 多尺度表征对齐。DrugCLIP 通过两个深度神经网络编码器,分别将蛋白质口袋的三维拓扑结构和小分子的化学表征映射到同一个高维共嵌入空间(Joint Embedding Space)。在这个空间中,"结合能力"被量化为向量之间的距离,使筛选过程既快速又准确。
4. AlphaFold 结构无缝对接。DrugCLIP 不仅适用于实验解析的蛋白质结构,还能直接基于 AlphaFold2 预测的结构进行高效筛选。对于此前既无实验结构、也无已知抑制剂的"暗靶点"(dark target),DrugCLIP 展现了强大的从头筛选能力。
5. 全基因组药物映射数据库。研究团队基于 DrugCLIP 完成了人类历史上首次全基因组规模的虚拟筛选,构建了全球规模最大的蛋白-配体筛选数据库——GenomeScreenDB,覆盖约10,000个蛋白质靶点、20,000个结合口袋,对5亿个小分子进行全量对齐,产出200万个高潜力靶点-分子对,为全球科研社区提供了前所未有的药物发现基础设施。
三、技术原理
DrugCLIP 的技术架构围绕"对比学习驱动的跨模态检索"这一核心理念展开,其技术路线可分为四个关键模块:
1. 蛋白质口袋编码器(Pocket Encoder)。该模块采用三维图神经网络(3D GNN),将蛋白质表面结合口袋的原子坐标、残基类型、表面电荷和疏水性等物理化学特征编码为固定维度的向量表示。关键在于,模型在预训练阶段通过自监督学习——从已知蛋白质结构中提取"假配体"片段——掌握了蛋白质口袋的通用结构特征,而非针对特定配体进行优化。
2. 小分子编码器(Molecule Encoder)。该模块基于分子图神经网络,将小分子的原子组成、键合方式、官能团和三维构象编码为与口袋向量同维度的向量表示。编码器能够捕捉分子的全局化学特征和局部药效团模式。
3. 对比学习对齐(Contrastive Alignment)。这是 DrugCLIP 的核心算法。借鉴 CLIP(Contrastive Language-Image Pre-training)在计算机视觉领域的成功经验,DrugCLIP 通过对比损失函数(InfoNCE loss),将已知结合的口袋-分子对拉近(正样本),将非结合对推远(负样本)。经过大规模训练后,模型自动学习到一个"向量化结合空间"——空间中距离越近的向量对,代表结合亲和力越强。
4. 超大规模向量检索。在推理阶段,DrugCLIP 将筛选过程转化为向量检索问题:给定一个目标蛋白质口袋的向量表示,在预计算的小分子向量库中进行最近邻搜索(Approximate Nearest Neighbor, ANN)。这一过程完全避开了耗时的原子级物理模拟,实现了传统对接无法企及的计算速度。
从计算效率角度看,DrugCLIP 的单次推理相当于完成一次向量内积运算,时间复杂度为 O(d),其中 d 为向量维度;而传统分子对接需要对每个配体构象进行大量的能量计算和构象采样,时间复杂度通常为 O(n^3) 或更高。这种算法层面的根本性差异,使得 DrugCLIP 在保持可接受精度的前提下,实现了速度上的数量级飞跃。
四、实验结果
研究团队从多个维度对 DrugCLIP 进行了严格的实验验证:
1. 计算基准测试。在 DUD-E、LIT-PCBA 和 DEKOIS 2.0 等多个权威虚拟筛选基准数据集上,DrugCLIP 在富集因子(Enrichment Factor, EF)和 ROC 曲线下面积(AUC)等指标上一致优于包括 Glide、AutoDock Vina 和 Gnina 在内的传统对接工具和深度学习基线方法。更重要的是,DrugCLIP 的筛选速度比 Glide SP 快约1,000万倍,比 Gnina 快约100万倍。
2. 去甲肾上腺素转运体(NET)湿实验验证。NET 是抑郁症和注意力缺陷多动障碍(ADHD)的重要药物靶点,已有多种上市药物(如托莫西汀、瑞波西汀)作用于该靶点。研究团队使用 DrugCLIP 对商业化合物库进行虚拟筛选,从排名前100的候选分子中选取了实验验证。结果显示,命中率(hit rate)达到15%——即每7个候选分子中就有1个在体外实验中确认有效。部分候选分子的抑制活性甚至超越了现有的一线临床药物。更重要的是,团队通过冷冻电镜(cryo-EM)成功解析了两种新型抑制剂与 NET 的复合物结构,从原子层面验证了 DrugCLIP 预测的结合模式。
3. 暗靶点 TRIP12 的从头药物发现。TRIP12(甲状腺激素受体相互作用蛋白12)是一种 E3 泛素连接酶,与多种癌症和帕金森病相关,但此前既无实验解析结构,也无已知小分子抑制剂,属于典型的"暗靶点"。研究团队直接使用 AlphaFold2 预测的 TRIP12 结构进行 DrugCLIP 筛选,在没有先验实验信息的情况下,命中率达到17.5%——这一结果证明了 AlphaFold 预测结构与 AI 虚拟筛选联合使用的巨大潜力,尤其对于传统方法难以攻克的难成药靶点。
4. GenomeScreenDB 全景映射。研究团队利用 DrugCLIP 完成了全基因组规模的虚拟筛选:覆盖约10,000个人类蛋白质(包括预测结构和实验结构)、20,000个结合口袋,对5亿个小分子进行全量对齐计算,产出超过200万个高置信度靶点-分子对。该数据库已通过 drugclip.com 平台向全球科研社区免费开放。
五、技术优势
DrugCLIP 相较于传统药物虚拟筛选方法具有以下显著优势:
1. 速度优势。比传统对接方法快100万至1,000万倍,使全基因组规模的虚拟筛选从"理论上的不可能"变为"工程上的可实现"。单节点日处理能力达10万亿次打分,意味着全基因组筛选可在数天内完成。
2. 泛化能力。自监督预训练策略赋予模型强大的零样本学习能力,使其能够对从未见过的蛋白质靶点进行有效筛选,包括 AlphaFold 预测的"暗靶点"结构。
3. 实验验证充分。不仅有计算基准测试,还有 NET 的晶体学验证和 TRIP12 的从头发现验证,证明了方法的生物学可信度。
4. 开放共享。GenomeScreenDB 数据库和 DrugCLIP 平台对全球科研社区免费开放,显著降低了新靶点开发的起始门槛。北京生命科学研究所所长、中国科学院院士王晓东评价 DrugCLIP"为万众创新提供了可能,为新药研发创造了更好的生态环境"。
5. 与 AlphaFold 生态深度融合。DrugCLIP 的设计充分考虑了与 AlphaFold 预测结构的兼容性,使其成为"后 AlphaFold 时代"药物发现的理想工具。
六、应用前景
DrugCLIP 的出现有望在以下领域产生深远影响:
1. 难成药靶点的药物发现。人类基因组中约85%的疾病相关蛋白被认为是"难成药"靶点,主要原因包括缺乏结构信息、缺乏已知配体和结合口袋特征不明显。DrugCLIP 结合 AlphaFold 预测结构,有望系统性攻克这一领域。
2. 罕见病药物研发。罕见病通常涉及特定基因突变导致的蛋白质功能异常,患者群体小、商业回报有限,传统药企投入意愿不足。DrugCLIP 的低成本、高通量筛选模式,使得针对罕见病靶点的药物发现变得经济可行。
3. 药物重定位(Drug Repurposing)。通过将已上市药物与全基因组靶点进行大规模匹配,DrugCLIP 可以系统性发现老药的新用途,大幅缩短药物开发周期。
4. 多靶点药物设计。复杂疾病(如癌症、神经退行性疾病)通常涉及多个信号通路和靶点。DrugCLIP 的全基因组筛选能力使多靶点协同药物设计成为可能。
5. AI 驱动的药物研发生态。结合 DrugCLIP 的广度筛选与 OpenComplex2 等原子级模拟工具的深度验证,有望构建从靶点发现到先导化合物优化的全链条 AI 药物研发管线。
七、研究局限性与未来方向
尽管 DrugCLIP 取得了令人瞩目的成果,但仍存在以下局限性和改进空间:
1. 结合亲和力的定量精度。DrugCLIP 目前主要解决"是否结合"的分类问题,对于结合亲和力(Kd/IC50)的精确定量预测仍需改进。后续版本可引入回归模块,实现从"定性筛选"到"定量评分"的升级。
2. 共价抑制剂的预测。当前模型主要针对非共价结合模式,对于共价抑制剂(近年来在 KRAS G12C 等靶点上取得突破)的预测能力有限。
3. 蛋白质动态构象。DrugCLIP 基于静态蛋白质结构进行筛选,无法捕捉蛋白质在生理条件下的动态构象变化。整合分子动力学模拟或 AlphaFold 的构象采样能力,有望进一步提升筛选精度。
4. ADMET 性质预测。先导化合物不仅需要与靶蛋白结合,还需具备良好的吸收、分布、代谢、排泄和毒性(ADMET)特征。DrugCLIP 目前未整合 ADMET 预测模块,未来可扩展为多目标优化框架。
5. 实验验证的通量限制。虽然计算筛选已实现超高通量,但下游的实验验证仍受限于传统生物学实验的通量。发展自动化高通量实验平台与 AI 筛选的闭环迭代,将是推动该领域发展的关键。
八、结论
DrugCLIP 的发表是"后 AlphaFold 时代"药物发现领域的一个里程碑。它将深度对比学习的算法创新与 AlphaFold 预测的海量蛋白质结构相结合,首次实现了全基因组规模的药物虚拟筛选,将计算速度提升了百万倍以上。更重要的是,DrugCLIP 通过免费的 GenomeScreenDB 数据库和 DrugCLIP 平台,将这一能力向全球科研社区开放,正在重塑药物发现的路径与边界。
从 AlphaFold 到 DrugCLIP,AI 正在系统性地改变药物研发的底层逻辑——从"实验驱动、偶然发现"到"计算驱动、系统探索"。DrugCLIP 不仅是一个工具,更是一种范式的宣言:在全基因组尺度上理解药物-靶点相互作用,正从愿景变为现实。
参考文献
1. Oprea TI, et al. Unexplored therapeutic opportunities in the human genome. *Nature Reviews Drug Discovery*, 2018; 17(5): 317-332.
2. Wouters OJ, McKee M, Luyten J. Estimated research and development investment needed to bring a new medicine to market, 2009-2018. *JAMA*, 2020; 323(9): 844-853.
3. Shoichet BK. Virtual screening of chemical libraries. *Nature*, 2004; 432(7019): 862-865.
4. Lyu J, et al. Ultra-large library docking for discovering new chemotypes. *Nature*, 2019; 566(7743): 224-229.
5. Jumper J, et al. Highly accurate protein structure prediction with AlphaFold. *Nature*, 2021; 596(7873): 583-589.
6. The Nobel Prize in Chemistry 2024. NobelPrize.org. https://www.nobelprize.org/prizes/chemistry/2024/
7. Jia Y, Gao B, Tan J, Zheng J, Hong X, et al. Deep contrastive learning enables genome-wide virtual screening. *Science*, 2026; 391(6781): eads9530. DOI: 10.1126/science.ads9530. PMID: 41505557.
8. Ren F, et al. AlphaFold-Multimer accelerates drug discovery for GPCR targets. *Nature Communications*, 2026. PMID: 42026072.
平台地址:https://www.drugclip.com
论文地址:https://www.science.org/doi/10.1126/science.ads9530
