当前位置：首页 > news >正文

AlphaFold更上一层楼

news 2026/7/7 0:21:19

这个包含2亿个蛋白质结构预测的数据库，现已纳入同源２聚体，增添了新的生物学意义。

这是来自Google DeepMind数据集、含转录延伸因子Eaf N端结构域蛋白的同源2聚体AlphaFold分子模型。

AlphaFold现已能够预测同源２聚体复合物，包括由转录延伸因子Eaf形成的复合物，图中所示为其N端区域。

图片来源：Google DeepMind/EMBL-EBI (CC-BY-4.0)

这个收录了地球上几乎所有已知蛋白质预测结构的数据库再度扩容，对理解生命基本单元如何协同工作也更具价值。

AlphaFold蛋白质结构数据库首次加入了蛋白质复合物预测——新增170万个同源２聚体，即由同１分子的２条链相互作用形成的２聚体。

该免费数据库由位于英国欣克斯顿的欧洲分子生物学实验室下属欧洲生物信息研究所（EMBL-EBI）维护，目前存储约2亿个单个蛋白质结构预测，均由伦敦Google DeepMind开发的AI工具AlphaFold2完成。

自2021年发布以来，该数据库已成为生命科学发现的基石，也是从分子层面研究生命的项目首选参考。但此前版本缺少蛋白质如何形成复合物的预测，而这对其功能往往不可或缺。例如，作为重要药物靶点的病毒蛋白HIV-1 protease，只有在２个相同蛋白形成有功能的酶时才起作用。

这些蛋白此前已作为单体收入数据库，但条目只揭示了部分信息。「我们当时想：能不能把AlphaFold数据库提升到下一阶段，把生命树中大量复合物预测也包含进来？」韩国首尔国立大学计算生物学家Martin Steinegger说，他是该项目成员之一。

复合物相互作用

Steinegger表示，即便只对２个蛋白的小型复合物做预测，都是项关键挑战。「这和单体预测完全是２回事。」蛋白质复合物预测计算量极大，因此１个联合团队应运而生，包括他的实验室、EMBL-EBI、Google DeepMind，以及位于加州圣克拉拉的芯片厂商NVIDIA。

团队聚焦20个研究最充分的物种的蛋白质复合物，包括人、小鼠、酵母，以及结核分枝杆菌（Mycobacterium tuberculosis）等人类致病菌。

研究人员最初对这20个物种的所有蛋白都做了同源２聚体预测，总计约3,000万个。但NVIDIA生物信息学家Christian Dallago表示，考虑到非专业人士可能不加批判地使用AlphaFold数据库，团队只纳入了达到高质量阈值的预测结果。

EMBL-EBI生物信息学家Sameer Velankar补充说：即便经过质控，这170万个同源２聚体复合物预测中仍有部分可能不准确。「研究者必须谨慎。」

生物学意义

Velankar称，未来几周内，AlphaFold数据库还将加入异源２聚体——由２种不同蛋白构成的复合物。团队已预测出800万个这类结构，数据来自另一蛋白质互作库，但目前尚不确定最终会有多少纳入AlphaFold数据库。他表示，所有预测的复合物，哪怕因质量较低未被收入数据库，也会在其他地方免费开放。

瑞典隆德大学计算生物学家Gemma Atkinson认为，在AlphaFold数据库中加入复合物，是理解大量蛋白如何工作的重要一步。她的团队曾构建１个包含约2.7万个病毒复合物预测的小型数据库，发现对某些蛋白而言，只有将其建模为配对形式，才能准确预测３维结构。

斯德哥尔摩大学计算生物学家Arne Elofsson表示，从AlphaFold预测中识别真实的同源２聚体复合物并非易事。使用这些预测的研究者最好自行开展实验验证，确保预测的配对在真实生物体内存在。「核心问题永远是：这是否具有生物学意义。」