当前位置: 首页 > news >正文

AlphaFold更上一层楼

这个包含2亿个蛋白质结构预测的数据库,现已纳入同源2聚体,增添了新的生物学意义。

这是来自Google DeepMind数据集、含转录延伸因子Eaf N端结构域蛋白的同源2聚体AlphaFold分子模型。

AlphaFold现已能够预测同源2聚体复合物,包括由转录延伸因子Eaf形成的复合物,图中所示为其N端区域。

图片来源:Google DeepMind/EMBL-EBI (CC-BY-4.0)

这个收录了地球上几乎所有已知蛋白质预测结构的数据库再度扩容,对理解生命基本单元如何协同工作也更具价值。

AlphaFold蛋白质结构数据库首次加入了蛋白质复合物预测——新增170万个同源2聚体,即由同1分子的2条链相互作用形成的2聚体。

该免费数据库由位于英国欣克斯顿的欧洲分子生物学实验室下属欧洲生物信息研究所(EMBL-EBI)维护,目前存储约2亿个单个蛋白质结构预测,均由伦敦Google DeepMind开发的AI工具AlphaFold2完成。

自2021年发布以来,该数据库已成为生命科学发现的基石,也是从分子层面研究生命的项目首选参考。但此前版本缺少蛋白质如何形成复合物的预测,而这对其功能往往不可或缺。例如,作为重要药物靶点的病毒蛋白HIV-1 protease,只有在2个相同蛋白形成有功能的酶时才起作用。

这些蛋白此前已作为单体收入数据库,但条目只揭示了部分信息。「我们当时想:能不能把AlphaFold数据库提升到下一阶段,把生命树中大量复合物预测也包含进来?」韩国首尔国立大学计算生物学家Martin Steinegger说,他是该项目成员之一。

复合物相互作用

Steinegger表示,即便只对2个蛋白的小型复合物做预测,都是项关键挑战。「这和单体预测完全是2回事。」蛋白质复合物预测计算量极大,因此1个联合团队应运而生,包括他的实验室、EMBL-EBI、Google DeepMind,以及位于加州圣克拉拉的芯片厂商NVIDIA。

团队聚焦20个研究最充分的物种的蛋白质复合物,包括人、小鼠、酵母,以及结核分枝杆菌(Mycobacterium tuberculosis)等人类致病菌。

研究人员最初对这20个物种的所有蛋白都做了同源2聚体预测,总计约3,000万个。但NVIDIA生物信息学家Christian Dallago表示,考虑到非专业人士可能不加批判地使用AlphaFold数据库,团队只纳入了达到高质量阈值的预测结果。

EMBL-EBI生物信息学家Sameer Velankar补充说:即便经过质控,这170万个同源2聚体复合物预测中仍有部分可能不准确。「研究者必须谨慎。」

生物学意义

Velankar称,未来几周内,AlphaFold数据库还将加入异源2聚体——由2种不同蛋白构成的复合物。团队已预测出800万个这类结构,数据来自另一蛋白质互作库,但目前尚不确定最终会有多少纳入AlphaFold数据库。他表示,所有预测的复合物,哪怕因质量较低未被收入数据库,也会在其他地方免费开放。

瑞典隆德大学计算生物学家Gemma Atkinson认为,在AlphaFold数据库中加入复合物,是理解大量蛋白如何工作的重要一步。她的团队曾构建1个包含约2.7万个病毒复合物预测的小型数据库,发现对某些蛋白而言,只有将其建模为配对形式,才能准确预测3维结构。

斯德哥尔摩大学计算生物学家Arne Elofsson表示,从AlphaFold预测中识别真实的同源2聚体复合物并非易事。使用这些预测的研究者最好自行开展实验验证,确保预测的配对在真实生物体内存在。「核心问题永远是:这是否具有生物学意义。」

详细总结

AlphaFold升级新闻

参考

AlphaFold hits ‘next level’: the AI database now includes protein pairing

doi: https://doi.org/10.1038/d41586-026-00787-3

注:AI辅助创作,如有错误欢迎指出。内容仅供参考,不构成任何建议。

http://www.jsqmd.com/news/521738/

相关文章:

  • 阿里二面:什么是 MySQL 回表查询?如何避免?(修订版)
  • Rerank效果差?Dify 0.7+版本重排序失效全排查,87%团队忽略的3个元数据埋点
  • 雷诺运输定理的三种特殊形式及其在物理建模中的应用
  • 南方电网电费监控完整指南:5分钟实现Home Assistant智能集成
  • 嵌入式按键消抖库DebounceIn:轻量、确定性、零堆内存
  • Step3-VL-10B与Java企业级开发:SpringBoot智能客服集成指南
  • mosdns序列执行器深度解析:构建复杂DNS处理流程
  • 三菱E800变频器CC-Link IE Basic网络通讯配置全解析
  • GLM-4.7-Flash保姆级部署教程:从下载到运行,每一步都详细讲解
  • 避开这些坑!Calico v3.27.0生产环境部署实操记录(含Operator排错技巧)
  • CosyVoice3快速部署指南:一键运行,开启你的语音克隆之旅
  • 科研学习|研究方法——扎根理论三阶段编码如何做?
  • 如何快速掌握Octant:Kubernetes集群状态监控的终极指南
  • 保姆级教程:用Docker快速部署QQ-GPT机器人(基于Napcat和NoneBot)
  • BLE简介、体系结构与核心概念
  • Aria2 完美配置自动化部署:Docker 与一键脚本的完整教程
  • HY-Motion 1.0实战手册:支持中文提示词转义的本地化Prompt工程方案
  • 新手必看:QWEN-AUDIO超简单部署教程,轻松生成带情绪的语音
  • 科研学习|研究方法——定性数据的定量编码方法
  • GD32实战:FlashDB在片外Flash的移植与关键配置详解
  • 如何在《英雄联盟》《无畏契约》中实现完美隐身:Deceive工具终极指南
  • Superagent终极指南:如何通过API快速构建AI智能体应用
  • 终极指南:如何为JavaScript NES模拟器添加TypeScript类型安全
  • ESP32-C3硬件定时器中断库:1个物理定时器虚拟化16个ISR定时器
  • 高效AE转JSON完整指南:从动画设计到数据应用的全流程解析
  • 如何高效利用gh_mirrors/rea/reading:10个提升学习效率的实用技巧
  • Laravel6.x重磅发布:LTS版本新特性全解析
  • 【仅限TOP 5%嵌入式工程师掌握】:基于时序约束的C内存池智能扩容决策树(含FreeRTOS/VxWorks双平台实现)
  • UVM实战:如何正确使用浅拷贝与深拷贝避免内存泄漏(附代码示例)
  • JavaScript与Web开发进阶:gh_mirrors/rea/reading精选资源解析