当前位置: 首页 > news >正文

贺福初院士等:首个10亿级、AI就绪的蛋白质组学数据门户

摘要

人工智能(AI)正在重塑蛋白质组学分析流程,在肽段鉴定灵敏度与定量性能上均实现显著提升。然而,受限于大规模、高质量、标注统一的数据集匮乏,深度学习模型在蛋白质组学领域的潜力尚未被充分挖掘。本文构建1个10亿级、AI就绪的质谱(MS)数据门户π-MSNet。该门户采用统一的鉴定与质控流程,整合了来自10种仪器类型、55个物种的36,356次液相色谱-串联质谱(LC-MS/MS)数据,包含超 16.6亿张MS/MS谱图、5.01亿条肽谱匹配(PSM)结果与900万个前体离子。依托社区协作,数据通过国际化、交互式、动态更新的网络平台共享。π-MSNet内置MSNetLoader Python接口,可无缝、可扩展地调取数据,原生支持PyTorch与TensorFlow框架,为谱图预测、保留时间预测、肽段从头测序3大核心任务提供了适配AI的模型训练与基准测试框架。基于π-MSNet重训主流模型后,模型性能较原始版本持续提升;优化模型已集成至π-MSNet智能代理,支持交互式、免部署使用。结合样本-数据关系格式(SDRF)元数据、开源云端分析流程与社区驱动的动态数据提交机制,π-MSNet成为支撑蛋白质组学AI可复现基准测试、稳健模型训练与创新加速的活体基础资源。

changcheng@ncpsb.org.cn

xielinhai@ncpsb.org.cn

yperez@ebi.ac.uk

hefuchu@cashq.ac.cn

#蛋白质组学 #质谱数据 #人工智能就绪 #活体数据门户 #深度学习 #肽谱匹配 #液相色谱串联质谱

结果

π-MSNet:蛋白质组学下游任务的基础资源

1π-MSNet作为蛋白质组学下游任务的基础资源

(a) π-MSNet可适配蛋白质组学中各类下游任务,所有任务均集成至π-MSNet智能代理。

(b) π-MSNet处理流程:quantms重分析以SDRF元数据文件、原始质谱数据和FASTA格式蛋白质序列数据库为输入;除timsTOF数据集外,所有质谱数据采用多搜索引擎结合Percolator工具分析以消除引擎特异性偏差,随后按1%肽谱匹配(PSM)错误发现率(FDR)过滤;timsTOF数据集采用Sage工具分析;针对翻译后修饰(PTM)数据集,在PSM过滤后额外施加< 0.01的修饰定位错误率(FLR)阈值。

π-MSNet数据概览

2π-MSNet概览

(a) 不同物种的肽谱匹配(PSM)数量(真核生物:绿色;病毒:红色;古菌:蓝色;原核生物:橙色)。

(b) 19种修饰类型对应的PSM数量。

(c) 按仪器上市时间顺时针排序的10种仪器类型的PSM分布。

(d) 4种酶解方式的PSM分布。

MS²谱图强度预测的缩放定律与模型基准测试

图3 MS²谱图强度预测的缩放定律与模型基准测试

训练所用(a)数据集规模、(b)模型规模增大时,模型性能平稳提升;在无其他因素限制时,模型经验性能与各变量呈幂律关系。

(c) 3种已发表模型与经π-MSNet重训的AlphaPeptDeep在不同测试集上的整体MS²预测准确率(PCC90,即皮尔逊相关系数>0.9的占比),横轴为数据集名称。

(d) 不同模型对未见前体的MS²预测准确率。

基于置信度的保留时间(RT)预测评估

图4 基于置信度的保留时间(RT)预测评估

(a) 不同软件工具中平均置信度>0.5的肽段维恩图。

(b) 平均置信度阈值与肽段数量的关系。

(c-f) 4种置信度计算方法下,置信度与肽段数量的对应关系。

基于π-MSNet的肽段从头测序性能提升

图5 利用π-MSNet提升肽段从头测序性能

(a) 多物种数据集上π-HelixNovo-MSNet与π-HelixNovo-raw的肽段鉴定精度对比。

(b) π-MSNet与「9物种」数据集(剔除饭豆数据)的核心特征对比。

(c) π-MSNet中的肽段长度分布。

数据

https://msnet.ncpsb.org.cn

https://portal.quantms.org

代码

将π-MSNet数据集加载至PyTorch和TensorFlow、以及重训练模型

https://github.com/PHOENIXcenter/pi-MSnet

详细总结

思维导图

核心数据指标

参考

π-MSNet: A billion-scale, AI-ready living proteomics data portal

doi: https://doi.org/10.64898/2026.04.13.718149

260415π-MSNet.pdf

注:AI辅助创作,如有错误欢迎指出。内容仅供参考,不构成任何建议。

http://www.jsqmd.com/news/671034/

相关文章:

  • Axure中文语言包:3分钟免费实现专业原型工具全界面汉化
  • 当燧石变成代码:从《新概念英语》一篇课文看软件架构中的‘不朽层’设计
  • GoUtil最佳实践:10个真实项目中的高效应用案例
  • 2026鲁灰石材章丘黑产业升级 山东鑫鑫石材筑牢工程供货优势 - 资讯焦点
  • 如何在10分钟内为Unity游戏配置自动翻译插件?
  • 选购折叠、纤维、木质活动屏风隔断,哪家性价比高,为你揭晓 - 工业品网
  • 颠覆性文本挖掘:零代码门槛的KH Coder如何让海量文字开口说话
  • Mac飞秋:打破平台壁垒的终极局域网通信解决方案
  • LyricsX:macOS终极歌词解决方案深度解析与实战指南
  • 小白程序员必看!收藏这份AI大模型学习进阶指南,轻松入行!
  • 别再傻傻分不清!一张图看懂门禁卡里的ID卡、M1卡和CPU卡到底差在哪
  • TouchGal完整指南:一站式Galgame社区平台快速上手教程
  • 5分钟快速上手:终极暗黑破坏神2存档编辑器完全指南
  • 靠谱的不用开挖换下水管道机构分析,让你少花冤枉钱 - 工业设备
  • 【路径规划】基于A星算法的校园清扫无人车路径规划Matlab仿真
  • 告别轮询!手把手教你用STM32的停止模式+串口中断,实现RS485设备超低功耗监听
  • 自动化驱动管理架构重构:Brigadier革新企业级Boot Camp部署效率
  • 用74LS194A和Arduino做个炫酷的流水灯:深入理解移位寄存器的串并转换与扩展
  • 终极tbls配置指南:25个.tbls.yml关键参数让数据库文档自动化
  • 喜马拉雅下载器:高效批量下载VIP与付费音频的完整指南
  • 关键词提取-关键词抽取API接口介绍
  • 聊聊户外广告投放品牌公司,户外独特广告牌及优质地段广告投放靠谱吗 - 工业推荐榜
  • 告别命令行!用VSCode插件一键搞定ESP32开发环境(ESP-IDF v4.4保姆级教程)
  • 通达信缠论分析插件终极指南:5分钟实现专业级技术分析
  • 8个让Python代码效率翻倍的简单技巧
  • 让你的百度网盘在Mac上飞起来:破解SVIP限制的完整指南
  • 不止是 curl:当 apt 说 ‘has no installation candidate’ 时,你的 Docker 镜像或 WSL2 环境可能缺了关键组件
  • TorchIO性能优化秘籍:如何加速大规模医学影像数据处理
  • Serverless Components变量与输出引用:跨组件资源共享的终极技巧
  • 如何用Rath实现数据智能准备:从繁琐清洗到一键转换的完整指南