当前位置: 首页 > news >正文

港科大夏俊:肽串联质谱预测统一评估基准

摘要

串联质谱为复杂生物样本中蛋白质的高通量鉴定与定量提供了技术框架。在计算蛋白质组学中,肽段串联质谱(MS/MS)谱预测是核心任务,可支撑大规模肽段鉴定与定量等下游应用。尽管深度学习架构大幅提升了预测精度,但3类评估问题掩盖了该领域的真实进展:

❶ 不一致的数据预处理与不兼容的模型输出空间阻碍了模型的公平对比;

❷ 有缺陷的数据分割策略会引发隐匿的序列泄露,虚高模型性能;

❸ 现有评估通常缺乏全面的跨物种基准测试,也未系统评估模型对关键实验条件的鲁棒性。

为解决上述问题,本文提出肽段串联质谱谱预测统一基准PepSpecBench。该基准对多个互补公共数据集进行标准化数据预处理,采用严格的骨干不相交分割策略消除序列泄露,并在统一的碎片离子表征空间中评估各类架构;同时构建全面的多物种评估套件与基于物理原理的元数据扰动探针,用于评估模型鲁棒性与仪器感知能力。本研究揭示了6个代表性模型此前未被发现的性能差异与鲁棒性缺陷,为未来模型设计、评估与实际部署提供了可落地的参考。

https://huggingface.co/datasets/Chris-young-2004/PepSpecBench

junxia@hkust-gz.edu.cn

研究方法

任务与基准定义

表1本文所用基准组件的描述性统计

所有组件共享相同的肽段长度、电荷与翻译后修饰(PTM)范围;域内数据分别在同一单元格中报告训练/验证/测试集占比。

基线模型与空间对齐

图1PepSpecBench框架总览

该流程通过4个关键阶段系统性设计以确保公平且可诊断的评估:

(1) 标准化数据整合,在统一预处理框架下对齐PROSPECT与MassIVE-KB数据集;

(2) 防泄露数据划分,执行严格的骨干不相交分割策略;

(3) 规范化输出投影,将离散离子阶梯、连续全谱等各类模型预测结果对齐至统一表征空间;

(4) 全面鲁棒性评估,测试跨物种分布外泛化能力与物理敏感性。

实验结果

统一的物种内基准测试

表2统一规范空间下的物种内基准测试结果(骨干不相交分割,中位数)

每个数据源的最优结果加粗显示

数据泄露的影响

表3PROSPECT数据集上Prosit模型的分割消融指标(中位数)

差值为相对于骨干不相交分割的结果

跨物种泛化能力

表4跨物种泛化结果(主要分布外结果)

物种列数值为光谱角(SA)/光谱角相似度(SAS)中位数;每个物种的最优分布外结果加粗显示;大肠杆菌结果为2个数据源的聚合值。

肽段属性分析

图2多属性分析(前4个模型,统一规范空间)

行依次为PROSPECT数据集的光谱角(SA)、MassIVE-KB数据集的光谱角(SA)、PROSPECT数据集的皮尔逊相关系数(PCC)、MassIVE-KB数据集的皮尔逊相关系数(PCC);列依次为肽段长度、前体电荷、相对光谱角/皮尔逊相关系数随长度的衰减(基线为[6,10)区间);阴影区域为bootstrap置信区间。

物理参数敏感性

3物理参数敏感性:3组并行实验

(a) PROSPECT数据集上的归一化碰撞能量(NCE)校准分析:中位数光谱角随overriding NCE的变化;虚线为真实NCE=30。

(b) MassIVE-KB数据集上的盲法NCE扰动:NCE从25变为30时的光谱角变化值。

(c) PROSPECT迷你数据集上的电荷态扰动:前体电荷从2强制改为3时,光谱角相似度大于0.90的谱图占比。

详细总结

思维导图

3大不可忽视的评估缺陷

数据集构建

异构输出空间对齐

为6类代表性模型设计专属投影函数,将其原生输出统一映射至234维规范空间:

数据泄露:随机分割严重虚高性能

以Prosit在PROSPECT上的实验为例:

参考

PepSpecBench: A Unified Evaluation Benchmark for Peptide Tandem Mass Spectrometry Prediction

https://doi.org/10.48550/arXiv.2605.01945

260503PepSpecBench.pdf

注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。

http://www.jsqmd.com/news/922675/

相关文章:

  • 计算机组成原理 | 只读存储器ROM
  • 手把手教你学Simulink——基于双有源桥(DAB)的直流变压器(DCX)恒压控制仿真
  • 2026年4月花灯供货厂家推荐,互动花灯/氛围装饰灯/演绎花灯/水上花灯/巡游花灯/营销花灯/庙会花灯,花灯企业推荐 - 品牌推荐师
  • AI教材生成利器!低查重工具,实现教材编写新飞跃!
  • 2026年东营苏瀚装饰发展纪——实接轨省级行业标准,诚信服务立足本土 - GrowthUME
  • 为什么92%的市场人用错Gemini写文案?,深度解析提示词结构、品牌语调对齐与合规性红线
  • 终极指南:使用DRG存档编辑器快速解锁《深岩银河》全职业体验
  • 2026年大型振动电机厂家怎么选?看懂这一篇就够了——深度推荐恒升振动电机 - GrowthUME
  • 别再让骰子散架了!用Python+Word批量生成3CM幼儿卡纸骰子(附完整代码与A4排版技巧)
  • 告别License焦虑:一套组合拳管理你的Tasking TriCore v6.3r1授权(Windows/Linux都适用)
  • 5分钟掌握DLSS Swapper:终极游戏性能优化智能管理工具
  • 保姆级教程:用联想官方Recovery工具给旧电脑‘洗白’重装Win10/Win11
  • 江苏南京成人高考靠谱机构排行 核心指标实测对比 - 奔跑123
  • 2026这6款神级降AIGC软件全网首测,一键把AI检测率精准控到安全区! - 降AI小能手
  • 如何用Layerdivider在5分钟内将单张插画变成专业PSD分层文件:完整指南
  • 番茄小说永久保存终极指南:免费开源工具轻松下载完整小说库
  • 2026年4月国内有实力的发电机直销工厂有哪些,发电机/发电机组,发电机源头厂家有哪些 - 品牌推荐师
  • 别只用来补全代码!VSCode + GitHub Copilot 的5个隐藏用法和效率翻倍技巧
  • 终极免费指南:如何用Adobe GenP 3.0解锁Creative Cloud全系列软件 [特殊字符]
  • 2026年AI论文写作软件深度评测:6款工具合规过检得分排名
  • 从一次‘除零错误’崩溃说起:手把手调试Synchronous Exception的完整流程与工具使用
  • 别再只会用GUI了!手把手教你用mongosh命令行搞定MongoDB日常运维(含连接、查询、聚合实战)
  • 二手摩托车发动机烧机油怎么检测? - GrowthUME
  • 基于Arduino Mega的USB电缆追踪器:硬件设计与自动化测试实践
  • 江苏成人高考靠谱机构排行 5家合规机构实测对比 - 奔跑123
  • 2026年家居定制多维观察:木饰面隐形门护墙板相关特点梳理 - 产品测评官
  • 你的三维重建不准?可能是相机标定这3个坑没避开(张正友方法实战复盘)
  • 3步终极方案:Fast-GitHub让GitHub下载速度提升10倍的完整指南
  • 立足海南热带气候 美彦驱蚊系统多场景落地 解锁海岛全域无蚊户外生活 - GrowthUME
  • Unity 2022.3 导出 OBJ 模型到 Blender 3.6 的完整避坑指南(含坐标系、材质修复)