当前位置: 首页 > news >正文

纪宏超团队:代谢组新一代深度学习注释

摘要

未知代谢物的结构解析是植物代谢组学的核心瓶颈,植物次生代谢物的化学多样性远超现有质谱库的覆盖范围。本文提出基于液相色谱-串联质谱(LC-MS/MS)的化合物注释增强平台DeepMASS v2,可规模化解决该难题。DeepMASS v2依托在GNPS、NIST及自建资源的百万级质谱上训练的语义表征模型,整合Spec2Vec光谱嵌入、分层可导航小世界(HNSW)图检索,以及分子指纹构建的统一化学空间,可为未知质谱匹配结构相近的邻域化合物,并根据候选结构与预测化学环境的空间邻近度完成排序。经CASMI数据集与精选天然产物数据集基准测试,DeepMASS v2性能优于SIRIUS、CFM-ID、MetFrag、MS-Finder等主流计算机模拟注释工具;对于质谱库未收录的代谢物仍保持优异性能,具备真正的未知物发现能力。将其应用于大规模植物数据集,验证了该工具可有效拓展可解析代谢组的覆盖范围。DeepMASS v2以易用网页平台形式交付,为学界提供可扩展、可解释、高通量的结构注释方案,助力全面解析植物化学多样性,加速植物分子科学领域的天然产物发现。

duran@caas.cn

jianbinlab@caas.cn

jihongchao@caas.cn

#液相色谱 #串联质谱 #LCMS #代谢组学 #代谢物结构注释 #深度学习 #植物次生代谢物 #天然产物

结果

DeepMASS v2在植物代谢组学工作流中的定位

图1DeepMASS v2工作流程

原始质谱数据经预处理生成特征表及对应的1级、2级质谱;1级质谱用于推断分子式,并从化学数据库检索候选结构;2级质谱经语义模型嵌入表征后,与参考谱库比对以查找结构相近的邻域化合物。候选结构与参考结构均通过分子指纹投影至统一化学空间,通过评估未知物在已知邻域中的相对空间位置推断其化学结构。

网页服务器、独立图形界面及使用方法

图2DeepMASS v2网页服务器界面截图

界面包含质谱展示、元数据展示、预测结果展示等功能组件,同时提供评估注释结果可信度的核心决策信息。

基准数据集性能评估

图3 基准数据集性能评估结果

(a-b) 不同方法的注释性能对比,展示前k个预测结果中包含正确结构的比例;3条曲线从上到下分别对应全部质谱、代谢物在参考库中的质谱、代谢物不在参考库中的质谱。

(a) CASMI数据集;

(b) 天然产物数据集。

(c) 错误注释结果与真实结构在Murcko骨架、化合物超类上的一致性。

(d) 以瑞香科定制瑞香烷2萜库为候选池,58个瑞香烷2萜的排序准确率。

可解释性与置信度评估

图4 DeepMASS v2的可解释性与置信度评估

(a) 6-溴喹啉-2 (1H)- 酮与N-乙酰-5-氨基水杨酸的代表性注释示例。通过Morgan指纹的UMAP降维可视化化学空间,蓝色点为预测的前20个参考结构,绿色点为检索到的候选结构,红色点为正确注释结果,标注了共享子结构的邻近化合物。查询质谱与邻域质谱的2级谱图显示出高度的光谱与结构相似性(红色:查询质谱;蓝色:邻域质谱)。

(b) 整合排序得分与前列候选结构相似性的综合置信度评估;高置信度注释通常得分更高,且与前列邻域的化学空间距离更小,可提升代谢物鉴定的可靠性。

案例研究1:番茄成熟过程生物标志物发现

图5 番茄成熟过程代谢组分析

(a) 不同成熟阶段的番茄样品。

(b) 分别经DeepMASS v2与TraceFinder注释后样品的主成分分析散点图。

(c) 番茄不同成熟阶段中,鉴定到的差异代谢物相对丰度热图。

(d) 4种代表性鉴定代谢物的提取离子流图与2级质谱对比。

案例研究2:580种植物抗肿瘤代谢物全景分析

图6 基于DeepMASS v2的跨植物物种抗肿瘤天然产物大规模分析

(a) 注释得到的抗肿瘤代谢物在不同植物物种中的分布;

(b) 分子指纹UMAP投影,展示这类化合物占据的广泛且异质的化学空间;

(c) DeepMASS v2排序位次与参考谱图光谱熵得分的关联;

(d) 各排序位次中,光谱熵得分大于0.7的代谢物数量;

(e) 主要植物科与抗肿瘤代谢物化学类别的2分对应关系;

(f) 丁烯基苯酞与山姜素的代表性示例,可在多个物种中高置信度鉴定,且与标准品质谱高度吻合。

数据

番茄成熟案例研究的代谢组数据集可在ScienceDB平台获取,资源编号

31253.11.sciencedb.40096

抗肿瘤代谢物数据集与本文所用2级质谱标准品数据集可通过联系作者获取

本文其他相关数据已随代码同步发布

代码

项目源代码、编译安装包、说明文档,以及配套的最小示例与数据集,均已托管于GitHub仓库

https://github.com/hcji/DeepMASS2_GUI

在线网页服务可通过以下地址访问

http://deepmass.cn

详细总结

思维导图

参考

Plant Commun. 2026 Jun 26:101976. doi: 10.1016/j.xplc.2026.101976.

DeepMASS v2: An enhanced deep learning platform for large-scale discovery and structural annotation of unknown plant metabolites

260626DeepMASS_v2.pdf

注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。

http://www.jsqmd.com/news/1090545/

相关文章:

  • 3步免费实现VR视频转2D播放:MPV插件终极解决方案
  • 如何彻底解决网盘下载限速问题:九大网盘直链解析工具完整指南
  • 60+专业Freeplane思维导图模板:免费开源高效创作指南
  • Spring Boot AOP 拦截逻辑性能分析
  • 3分钟掌握微信防撤回:macOS用户的终极消息保护方案
  • 第七周小学期记录
  • VMware Log4j2漏洞应急响应:从原理到实战修复指南
  • 3步解决macOS SMAPI模组加载器安全限制的实用方案
  • 【ISO15031_OBD诊断】-9.1-$09服务Request vehicle information实战解析:从协议到数据获取
  • QModMaster:免费开源ModBus调试工具的完整使用指南
  • 文献综述:认知心理学发展
  • Android自动化输入完全指南:ADB虚拟键盘的7大实战技巧与解决方案
  • Magisk V24.1 源码编译实战:从环境配置到APK生成的完整避坑指南
  • 手把手教你用Python搭建一个轴承故障预测模型
  • 终极暗黑破坏神II角色编辑工具:5分钟打造完美角色的完整指南
  • 掌握专注写作:用FocusWriter解锁高效创作潜能
  • 小米手表表盘设计终极指南:如何用Mi-Create免费创建个性化表盘
  • AI与大模型新闻日报 | 2026-06-29
  • Z-Score 标准化 (Standardization),Min-Max 归一化 (Normalization / Rescaling)
  • 从1Gb/s带宽与10ms时延出发,探究TCP窗口65535字节下的性能极限
  • Guna UI WinForms 2.0.4.4:解锁现代桌面应用界面的高效开发利器
  • 终极指南:3步轻松打造你的个人小说图书馆
  • 工业物联网(IIoT)数据采集的5个坑,我都替你踩过了
  • 如何使用oec-hardware快速验证服务器与openEuler兼容性:完整指南 [特殊字符]
  • 05 通信协议设计时的注意事项
  • 防火墙双机热备实战:从组网规划到状态切换的完整配置解析
  • MSPM0Lxx低功耗与中断协同设计:从原理到实战优化
  • Three.js 简单3d拓扑图教程
  • 芝麻粒TK版:模块化架构下的蚂蚁森林自动化终极方案
  • Win11Debloat深度解析:Windows系统定制化优化技术方案