当前位置: 首页 > news >正文

Petagraph - 大规模生物医学统一知识图谱框架 - Nature Scientific Data

摘要

本文介绍了一种名为Petagraph的大规模统一知识图谱框架,旨在整合生物医学数据。

在过去的十年中,可用的生物医学数据的数量和质量都显著增长。为了更有效地利用这些庞大数据,并减轻与整合多组学数据相关的挑战,我们开发了Petagraph,这是一个包含超过3200万个节点和1.18亿条关系的生物医学知识图谱。Petagraph利用统一生物医学知识图谱(UBKG)中的180多个本体和标准,嵌入数百万个定量基因组学数据点。Petagraph提供了一个连贯的数据环境,使用户能够高效地分析、注释和辨别由UBKG的注释支架支持的多组学复杂数据集内部及跨数据集的关系。我们展示了如何在Petagraph上进行查询,以在各种研究背景和用例中生成有意义的结果。

阅读原文或https://t.zsxq.com/0Wffi获取原文pdf

背景与摘要

生物医学数据的年度增长量和复杂性对有兴趣进行全面数据整合的分析人员构成了重大挑战,并且需要高级工具来挖掘包括组学数据的生物医学数据集的潜力。知识图谱是整合和分析大型生物医学数据集内外异构数据的最佳近期解决方案。知识图谱能够有效地整合和分析大型生物医学数据集内部及其跨数据源的异构数据。诸如节点和链接预测算法、监督和无监督机器学习等方法可以应用于生物医学知识图谱,以应对多种类型的使用场景。

大多数生物医学知识图谱都是针对特定使用场景定制的。近年来,知识图谱的采用迅速增长,其应用涵盖药物发现、药物再利用以及预测药物靶点等。其他生物医学知识图谱提供了整合的异构COVID-19数据、肿瘤学数据集以及基因-疾病关联。这些知识图谱非常具有应用特定性,这对于效率和数据分析来说是可预期的。像Petagraph和GenomicKB这样整合了一般基因组数据的知识图谱18预计数量会增加,这在很大程度上得益于本体论统一项目(如Monarch Initiative)和基因组数据标准(如GA4GH)等项目的成熟。

为促进知识图谱在生物医学研究界的广泛应用,我们旨在开发一个包含本体论、词汇表、标准和常用数据资源(包括组学数据)的模块化知识图谱框架。该框架将使得能够为多种应用高效创建知识图谱。我们对这个知识图谱框架的要求包括需要在一个由相互连接的标准和本体论系统组成的网络中容纳各种组学数据类型,以便摄取并将实验衍生数据无缝链接到图谱内其他数据源。

Github链接: https://github.com/petgraph/petgraph

核心速览

研究背景

  1. 研究问题:这篇文章要解决的问题是如何有效地整合和分析与生物医学数据相关的多组学数据。随着生物医学数据的数量和复杂性不断增加,现有的工具难以高效地处理这些数据。

  2. 研究难点:该问题的研究难点包括:数据来源多样且复杂,数据格式不统一,缺乏标准化的数据整合和分析方法。

  3. 相关工作:该问题的研究相关工作包括:构建特定应用的知识图谱(如药物发现、疾病预测等)、集成COVID-19数据、肿瘤学数据集和基因-疾病关联等。然而,这些知识图谱大多是针对特定应用的,缺乏通用性。

研究方法

这篇论文提出了Petagraph,一个大规模的统一知识图谱框架,用于整合生物分子和生物医学数据。具体来说,

  1. 知识图谱构建:Petagraph基于NIH统一医学语言服务(UMLS)构建,采用属性图形式,包含105个英文本体和标准,定期从UMLS发布中更新。

  2. 数据整合:Petagraph通过添加超过1200万个节点和1.18亿个关系,将多种组学数据嵌入到UBKG的本体结构中。这些数据包括基因组、转录组、蛋白质组和临床数据。

  3. 模块化设计:Petagraph采用模块化设计,允许用户根据特定需求添加和子集化数据。用户可以利用UBKG的摄入协议轻松集成新的数据源。

  4. 数据清洗和格式化:使用OWLNETS格式将数据从多种数据源转换为三元组表示,并使用PheKnowLator包将语义信息转换为OWLNETS格式。

实验设计

  1. 数据收集:从多个数据源收集了包括人类和老鼠的基因-表型映射、基因表达数据、单细胞RNA测序数据等。具体数据集包括HCOP、IMPC/KOMP2、MONDO、PheKnoWLator、RATHCOP、GENCODEHSCLO38、MSIGDB等。

  2. 数据预处理:对收集的数据进行清洗和格式化,确保数据的一致性和完整性。使用预处理脚本将数据转换为UBKG CSV格式。

  3. 知识图谱构建:使用Neo4j批量导入工具将处理后的数据导入到Neo4j数据库中,构建Petagraph知识图谱。

结果与分析

  1. 数据规模:Petagraph包含了超过3200万个节点和1.18亿个关系,增加了超过1200万个节点,关系数量翻倍。

  2. 数据整合效果:通过整合多种数据源,Petagraph能够支持复杂的跨组学数据分析。例如,通过连接基因表达数据和表型数据,可以快速识别与特定表型相关的基因。

  3. 验证分析:通过链接预测、局部结构分析和低维可视化等方法验证了Petagraph的有效性。链接预测结果显示,直接连接的基因对的Common Neighbors得分比随机选择的基因对高出约三个数量级。

  4. 应用案例:通过三个应用案例验证了Petagraph的相关性。第一个案例是重新预测先天性心脏病与基因之间的关系,第二个案例是预测药物副作用,第三个案例是通过最短路径分析研究中枢神经系统形态与脑肿瘤之间的关系。

总体结论

这篇论文提出的Petagraph框架有效地整合了多种生物医学数据,提供了一个通用且可扩展的知识图谱解决方案。通过整合超过3200万个节点和1.18亿个关系,Petagraph支持复杂的跨组学数据分析,并在多个应用案例中验证了其有效性。Petagraph的模块化设计和可扩展性使其成为生物医学研究社区中有价值的资源,有助于新发现的产生和对复杂生物系统的深入理解。

论文评价

优点与创新

  1. 大规模数据集:Petagraph包含超过3200万个节点和1.18亿个关系,是目前最大的生物医学知识图谱之一。

  2. 多领域数据整合:Petagraph整合了基因组学、转录组学、蛋白质组学和临床数据等多种类型的数据,支持系统性的分析。

  3. 模块化设计:Petagraph采用模块化设计,允许用户根据特定需求添加或子集化数据,具有高度的灵活性和可扩展性。

  4. 丰富的注释环境:Petagraph利用统一的生物医学知识图谱(UBKG)的注释支架,提供了丰富的注释环境,便于用户进行数据分析和注释。

  5. 多种应用场景:Petagraph适用于多种研究场景,包括基因候选物的特征选择、药物发现和疾病预测等。

  6. 自动化验证:通过持续集成(CI)工作流程,确保Petagraph的最终产品包含正确的模式和节点、边的数量和类型。

  7. FAIR原则遵循:Petagraph严格遵循FAIR数据原则,确保数据的可发现性、可访问性、互操作性和可复用性。

  8. 开源和可下载:Petagraph提供开源代码和数据,用户可以自由下载和使用,促进了知识的共享和传播。

不足与反思

  1. 数据源复杂性和变化性:整合到图谱中的数据源的固有复杂性和变化性是一个挑战,确保数据摄取和映射过程的准确性和一致性需要专家参与和持续改进。

  2. 计算资源和算法的优化:随着数据集的不断增加和多样化,Petagraph的可扩展性可能会面临约束,需要不断优化计算资源和算法。

  3. 数据选择和集成的潜在偏见:特定数据集的选择和集成可能会引入偏见,影响图谱结果的准确性和解释。数据选择过程中的仔细考虑和透明度是建议的。

关键问题及回答

问题1:Petagraph在数据整合过程中使用了哪些预处理脚本?这些脚本的具体功能是什么?

Petagraph在数据整合过程中使用了多个预处理脚本,具体功能如下:

  • 4DN_LOOP.R:用于创建4DN人类染色体环路的节点和边文件,并将这些节点连接到HSCLO概念节点。

  • 4DN_Q.R:用于创建4DN人类染色体Q值的节点和边文件。

  • ASP2019.ipynb:用于创建人类胚胎心脏单细胞标记数据的节点和边文件。

  • CLINVAR.R:用于创建ClinVar链接的边文件。

  • CMAPR:用于创建CMAP关系的边文件。

  • GTEX.ipynb:用于创建GTEx项目中的TPM基因表达和eQTL数据的节点和边文件。

  • GTEXCOEXP.R:用于创建GTEx共表达数据的边文件。

  • HGNCHPO.ipynb:用于创建HPO与HGNC之间关系的边文件。

  • HPOMP.ipynb:用于创建HPO与MP概念节点之间关系的边文件。

  • HSCLO_GENCODE.R:用于创建ENSEMBL与HSCLO之间关系的边文件。

  • KF_main.ipynb:用于处理Kids First表型与基因型计数数据的工作流程。

  • L1000.R:用于创建LINCS L1000关系的边文件。

  • MPMGI.ipynb:用于创建IMPC小鼠基因数据的节点和边文件。

  • MSIGDB.R:用于创建MSigDB链接基因到通路的边文件。

  • STRING.R:用于创建STRING人类蛋白质相互作用的边文件。

这些脚本确保了数据从原始格式转换为UBKG CSV格式,以便使用Neo4j批量导入工具构建图数据库。

问题2:Petagraph在验证其结构和性能时采用了哪些方法?这些方法的具体结果是什么?

Petagraph在验证其结构和性能时采用了以下方法:

  1. 链接预测:计算了约500,000对基因之间直接连接的Common Neighbors得分,并与随机选择的基因对的得分进行比较。结果表明,直接连接的基因对的Common Neighbors得分比随机选择的基因对高出约三个数量级。

  2. 局部结构分析:分析了Petagraph概念节点子图的传递性和三角形计数,并将其与具有相同节点数和边数但随机连接的图进行比较。结果显示,Petagraph的节点传递性和三角形计数显著高于随机图,表明其数据结构更为有序和信息一致。

  3. 低维可视化:使用UMAP对Petagraph的子图进行了100维嵌入可视化,展示了主要语义类型相关概念节点的空间分布。结果显示,同一语义类型的节点在图中聚集在一起,表明它们之间的连接概率较高。

这些验证方法表明,Petagraph不仅在结构上具有高度的一致性和有序性,而且在性能上也表现出色,能够有效地进行链接预测和分析。

问题3:Petagraph在三个应用案例中展示了其哪些实用性和相关性?

  1. 应用案例1:重新预测先天性心脏病与基因之间的关系

    • 方法:使用拓扑链接预测方法,结合现有基因-表型链接,评估四种方法(优先连接、总邻居、共同邻居和Jaccard指数)的性能。

    • 结果:Common Neighbors方法和Jaccard指数的ROC AUC值大于0.9,接近完美分类器,表明Petagraph能够准确预测基因-表型关系。

  2. 应用案例2:预测药物副作用

    • 方法:查询Petagraph中rofecoxib在所有组织中的共享基因,并计算每个组织的基因比例,找出与rofecoxib扰动基因表达最相关的组织。

    • 结果:心率和血管组织与rofecoxib的扰动基因表达高度相关,排名最高的组织包括右心耳附件、左心室心肌和冠状动脉。

  3. 应用案例3:通过最短路径分析子图

    • 方法:构建并分析一个包含54个异常中枢神经系统形态和54个中枢神经系统肿瘤过程节点的子图,研究节点度分布、链接遍历频率和最短路径长度。

    • 结果:子图显示出无标度网络的特征,少数高度连接的节点(枢纽)与大量连接较少的节点相连,表明这些枢纽基因在异常中枢神经系统形态和脑肿瘤过程中可能起关键作用。

http://www.jsqmd.com/news/377451/

相关文章:

  • AI开发-python-milvus向量数据库(2-4 -milvus-集合表)
  • 【小技巧】压测过程中,直接把日志打到 VictoriaLogs 中
  • springboot基于Java的员工工资管理系统员工考勤(源码+文档+运行视频+讲解视频)
  • 2026高低压开关柜厂家哪家好,箱式变电站、电力变压器、电力工程、变频控制柜品牌推荐 - 深度智识库
  • springboot基于Java的远程就医系统专家预约(源码+文档+运行视频+讲解视频)
  • 2026年8款主流CRM系统深度剖析:适配不同规模企业,精准选型指南 - 毛毛鱼的夏天
  • P1880 学习笔记
  • springboot基于Java的幼儿园管理系统(源码+文档+运行视频+讲解视频)
  • Agilex 5 的LPDDR4 引脚分配在Quartus 25.1.1 Pro版本 Pin Planner里面自动跳变(HPS端LPDDR4的引脚分配直接通过设置qsf文件)
  • springboot基于Java的在线考试系统学习交流(源码+文档+运行视频+讲解视频)
  • 拥抱TypeScript聚焦编辑器核心配置,夯实工程基石
  • 春节档必看哪个电影:当代国安题材《惊蛰无声》推荐理由与口碑答疑(我的选片经验分享) - SFMEDIA
  • springboot基于Java的在线学生作业管理系统(源码+文档+运行视频+讲解视频)
  • 2026中小企业CRM选型攻略:10款产品全链路能力大比拼 - 毛毛鱼的夏天
  • 分期乐购物额度提取指南:教你一步步完成操作! - 团团收购物卡回收
  • LuoguP2218 [HAOI2007] 覆盖问题 题解
  • P1775 学习笔记
  • 大润发购物卡回收技巧分享 - 团团收购物卡回收
  • 【节点】[BakedGI节点]原理解析与实际应用
  • HSC 电路分析(谐振型)
  • 选购自动锁螺丝机有啥技巧,温州宏海机器人自动锁螺丝机咋样? - 工业品牌热点
  • 芯片设计公司用哪款IM最好?(高保密推荐) - 企业数字化观察家
  • A.每日一题——1446. 连续字符
  • 单通道8孔荧光定量PCR仪
  • 回收大润发购物卡,秒到账! - 团团收购物卡回收
  • 2026年入坑程序员请注意:千万别碰这几个即将被计算机行业淘汰的编程语言!Java/python/golang/C/C++/C#/开发/测试运维/后端/码士集团
  • 【计算机基础】-45-RT-Thread-内存管理机制专注于“运行期堆内存”的动态分配与回收,RT-Thread提供了哪些内存管理机制和算法,以及各自的应用场合。
  • SQL Server Management Studio (SSMS) 22.3.0 - 微软数据库管理工具
  • 2.5 采样策略完全指南:温度、top-p、思维链、结构化输出实战
  • 2.3 模型规模与性能的权衡:参数、上下文、算力全攻略