全球首个同时融合3类信息的生物医药标准化图谱格式
动机
多组学数据分析是精准医学科研发现的关键,但将组学分析结果转化为全新科研假说仍存在显著难题:领域专家需人工梳理海量关联生物医药先验知识以生成假说,该方式主观性强、难以规模化落地。大语言模型(LLM)可加速科研发现,但其推理性能依赖结构化、可溯源且完备的生物医药先验知识;而现有生物知识零散分布于海量异构数据库,各库命名体系不统一,难以整合为标准化资源支撑AI规模化解析,制约人工智能依托生物数据开展科学发现。
Fuhai.Li@wustl.edu
#生物医药 #知识图谱 #多组学 #实体匹配 #阿尔茨海默 #大模型 #可视化GUI
引言
图1 BioMedGraphica与现有主流生物医药知识图谱数据库对比
对比维度:生物实体完备性、实体文本注释/先验知识、多组学数据与文本知识映射能力
方法
BioMedGraphica数据源总述
图1 BioMedGraphica整体架构总览图
上图:多数据库实体数据整合流程;
下图:关联关系标准化与知识图谱构建流程;
中图:平台完整处理管线:基于用户输入完成实体识别、关系构建,输出适配AI建模的标准化图谱文件。
实体数据库收集与说明
表2 实体数据源信息汇总
收录数据库全称、对应实体类型、原始数据条目总量
关系数据库收集与说明
表3 关系数据源基础信息汇总
收录数据库全称、关联2端实体、边类型、原始关联条目数量;末列代表各数据库原始数据集总记录数
图2 BioMedGraphica整合实体与关联关系概览图
(A) 数据源与实体分布:左侧标注OMIM、HGNC、Ensembl等数据源,定义启动子、基因、转录本等11类实体;右侧柱状图为原始全量图谱(BMG)与去孤立节点连通图谱(BMGC)的实体数量对数刻度柱状图。
(B) 实体关联和弦图:不同色块代表各类实体,外圈刻度量化各类实体跨类型关联总边数,内部弦线表征实体间关联方向与规模,并标注各类关系编号(如R1:启动子-基因、R2:基因-转录本)与关键关联的边总量。
关联关系整合方案
表4 标准化后各类关联关系数据汇总
字段:关联类型、数据源、原始边数、匹配后唯一边数、整合最终总边数
结果
本研究开发一体化平台BioMedGraphica,整合43个数据库资源,涵盖11类实体、30种关联关系,构建统一文本先验知识图谱,包含2,306,921个实体与27,232,091条关联边。本文提出「文本-数值图(TNG)」 全新数据结构:文本信息承载转录起始位点、生物学功能、作用机制等先验知识,数值表征各类生物定量特征,依托图谱关联实现生物学机制挖掘。TNG打通先验知识库与用户自有实验数据,是构建新型图分析模型的优质标准化数据结构。
一体化生物医药文本先验知识图谱
表5 全量图谱与连通图谱各类实体数量统计
BMG = 原始全量BioMedGraphica图谱,BMGC = 剔除孤立节点的连通子图谱;表格统计各实体数量、占比、连通图谱实体在全量图谱中的占比。
表6 各类关联关系统计汇总
统计全量图谱/连通图谱各类关系的边数量与占比;启动子-基因为虚拟生成关系,数据分别标注2套图谱数值。
实体识别算法
图3 BioMedGraphica软件实体匹配与整体处理管线
(A) 双匹配策略原理:标准化ID实体采用精准硬匹配,疾病/药物/表型/暴露采用预训练大模型语义软匹配;
(B) 实体名称与用户特征名称嵌入空间示意图;
(C) 基于余弦相似度筛选候选匹配、人工确认生成映射字典;
(D) 多平台实体匹配性能对比柱状图;
(E) 平台全流程:用户文件导入→实体识别→匹配映射→关系筛选与节点自动补全→输出带文本注释的AI就绪图谱。
数据获取与平台实操演示
实例分析:基于BioMedGraphica构建文本-数值图
图4 BioMedGraphica网页端GUI界面及埃默里血管队列数据集实操
(A) 平台文件上传界面,支持上传4类输入文件用于TNG构建;
(B) 知识图谱可视化预览:高亮所选实体与关联,自动标注缺失实体类型并支持虚拟节点补充;
(C) 软匹配候选结果页面:展示候选BMG编号,需人工确认映射关系;
(D) 任务输出压缩包目录结构,内含图谱特征矩阵、实体-ID映射文件;详细操作教程参考项目README文档链接。
数据
附带使用教程、案例代码,项目源代码GitHub
https://github.com/FuhaiLiAiLab/BioMedGraphica
HuggingFace数据集仓库公开下载知识库数据集
https://huggingface.co/datasets/FuhaiLiAiLab/BioMedGraphica
官方网页在线试用
https://app.biomedgraphica.org
详细总结
思维导图
参考
Bioinformatics. 2026 Jun 5:btag355. doi: 10.1093/bioinformatics/btag355.
BioMedGraphica: An All-in-One Platform for Joint Textual Biomedical Prior Knowledge and Numeric Graph Generation
260605BioMedGraphica.pdf
注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。
