当前位置: 首页 > news >正文

全球首个同时融合3类信息的生物医药标准化图谱格式

动机

多组学数据分析是精准医学科研发现的关键,但将组学分析结果转化为全新科研假说仍存在显著难题:领域专家需人工梳理海量关联生物医药先验知识以生成假说,该方式主观性强、难以规模化落地。大语言模型(LLM)可加速科研发现,但其推理性能依赖结构化、可溯源且完备的生物医药先验知识;而现有生物知识零散分布于海量异构数据库,各库命名体系不统一,难以整合为标准化资源支撑AI规模化解析,制约人工智能依托生物数据开展科学发现。

Fuhai.Li@wustl.edu

#生物医药 #知识图谱 #多组学 #实体匹配 #阿尔茨海默 #大模型 #可视化GUI

引言

图1 BioMedGraphica与现有主流生物医药知识图谱数据库对比

对比维度:生物实体完备性、实体文本注释/先验知识、多组学数据与文本知识映射能力

方法

BioMedGraphica数据源总述

图1 BioMedGraphica整体架构总览图

上图:多数据库实体数据整合流程;

下图:关联关系标准化与知识图谱构建流程;

中图:平台完整处理管线:基于用户输入完成实体识别、关系构建,输出适配AI建模的标准化图谱文件。

实体数据库收集与说明

表2 实体数据源信息汇总

收录数据库全称、对应实体类型、原始数据条目总量

关系数据库收集与说明

表3 关系数据源基础信息汇总

收录数据库全称、关联2端实体、边类型、原始关联条目数量;末列代表各数据库原始数据集总记录数

图2 BioMedGraphica整合实体与关联关系概览图

(A) 数据源与实体分布:左侧标注OMIM、HGNC、Ensembl等数据源,定义启动子、基因、转录本等11类实体;右侧柱状图为原始全量图谱(BMG)与去孤立节点连通图谱(BMGC)的实体数量对数刻度柱状图。

(B) 实体关联和弦图:不同色块代表各类实体,外圈刻度量化各类实体跨类型关联总边数,内部弦线表征实体间关联方向与规模,并标注各类关系编号(如R1:启动子-基因、R2:基因-转录本)与关键关联的边总量。

关联关系整合方案

表4 标准化后各类关联关系数据汇总

字段:关联类型、数据源、原始边数、匹配后唯一边数、整合最终总边数

结果

本研究开发一体化平台BioMedGraphica,整合43个数据库资源,涵盖11类实体、30种关联关系,构建统一文本先验知识图谱,包含2,306,921个实体与27,232,091条关联边。本文提出「文本-数值图(TNG)」 全新数据结构:文本信息承载转录起始位点、生物学功能、作用机制等先验知识,数值表征各类生物定量特征,依托图谱关联实现生物学机制挖掘。TNG打通先验知识库与用户自有实验数据,是构建新型图分析模型的优质标准化数据结构。

一体化生物医药文本先验知识图谱

表5 全量图谱与连通图谱各类实体数量统计

BMG = 原始全量BioMedGraphica图谱,BMGC = 剔除孤立节点的连通子图谱;表格统计各实体数量、占比、连通图谱实体在全量图谱中的占比。

表6 各类关联关系统计汇总

统计全量图谱/连通图谱各类关系的边数量与占比;启动子-基因为虚拟生成关系,数据分别标注2套图谱数值。

实体识别算法

图3 BioMedGraphica软件实体匹配与整体处理管线

(A) 双匹配策略原理:标准化ID实体采用精准硬匹配,疾病/药物/表型/暴露采用预训练大模型语义软匹配;

(B) 实体名称与用户特征名称嵌入空间示意图;

(C) 基于余弦相似度筛选候选匹配、人工确认生成映射字典;

(D) 多平台实体匹配性能对比柱状图;

(E) 平台全流程:用户文件导入→实体识别→匹配映射→关系筛选与节点自动补全→输出带文本注释的AI就绪图谱。

数据获取与平台实操演示

实例分析:基于BioMedGraphica构建文本-数值图

图4 BioMedGraphica网页端GUI界面及埃默里血管队列数据集实操

(A) 平台文件上传界面,支持上传4类输入文件用于TNG构建;

(B) 知识图谱可视化预览:高亮所选实体与关联,自动标注缺失实体类型并支持虚拟节点补充;

(C) 软匹配候选结果页面:展示候选BMG编号,需人工确认映射关系;

(D) 任务输出压缩包目录结构,内含图谱特征矩阵、实体-ID映射文件;详细操作教程参考项目README文档链接。

数据

附带使用教程、案例代码,项目源代码GitHub

https://github.com/FuhaiLiAiLab/BioMedGraphica

HuggingFace数据集仓库公开下载知识库数据集

https://huggingface.co/datasets/FuhaiLiAiLab/BioMedGraphica

官方网页在线试用

https://app.biomedgraphica.org

详细总结

思维导图

参考

Bioinformatics. 2026 Jun 5:btag355. doi: 10.1093/bioinformatics/btag355.

BioMedGraphica: An All-in-One Platform for Joint Textual Biomedical Prior Knowledge and Numeric Graph Generation

260605BioMedGraphica.pdf

注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。

http://www.jsqmd.com/news/968191/

相关文章:

  • Matlab红外图像分层增强工具:引导滤波实现+细节调节+即跑测试样例
  • 跟我一起学“计算机网络”通识-应用层
  • BBDown:三分钟掌握高效B站视频下载技巧
  • AutoGen与CrewAI本质区别:通信协议vs组织契约
  • 亲测12款论文降AI率工具,效果最好的竟然是它!
  • 突破macOS限制:如何让10美元鼠标超越苹果触控板
  • Windows触控板三指拖拽:如何用开源项目实现macOS级手势体验
  • 如何在现代Web应用中实现专业级图片前后对比效果?
  • 抗混叠滤波器设计:运算放大器选型四步法与核心参数解析
  • FPGA开发工具演进:从Quartus II 7.1看EDA工具的核心技术与设计流程
  • 德州市2026年本地上门黄金回收门店指南 彩金+铂金+金条+白银回收门店联系方式推荐 - 千叶啊
  • 终极植物大战僵尸修改器:3分钟解锁无限资源与全功能控制
  • LabVIEW调用外部DLL实战:从数据类型映射到崩溃排查全解析
  • 智慧树刷课插件:3步搞定自动播放的终极指南
  • 探索Inkscape中的光学设计革命:从概念草图到物理验证的完整工作流
  • 高效自动化抢票解决方案:DamaiHelper智能脚本完全指南
  • 从零到精通:Atmosphere大气层自定义固件的完整实战指南
  • AI与大模型新闻日报 | 2026-06-07
  • 音频数字化全解析:从采样量化到嵌入式采集实战
  • AICoverGen终极指南:5分钟将任何声音变成AI歌手
  • ImageGlass:为什么这款免费开源图像浏览器能成为你的图片管理终极解决方案?
  • BLE功耗优化实战:从连接间隔与MTU协商入手,解决穿戴设备续航痛点
  • 恩施土家族苗族自治州2026年本地上门黄金回收门店指南 彩金+铂金+金条+白银回收门店联系方式推荐 - 千叶啊
  • AI Agent可观测性:从APM到认知可观测的范式升级
  • STM32中断优先级配置详解:从NVIC原理到实战避坑指南
  • 京东自动化脚本终极指南:7天搭建全自动京豆获取系统
  • 从价格战到价值战:工程师视角下的系统性成本优化实战指南
  • 74HC244与74HC245:总线驱动与信号增强的经典方案解析
  • 嵌入式开发实战:代码签名技术如何成为知识产权保护的利器
  • 终极指南:用500KB工具完全掌控你的Alienware灯光与风扇系统