当前位置: 首页 > news >正文

知识图谱加速COVID-19科研信息发现

利用知识图谱简化COVID-19研究

知识图谱是一种组织信息的方式,以便更高效地进行探索和分析。像所有图谱一样,它由节点(通常描绘为圆圈)和边(通常描绘为连接节点的线段)组成。在知识图谱中,节点通常代表实体,边则表示实体之间的关系。

2020年5月,某中心网络服务部门公开发布了COVID-19知识图谱(CKG)。该图谱组织了COVID-19开放研究数据集(CORD-19)中的信息。CORD-19是一个由某机构人工智能研究所领导的联盟创建的、不断增长的关于COVID-19及相关主题的学术出版物存储库。CKG为某中心的CORD-19排名和推荐系统提供了支持。

在早些时候于AACL-IJCNLP“将结构化知识与神经网络整合用于自然语言处理”研讨会上发表的一篇论文中,我们解释了如何创建CKG,并描述了几种可能的应用,包括针对特定主题的论文排名和相关论文的发现。

图谱结构如何?

该图谱包含五种类型的节点:

  • 论文节点:包含论文的元数据,如标题和ID号。
  • 作者节点:包含作者的姓名。
  • 机构节点:包含机构的名称和位置。
  • 概念节点:包含论文中出现的特定医学术语,例如布洛芬、心功能不全和哮喘。
  • 主题节点:包含广泛的研究领域,例如基因组学、流行病学和病毒学。

该图谱还包含五种类型的边:

  • authored_by:将论文与其作者链接起来。
  • affiliated_with:将作者与其所属机构链接起来。
  • associated_concept:将论文与其相关概念链接起来。
  • associated_topic:将论文与其主题链接起来。
  • cites:将论文链接到引用它的其他论文。

图谱是如何创建的?

CORD-19数据库中论文的标准化格式允许轻松提取标题、摘要、正文、作者、机构和引用。

为了识别概念,使用了某中心Comprehend Medical服务,该服务从文本中提取医学实体并将其分类为实体类型。例如,给定句子“腹部超声提示急性阑尾炎”,该服务会提取以下实体:腹部(解剖结构)超声(检查治疗程序)急性阑尾炎(医疗状况)

为了提取主题,使用了一种名为Z-LDA的潜在狄利克雷分配的扩展方法,该方法使用每篇论文的标题、摘要和正文文本进行训练。Z-LDA假设论文中最具特征的术语反映了某个主题,并根据该术语在整个语料库中的出现频率选择其中一个作为该主题的标签。通过这种方式生成的主题列表在医疗专业人员的帮助下最终缩减为10个主题。

应用示例:基于引用的排名

在学术界,衡量论文相关性的一个标准是引用它的出版物数量。图结构使引用计数变得容易。但它也支持自定义计数,例如处理特定主题或包含特定概念的出版物进行的引用。

相似论文引擎

给定一篇论文,相似论文引擎会检索一个包含k篇相似论文的列表。它使用两种不同的相似性度量,在最后一步进行组合。

一种度量使用SciBert嵌入,它建立在流行的BERT语言模型之上,但针对科学文本进行了微调。SciBert将输入句子表示为多维空间中的点,使得涉及相同科学概念的句子倾向于聚集在一起。

我们为论文的标题、摘要和正文创建独立的嵌入,然后将它们平均以生成最终的嵌入。先前的研究表明,标题嵌入可能比正文嵌入更容易区分,而正文嵌入则携带更丰富的信息。因此,选择了一种赋予两者相等权重的嵌入方案。平均嵌入在表示空间中的接近程度表明了相关论文的相似性。

第二个模型使用另一种嵌入方式,即知识图谱嵌入,它试图保留知识图谱中编码的关系。如果图中的两个实体通过一条代表关系的边连接,那么第一个实体的嵌入,加上代表该关系的向量后,应该在第二个实体位置的附近(理想情况下是精确位置)产生一个点。

为了创建知识图谱嵌入网络,使用了DGL-KE工具,该工具在某中心开发,并扩展了早期的深度图库(DGL)。

作为训练数据,从CKG中提取向量三元组(h, r, t)的集合,其中h是头实体,r是关系类型,t是尾实体。这些三元组是正面的训练样本。负面样本是通过随机替换现有三元组的头或尾实体来合成的。

使用这些样本,训练模型以区分错误链接和真实链接。结果是为图中的每个节点生成一个嵌入。

在此过程结束时,将语义嵌入和知识图谱嵌入连接起来,创造一个新的、更高维度的表示空间。通过计算该空间中前k个最接近的向量(余弦距离),即可获得前k篇最相似的论文。

鉴于缺乏论文推荐的基准事实,通过分析性的定量和定性指标来评估该算法。这些指标包括但不限于流行度分析、源论文与推荐论文之间的主题交集、低维聚类和摘要比较。关于方法的更多信息,可以参阅某中心博客上的两篇文章:“使用某中心 Neptune、某中心 Comprehend Medical 和 Tom Sawyer Graph Database Browser 探索COVID-19科学研究”以及“构建和查询某中心 COVID-19知识图谱”。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/214683/

相关文章:

  • 【风电光伏功率预测】阵风(Gust)预测到底差在哪?把“阵风”当一等公民:从气象输入到功率风险的工程落地方案
  • AI助力NGINX下载配置:自动生成高性能服务器代码
  • MGeo模型对体育场馆更衣室地址的识别能力
  • 【高精度气象】台风季怎么把损失降到最低?从台风路径预测到检修计划的“提前量”全流程打法
  • AI如何帮你快速实现CANopen协议通信?
  • Node.js零基础入门:用快马平台写出第一个API
  • 普通人做不了量化交易?打破三个误解,你也可以入门
  • MGeo在电商平台商家入驻审核中的应用
  • Service Mesh 下的流量治理:灰度、熔断、限流的深度实践与代价剖析
  • ‌零信任架构下的测试策略
  • 5分钟用C++实现随机数测试原型
  • 毕业设计救星:基于MGeo的地址相似度计算系统快速搭建
  • 算法竞赛备考冲刺必刷题(C++) | 洛谷 P1638 逛画展
  • 如何快速部署AI图像模型?Z-Image-Turbo脚本启动全解析
  • ANSYS小白必看:2022R1最简单安装教程
  • 新手必看:什么是FLASH编程算法加载失败?如何解决?
  • 【心电图信号】基于希尔伯特 - 黄变换HHT的非平稳心电图ECG信号时频分析Matlab代码
  • AI如何助力金花游戏开发?快马平台一键生成代码
  • PYTEST入门指南:5分钟写出第一个测试用例
  • LIBRETV快速原型:1小时内验证你的电视应用创意
  • Python异步爬虫实战:高效采集百万量级菜谱数据的技术解析
  • AI如何帮你自动生成业务架构图?
  • 多模型协作:当MGeo遇到传统地址匹配算法
  • 零基础入门:10分钟用FingerprintJS实现浏览器指纹识别
  • 疫情防控中的地址技术:MGeo在流调溯源中的实战
  • 3分钟搭建:模拟网站封锁提示的演示系统
  • 懒人专属:用预装MGeo的云端镜像实现中文地址智能去重
  • 零基础教程:Ubuntu SSH远程登录图文详解
  • c语言宏定义之高级技巧参数设置封装(亲测好用)
  • TinyML实战:智能农业中的微型机器学习应用