当前位置: 首页 > news >正文

【文献分享】CellWhisperer多模态学习使得基于对话的方式能够对单细胞数据进行探索

文章目录

    • 介绍
    • 代码
    • 参考

介绍

单细胞测序能够以前所未有的规模和细节对生物样本进行特征描述,但数据解读仍颇具挑战性。在此,我们推出了“CellWhisperer”,这是一种基于对话的基因表达查询的人工智能(AI)模型和软件工具。我们通过对比学习对 100 万个 RNA 测序数据集与由 AI 管理的描述建立了转录组及其文本注释的多模态嵌入。这个嵌入为一个大型语言模型提供了信息,该模型能够通过自然语言对话回答关于细胞和基因的问题。我们对 CellWhisperer 在零样本预测细胞类型和其他生物学注释方面的性能进行了基准测试,并展示了其在人类胚胎发育的元分析中的生物发现应用。我们将 CellWhisperer 对话框与 CELLxGENE 浏览器集成在一起,使用户能够通过结合图形和对话界面来交互式地探索基因表达。总之,CellWhisperer 利用大规模社区规模的数据库来连接转录组和文本,从而能够通过自然语言对话实现对单细胞 RNA 测序数据的交互式探索。

CellWhisperer 训练数据集生成的概念性框架(左)、模型训练与推理(中)以及在单细胞 RNA 测序数据分析中的应用(右)。b,来自 GEO 数据库的人类转录组的 CellWhisperer 嵌入的 UMAP 可视化。使用 Leiden 算法计算聚类,并由 CellWhisperer 生成聚类标签。CellWhisperer 标注的数据集可在项目网站(https://cellwhisperer.bocklab.org/geo)上进行交互式分析。c,针对自由文本查询词“感染”的 CellWhisperer 评分投影在 b 中转录组嵌入的 UMAP 上。d,根据 CellWhisperer 生成的聚类标签选择的转录组的样本元数据检索(此处为:GEO 提交日期)。

基因表达分析在细胞和组织的特性鉴定中得到了广泛应用1,2。大规模的 RNA 测序(RNA-seq)通过一种简便且经济高效的检测方法,能够对细胞状态和生物学功能进行详细评估3。此外,通过单细胞 RNA 测序(scRNA-seq),研究人员能够解析组织、器官和疾病中的细胞组成及其生物学异质性4。大规模的单细胞 RNA 测序也是人类细胞图谱项目的核心部分,该项目旨在创建人体内所有细胞类型的参考图谱5。
一个典型的单细胞 RNA 测序(scRNA-seq)数据集可以用一个包含约 20,000 个基因以及数千或数百万个单细胞的计数矩阵来表示。分析和解读这类数据集是一项复杂的任务,需要兼具生物信息学技能和特定应用领域的生物学知识。为了便于进行 scRNA-seq 数据分析,已经开发出了一系列软件工具,用于涵盖各种任务,包括数据可视化、细胞聚类、细胞类型注释、差异表达和基因集分析等6。此外,基于深度学习的“单细胞基础模型”(scFMs)已在大规模的 scRNA-seq 数据集上进行训练,有望超越专门工具,并支持那些它们未明确针对的广泛分析任务7,8。
在这里,我们展示了如何通过自然语言对单细胞 RNA 测序数据进行探索,使用户能够用英语来查询细胞信息,无需遵循任何特定的格式或语法规则。我们的 CellWhisperer 框架支持自由文本搜索(例如“给我展示肠道中的组织驻留 T 细胞”),并能回答关于细胞的一系列广泛问题(例如,“这些选定的细胞是什么?”、“这些细胞中哪些基因的表达水平很高?”、“KLRD1 在自然杀伤(NK)细胞中的作用是什么?”)。该模型的回答是基于所选的单细胞 RNA 测序数据以及大型语言模型(LLM)的生物学知识相结合的结果,例如“选定的细胞似乎是 CD16+ NK 细胞,这是 NK 细胞的一个子集,在先天免疫反应中起着至关重要的作用 […]”,“这些细胞中表达最高的基因包括 NKG7、KLRD1、GNLY、GZMA、PRF1 […]”,“KLRD1(CD94)是一种在 NK 细胞激活和细胞毒性中起作用的受体。它能够识别靶细胞上的 MHC I 分子并触发 NK 细胞介导的细胞毒性”。
CellWhisperer 通过两个相互交织的人工智能(AI)模型实现了这一功能。首先,CellWhisperer 嵌入模型通过多模态对比学习9 将 RNA 谱图及其由元数据衍生的文本注释整合在一起,从而创建了转录组和文本的联合多模态嵌入。CellWhisperer 的训练数据包括超过一百万个转录组及其自然语言描述,这些数据是由人工智能辅助的整理从两个大型数据库(基因表达综合数据库10,11 和 CELLxGENE 计划12)中获得的。其次,CellWhisperer 聊天模型采用开放权重的语言模型13,14 来回答关于细胞状态的自由文本问题,同时将用户提供的转录组谱图作为多模态输入加以考虑。将这两个模型结合起来,CellWhisperer 使基于交互式聊天的 scRNA-seq 数据探索成为可能,我们将其整合到了广泛使用的 CELLxGENE Explorer15 中。CellWhisperer 软件、模型、训练数据和源代码可在网上获取(https://cellwhisperer.bocklab.org),使用示例见图 5 和补充注释 1。
总之,我们开发了 CellWhisperer 作为自然语言作为一种直观的渠道来与 scRNA-seq 数据集进行交互的证明概念(补充视频 1)。这得益于一个结合了转录组和文本的多模态人工智能模型,以及一个整合了生物知识的聊天模型。我们设想通过自然语言对数据进行查询将成为未来基于人工智能的生物信息学研究助手的关键要素。

代码

https://cellwhisperer.bocklab.org/

参考

  • Multimodal learning enables chat-based exploration of single-cell data
  • https://cellwhisperer.bocklab.org/
http://www.jsqmd.com/news/108063/

相关文章:

  • 【文献分享】High frequency提供了代码和数据
  • 59、高级文件 I/O 技术全解析
  • Kotaemon日志追踪功能详解:让每次回答都可审计
  • 60、Linux系统的高级文件I/O、故障排除与最佳实践
  • 高效开发RAG应用的秘密武器:Kotaemon技术剖析
  • 未经授权不得使用他人声音进行商业活动
  • EmotiVoice在语音聊天机器人中的共情能力体现
  • 高效GPU算力加持下,EmotiVoice语音生成速度提升5倍
  • Kotaemon支持工具调用的完整实现方案
  • 如何监控Kotaemon服务的运行状态与响应延迟?
  • EmotiVoice语音合成在剧场演出背景音中的创新用法
  • 如何用Kotaemon构建可追溯的智能问答系统?
  • EmotiVoice开源模型二次开发入门教程
  • Kotaemon如何避免大模型幻觉?答案在这里
  • EmotiVoice开源模型许可证说明与商业授权路径
  • EmotiVoice如何实现性别音色的自由切换?
  • Kotaemon本地化部署指南:保障数据安全的最佳实践
  • For-Love-Life,我热爱的是生活不是代码和数据(表白我的数字爱情)
  • 双指针-快慢指针(龟兔指针)
  • EmotiVoice语音合成技术在教育领域的创新应用
  • 双指针-左右指针
  • EmotiVoice情感语音生成与用户接受度调研
  • Kotaemon支持语音输入输出,拓展应用场景边界
  • React Native项目中调用EmotiVoice的方法
  • EmotiVoice语音合成中的语气疑问句自然表达
  • EmotiVoice如何控制语速而不失真?参数调节技巧
  • EmotiVoice降低语音AI使用门槛
  • Kotaemon + 大模型Token:高效处理海量文本生成任务
  • EmotiVoice支持语音情感迁移至不同音色
  • AI语音滥用风险防控:EmotiVoice的应对措施