当前位置: 首页 > news >正文

《自然方法》生命科学的GPT时刻:scGPT重新定义单细胞多组学分析

🚀科研不掉发,快来这个地表最强的生信神仙网站:
中国银河生信云平台
👉 立即访问:https://usegalaxy.cn

最佳Galaxy生信云平台教程:从入门到精通(图文版)

转录组分析流程和工具大全(最强总结)

全网最佳WGCNA分析教程,一键完成


你是否想过,用 AI 大模型读懂千万级单细胞数据,让细胞类型、基因调控、药物扰动都能被精准预测?

2024 年 2 月,Nature Methods期刊发表了由 Bo Wang 团队研发的单细胞生成式基础模型 scGPT,为单细胞多组学研究提供通用解决方案。今天我们就来拆解一下这篇生信文章:scGPT: toward building a foundation-model for single-cell multi-omics using generative AI

研究概述

本研究借鉴自然语言处理中生成式预训练思路,构建单细胞领域基础模型 scGPT,在 3300 万个正常人类细胞上完成预训练,通过迁移学习适配细胞类型注释、批次整合、多组学整合、扰动响应预测、基因网络推断等下游任务,验证大模型在单细胞研究中的通用性与可扩展性。

实验设计

  1. 1. 数据层面:整合 CELLxGENE 中 3300 万个人类正常单细胞 RNA 测序数据,覆盖 51 个组织、441 项研究,同时构建血液、肺、泛癌等器官/疾病专属数据集;

  2. 2. 模型层面:基于 Transformer 架构设计掩码注意力机制,适配非序列组学数据,分预训练与微调两阶段完成训练;

  3. 3. 验证层面:在胰腺、多发性硬化、肿瘤浸润髓系细胞等数据集完成细胞类型注释测试,在多个 Perturb-seq 数据集完成扰动预测测试,在多批次、多组学数据集完成整合效果测试。

研究结果

图 1展示 scGPT 整体框架、输入嵌入结构、Transformer 模块,以及预训练数据规模与细胞嵌入 UMAP 可视化结果。


图 2验证 scGPT 在人胰腺、多发性硬化、肿瘤浸润髓系细胞数据集上的细胞类型注释精度,优于 TOSICA、scBERT 等方法。


图 3证实 scGPT 可精准预测未见过的基因扰动表达变化,并能反向推断扰动来源,性能优于 GEARS 与线性回归模型。


图 4表明 scGPT 在多批次 scRNA-seq 整合、单细胞多组学整合任务中,生物信号保留与批次校正效果优于 scVI、Seurat、Harmony 等工具。


图 5显示 scGPT 学习的基因嵌入可准确区分 HLA I/II 类、CD 分子等功能基因集,并挖掘细胞类型特异的基因程序。


图 6基于注意力权重解析扰动前后基因网络变化,所识别的靶基因与 ChIP-Atlas 数据库验证结果一致。


补充结果证实预训练数据量越大、预训练背景与目标数据越匹配,下游微调性能越好。

数据分析

生信分析

1. 单细胞转录组学(scRNA-seq)
  • • 数据预处理:count 矩阵标准化、log1p 转换、高可变基因筛选、表达值分箱;

  • • 降维与可视化:UMAP、Leiden 聚类;

  • • 下游分析:细胞类型注释、批次效应校正、参考映射、基因调控网络推断。

2. 单细胞染色质开放组学(scATAC-seq)
  • • 数据预处理:peak 计数标准化、高可变峰筛选;

  • • 与转录组联合嵌入,完成多组学整合分析。

3. 单细胞蛋白组学(CITE-seq)
  • • 蛋白表达量标准化;

  • • 与转录组数据联合建模,实现多模态细胞嵌入。

4. 多组学联合分析
  • • 统一基因、染色质峰、蛋白标记为 token 输入;

  • • 模态嵌入与批次嵌入拼接,完成配对/马赛克多组学数据整合。

统计分析

  • • 分类任务:准确率、精确率、召回率、宏 F1、混淆矩阵;

  • • 整合任务:NMI、ARI、ASW、AvgBIO、AvgBATCH、GraphConn;

  • • 扰动预测:Pearson delta 相关系数、Top-K 检索命中率;

  • • 富集分析:Bonferroni 校正,Reactome 通路富集检验。

总结

研究意义

scGPT 作为首个面向单细胞多组学的大规模生成式基础模型,实现“通用预训练、按需微调”的标准化流程,在细胞注释、扰动预测、多组学整合等核心任务达到 SOTA,同时可挖掘基因互作与细胞状态特异调控网络,为单细胞生物学提供可扩展、可迁移的 AI 分析框架,推动基础生物学与转化医学研究。

文章复现

这篇文章的原始数据和生信分析代码都公开了,非常全面。

  • • 原始数据仓库

    • • CELLxGENE Census(预训练数据):https://chanuckerberg.github.io/cellxgene-census/python-api.html

    • • 处理后数据集:https://github.com/bowang-lab/scGPT ;https://doi.org/10.6084/m9.figshare.24954519.v1

  • • 生信分析代码仓库

    • • GitHub:https://github.com/bowang-lab/scGPT

    • • Zenodo:https://doi.org/10.5281/zenodo.10466117

中国银河生信云平台精品课程

中国银河生信云平台(UseGalaxy.cn)致力于生信平权。海量云端算力、8000+生信工具结合AI,推动生信进入3.0时代:数据分析从本地到云端,从手工到 AI。生信3.0时代交流群,加入免费领取学习资料。

左手代码,右手云平台。特色生信培训,助你丝滑发顶刊:

单细胞数据分析培训班(Python/Galaxy可选),不怕学不会

Galaxy平台操作入门 & RNA-seq数据分析实战

咨询小助手:usegalaxy

http://www.jsqmd.com/news/570952/

相关文章:

  • GLM-4.1V-9B-Base部署教程:Docker镜像体积精简与启动速度优化
  • SEO优化基础教程_SEO培训班怎么选择
  • Linux作业
  • 轨道巡检机器人如何实现自主充电
  • 2026年小程序定制开发公司推荐:十大权威榜单及甄选测评指南 - 品牌种草官
  • Cesium绘制区域避坑指南:从鼠标事件、坐标转换到性能优化,一次讲清楚
  • 打卡信奥刷题(3046)用C++实现信奥题 P6641 [CCO 2020] A Game with Grundy
  • M2LOrder模型Python爬虫实战:应对动态渲染与数据加密网站
  • Python中JSON数据验证的三种专业级方案
  • Hunyuan-MT-7B企业部署案例:出海SaaS公司集成Pixel Language Portal构建内部翻译中台
  • 移动端组件PC端适配实战:van-password-input无法点击的3种解决方案对比
  • 单细胞数据分析培训班(Python/Galaxy可选),不怕学不会
  • 3种人机协作模式重塑剧本创作:Dramatron的开源AI辅助方案
  • FireRedASR Pro入门指南:环境配置、音频上传与识别结果导出
  • EasyAnimateV5图生视频模型商业应用:社交媒体营销视频快速制作
  • 不用写触发器!帆软填报报表自动记录创建/修改时间的终极方案
  • Solaar完全指南:Linux系统下Logitech设备连接与管理终极解决方案
  • ALOS 12.5米高精度DEM全国数字高程模型|科研级地形数据,支持全国无缝使用
  • 显卡驱动清理终极方案:Display Driver Uninstaller (DDU) 完整使用指南
  • Intv_AI_MK11数据库课程设计:智能学术助手系统开发全记录
  • SMUDebugTool调试工具实战指南:从故障解决到性能优化全流程
  • Pixel Couplet Gen实战案例:教育类小程序集成像素春联生成助力传统文化传播
  • “3 岁孩子春天运动次数,科学规划益处多。”
  • mengrennwpu
  • 2026金三银四变天了:企业要的是能用的人,不是“有潜力的人“
  • 快速构建集成claude code的智能代码编辑web应用原型
  • 终极B站字幕提取工具:三步搞定视频文字内容
  • 除了画面惊艳,UE5的Lumen全局光照对游戏帧数影响有多大?实测数据来了
  • 2026年好评如潮的绳锯切割源头厂家,选它们就对了,行业内有名的绳锯切割推荐技术领航,品质之选 - 品牌推荐师
  • 挑卡通动漫头像AI生成技巧