当前位置: 首页 > news >正文

单细胞NMF非负矩阵分解降维及亚群分析应用

单细胞NMF非负矩阵分解降维及亚群分析应用

NMF非负矩阵分解是一种降维技术,可以应用在高维数据如单细胞数据(104基因乘以105细胞)、空转数据邻域分析:squidpy+stSME+NMF分解中的分析方法。以单细胞转录组数据为例,它可以从稀疏的单细胞表达矩阵提取有意义的一组非负数据向量的特征,从而达到分解scRNA-seq数据,有效减少大型矩阵复杂程度的目的。(之前也介绍了空转NMF降维分群)

NMF其实是一种通用的数学分解方法,一开始并不是专门为了单细胞数据分析而开发。标准NMF的计算过程如下,对一个非负矩阵A(比如基因 × 细胞的表达矩阵)而言:

𝑨 ≈ 𝑊 × 𝐻

𝑊:基因 × 成分(每个成分是一组共表达基因)

𝐻:成分 × 细胞(每个细胞中各成分的活性)

约束条件是三个矩阵中的所有元素都应为零或正数

对输入数据、归一化方式、k 的选择都非常敏感。同时不局限于单一组学,比如bulk、单细胞、空间转录组都可以可以的。在单细胞里,一个“成分”通常被解释为一个gene-program。特点是完全无监督。不关心你这个成分是 cell cycle、stress、hypoxia还是技术噪声。

基于这样的背景,2024年5月一篇发表在bioRxiv预印本的文章**《Wounding triggers invasive progression in human basal cell carcinoma》提出了一个新的分析R包“GeneNMF”**。GeneNMF包利用非负矩阵分解(NMF)从 scRNA-seq 数据中简化基因程序的识别。在scRNA-seq数据的情况下,A 是大小为 g×c 的观察基因表达矩阵(其中 g 是基因数量,c 是细胞数量);H 是大小为 k×c 的嵌入矩阵(其中 k 是基因程序的数量),包含低维空间中细胞的坐标;W 是大小为 g×k 的特征加载矩阵,包含每个基因在每个程序中的系数。

其在单细胞数据分析过程中的应用场景包括了:

(1)数据降维;

(2)基因表达数据中的特征模块识别,换句话说可以得到一系列具有共表达模式的基因模块;

(3)样本间批次效应去除,例如我们可以将其应用在肿瘤样本中,NMF通过对每个样本分别分析,可以在不做批次校正的情况下提取基因程序,这避免了在癌症数据中把真实的肿瘤异质性错误地当成技术噪声消除掉,因此特别适合用于癌细胞的基因程序分析。

因此接下来我们结合两个示例数据,分别来源于8例PBMC血液样本以及11例基底细胞癌恶性细胞样本的数据,分别应用NMF非负矩阵分解方法进分析。以展示其在降维分群、特征模块识别和批次效应去除方面的作用。

学习手册部分图片集锦:

优惠订阅资料或参与课程请联系[Biomamba_zhushou]

更多生信教程可见:为什么我们敢开放终身订阅

-Biomamba

所见即所得

以html格式提供学习手册,可在浏览器中打开并翻阅学习:‍

教程目录:

零、欢迎关注Biomamba生信基地

一、前言

二、包的安装和加载

三、数据准备

四、NMF用于降维

4.1 runNMF参数解读

4.2 数据降维

五、在多个样本中保持一致性的NMF分析结果

5.1 参数解读

5.2 多样本NMF分析

六、GSEA富集分析

七、基因集合评分

八、基于NMF基因集合评分结果重新降维

九、NMF在肿瘤样本中的应用

9.1 数据准备

9.2 识别多个肿瘤样本间一致的NMF程序

9.3 提取meta-programs结果

9.4 可视化meta-programs之间相似性

十、下游分析

10.1 meta-programs过滤

10.2 meta-programs阈值调整

10.3 配色优化

10.4 查看核心meta-programs的驱动基因

10.5 富集、评分和重新降维聚类

10.6 亚群细分

十一、小结

十二、软件版本

十三、参考

十四、单细胞教程全收录

十五、欢迎致谢

文末下载链接中包含以下内容:

测试文件,总大小442.00MB

**

持续更新中~

解锁前需阅读:2026订阅须知

订阅后解锁下方学习手册链接:

http://www.jsqmd.com/news/1071701/

相关文章:

  • SAM7X以太网MAC高级功能:哈希过滤与VLAN标签处理实战
  • “无主权路由”的奇袭:Sakana AI 如何在地缘政治夹缝中完成技术突围?
  • 基于ATAK51003-V1的汽车无钥匙进入系统开发实战指南
  • AT24MAC芯片实战:硬件唯一ID在嵌入式设备身份认证与量产中的应用
  • 社区直播选软件,老板别只会看“花架子”,这三点才是真正的“铁门槛”
  • Atmel ATA820x UHF接收器:ASK/FSK双模、低功耗与高灵敏度设计实战
  • MPLAB Harmony加密库实战:从ECC/RSA到3DES/SHA的嵌入式安全开发指南
  • Article A (EN)
  • 你的agent简历上缺的不是技术栈,缺的是Know-how
  • 齐纳二极管芯片CD52xx系列选型与应用实战指南
  • 2026年首脑培训学校口碑怎么样
  • 2026年同城外卖优惠新趋势:供应商如何脱颖而出
  • AT42QT2160电容触摸芯片I2C配置实战:从通信基础到抗干扰调优
  • KeePassXC:本地优先的开源密码管理器
  • 嵌入式系统硬件安全实践:TPM开发套件I2C/SPI集成与TSS软件栈应用
  • 工业级电容触摸设计:AT42QT2640 FMEA自检与抗干扰实战
  • 一场秋衣上新,AI三天出图抵过拍摄团队一个月
  • ATmega M1高级功能实战:DIDR抗干扰、DAC输出与Bootloader设计
  • AVR异步定时器中断丢失:BOD禁用下的低功耗陷阱与解决方案
  • 为什么说大多数私域都是伪命题?聊聊CRMEB系统下的“信任阶梯”模型
  • ATmega164P/324P/644P ADC配置与低功耗设计实战指南
  • 分布式数据库原理及技术
  • ATtiny1634 ADC精度优化与热敏电阻温度测量实战
  • CoreABC APB总线控制器:嵌入式系统中的轻量级硬件状态机实战
  • nlp自然语言处理(2)
  • ATmega645功耗优化与电气特性设计实战指南
  • 易元智创APP:账号数据智能复盘,海南易元现实科技有限公司精准优化流量短板
  • Atmel-ICE调试器:嵌入式开发中AVR与ARM双架构调试的瑞士军刀
  • 芯片级原子钟SA.45s原理、低功耗设计与实战应用指南
  • 模型训练过程中会设置topkp和温度吗?