当前位置: 首页 > news >正文

单细胞黑话词典-质控图表告诉了你什么?

单细胞转录组测序下机后,科研工作者常困惑于如何判断样本数据合格与否,以及异常指标该如何处理。本文主要聚焦单细胞质控核心,梳理关键指标及其筛选标准,为下游细胞聚类、差异表达分析等研究筑牢数据根基!

质控是单细胞分析的"前置条件"

单细胞转录组下游分析假设每个被捕获的细胞都是完整且有代表性的生物学单元,但原始数据常常存在混杂低质量细胞、双细胞、空液滴及测序噪音。若不加过滤,将直接污染聚类结果与生物学结论,因此质控是单细胞分析不可或缺的第一步。

常见的关键质控指标

1.nCount RNA(单个细胞的UMI数)

nCount_RNA指单个细胞中检测到的所有UMI的总和,代表该细胞的转录本数量,是衡量单细胞数据质量的核心指标之一。
nCount RNA过低:提示细胞质量差(损伤/死亡导致RNA降解)或测序深度不足。
nCount RNA过高:一般是双细胞或污染导致的。

2.nFeature RNA(单个细胞检测到的基因数)

nFeature_RNA指的是每个细胞中被检测到的基因数量。它反映的是该细胞表达谱的复杂度,常被当作细胞信息量的粗略代理指标。
nFeature RNA过低:可能来源于空滴或低质量细胞;
nFeature RNA过高:可能来源于双细胞或多细胞。

3.percent.mt(线粒体基因比例)

mito.percent表示线粒体基因表达量在该细胞总表达量中的比例,常用来识别潜在的低质量或状态异常的细胞。正常细胞中,线粒体基因比例很低,除了一些特殊的代谢旺盛的组织类型如肾脏组织、骨骼肌细胞和心肌细胞等。
percent.mt比例偏高:往往是由于细胞受损、应激、膜破裂或胞浆RNA泄露后导致。

4.双细胞过滤

单细胞测序时可能会把两(或多)个细胞被包入同一液滴,导致混合信号对下游干扰分析产生误导,因此双细胞的识别与过滤也是一个重要的质控步骤。Scrublet是一个基于Python的双细胞识别工具,专门用于droplet-based scRNA-seq数据的质控,通过计算doublet score,并结合自动或手动阈值划分出疑似双细胞态。

期望双细胞比例参数设置一般保持默认即可,通常为0.05-0.1。

高分文章看实战效果

讲完三大核心质控指标的定义,我们用这篇Cell级的研究质控前后小提琴图,直观看懂过滤效果:

图 A(质控前):原始数据存在大量异常值,是划定阈值的依据。

图 B(质控后):严格过滤后的干净数据,异常值完全清除。

图 A

图 B

质控标准:

🔵 nFeature RNA:200 < nFeature RNA < 5000

<200:细胞破碎、捕获失败、空液滴,低质量需剔除;

>5000:通常是双细胞/多细胞,干扰分群需剔除。

图A中大量细胞基因数超出200-5000区间,长尾异常值明显;图B中所有细胞的基因数都集中在合格区间,说明低质细胞、双细胞已被完全过滤必须剔除。

🔵nCount RNA

不单独设限,只用来交叉验证、辅助判断异常值,与nFeature RNA趋势一致即为合格。

图A中部分细胞UMI数极端偏高/偏低,对应双细胞、破碎细胞;图B中UMI分布与基因数完全匹配,无异常点,验证了过滤的有效性。

🔵percent.mt:percent.mt < 15%

>15%:细胞凋亡、坏死、膜破损,细胞质RNA流失,仅残留线粒体RNA需剔除。

图A中大量细胞线粒体占比飙升至 50% 以上,是典型的凋亡细胞;图B中所有细胞的线粒体占比稳定在15%以下,活细胞占比100%,数据可靠性拉满。

由于每个样本的都有异质性,各个指标也没有非常统一的固定阈值,因此需综合项目经验及样本的具体情况,设置其质控和过滤的参数。

其他高分文章质控示例:

总结

单细胞测序在进行标准分析流程(归一化、找高变基因、降维、聚类)之前,需要先对数据进行质控,去除那些不具备分析价值、可能引入噪音的细胞,为下游分析提供可靠的数据支撑。

本文我们介绍了质控的基本内容,并总结了最常用的细胞和基因的质控中的相关指标以及质控范围,下一期我们将继续介绍单细胞转录组的其他分析内容,一起来学习吧~

参考文献

[1] Williams D W, Greenwell-Wild T, Brenchley L, et al. Human oral mucosa cell atlas reveals a stromal-neutrophil axis regulating tissue immunity[J]. Cell, 2021, 184(15): 4090-4104.

[2] Jisun So, Olivia Strobel, Jamie Wann, et al. (2025) Robust single-nucleus RNA sequencing reveals depot-specific cell population dynamics in adipose tissue remodeling during obesity eLife 13:RP97981

[3] Ober-Reynolds, B., Wang, C., Ko, J.M. et al. Integrated single-cell chromatin and transcriptomic analyses of human scalp identify gene-regulatory programs and critical cell types for hair and skin diseases. Nat Genet 55, 1288–1300 (2023). https://doi.org/10.1038/s41588-023-01445-4

[4] Luecken, M.D., Theis, F.J. Current best practices in single‐cell RNA‐seq analysis: a tutorial. Mol Syst Biol 15, MSB188746 (2019). https://doi.org/10.15252/msb.20188746

http://www.jsqmd.com/news/856330/

相关文章:

  • 2025-2026年国内灌装机品牌推荐:五大排行产品专业评测解决饮品灌装致液体泄漏痛点 - 品牌推荐
  • 【2026实测】毕业论文降AI太难?实用工具红黑榜与6大手工微调秘籍
  • Gemini 写作效率策略:减少返工的提示词组合技巧
  • 2026年5月国内机器人品牌推荐:十大排名产品评测夜间作业防疲劳 - 品牌推荐
  • N32G4xx单片机休眠以及RTC唤醒问题
  • 用 Excel 手动实现 MLP 前向传播 + 反向传播(完整版)
  • 【设计模式 10】抽象工厂:整体换季
  • Prompt基础与AI产品管理方法论 — 深度解析与实操设计 - hlc
  • 从0到1:企业级AI项目迭代日记 Vol.29|自然语言变工作流:Agent 自动拼装子图的实现路径
  • 免费远控软件良心度横评:ToDesk免费版到底有多能打?
  • 别再手动调阈值了!OpenMV自适应色块识别保姆级教程(附完整Python代码)
  • STM32F103 平行替代方案全面分析(2026 年最新)
  • 2025-2026年优优推电话查询:网络推广前请核实服务范围与收费模式 - 品牌推荐
  • B站视频下载解决方案:基于多API调用的无水印视频获取系统
  • 水质在线监测系统嵌入式工控机选型与实战指南
  • 2025-2026年山东谦和金属制品有限公司电话查询:联系前请核实产品规格与资质 - 品牌推荐
  • React 还是 Vue:2026 年,这个问题问错了
  • 大厂Java面试实战:Spring Boot微服务、Redis缓存、Kafka消息队列与Spring AI RAG
  • Linux运维:Jenkins部署
  • 汽车质量管理体系的核心要素与持续改进之道
  • Gemini 3.5 Flash 完整介绍:定价、性能、接入教程与选型建议
  • ABAQUS模态分析中的‘隐形’设置:材料阻尼、约束与接触,这些细节才是结果不准的元凶
  • 高频高速PCB板材选型:从参数本质到工程落地的专业指南
  • 嵌入式Linux下MT7601U无线网卡驱动移植与网络配置实战
  • 背单词为什么不背词典:CANN上FlashAttention的分块逻辑
  • Hyperf 高并发的庖丁解牛
  • 百考通AI搭起学术研究的“起跑线”
  • STM32/Delay延时函数编程思路
  • 别再死记硬背了!用一张图帮你理清CPU里的MMU、TLB和Cache到底是怎么分工的
  • 不知道怎么挖漏洞?吐血整理40个网络安全漏洞挖掘姿势,看完不信你还挖不到