当前位置：首页 > news >正文

从PBMC数据实战出发：手把手教你用Scanpy完成单细胞测序标准分析流程（附代码避坑点）

news 2026/7/26 10:01:02

从PBMC数据实战出发：手把手教你用Scanpy完成单细胞测序标准分析流程（附代码避坑点）

单细胞RNA测序技术正在彻底改变我们对细胞异质性的理解。作为生物信息学领域最激动人心的进展之一，这项技术让研究者能够以前所未有的分辨率探索细胞群体的复杂性。对于刚接触单细胞数据分析的研究者来说，从原始数据到生物学洞见的完整分析流程往往令人望而生畏。本文将基于10x Genomics平台的PBMC（外周血单个核细胞）数据集，使用Python生态中最强大的单细胞分析工具Scanpy，带你一步步完成从数据导入到细胞亚群鉴定的全流程实战。

1. 环境准备与数据加载

1.1 安装与配置

在开始分析前，我们需要确保环境配置正确。推荐使用conda创建独立的Python环境：

conda create -n sc_analysis python=3.8 conda activate sc_analysis pip install scanpy leidenalg

Scanpy依赖于多个科学计算库，包括numpy、pandas和matplotlib。安装完成后，可以通过以下命令验证安装是否成功：

import scanpy as sc sc.logging.print_header()

1.2 数据加载与初步检查

10x Genomics数据通常以三个文件形式提供：matrix.mtx.gz（表达矩阵）、features.tsv.gz（基因信息）和barcodes.tsv.gz（细胞条形码）。使用Scanpy加载这些数据非常简单：

adata = sc.read_10x_mtx( 'filtered_gene_bc_matrices/hg19/', # 包含上述文件的目录 var_names='gene_symbols', # 使用基因符号而非ID cache=True # 缓存加速后续读取 )

加载后，我们可以快速检查数据的基本信息：

print(adata)

输出应显示观测数（细胞数）和变量数（基因数），例如：

AnnData object with n_obs × n_vars = 2700 × 32738

2. 数据质量控制与预处理

2.1 初始质控指标计算

单细胞数据中常存在低质量细胞，它们可能由于细胞破裂或测序失败导致。我们首先计算几个关键质控指标：

# 标记线粒体基因 adata.var['mt'] = adata.var_names.str.startswith('MT-') # 计算质控指标 sc.pp.calculate_qc_metrics( adata, qc_vars=['mt'], percent_top=None, log1p=False, inplace=True )

关键质控指标包括：

n_genes_by_counts：每个细胞检测到的基因数
total_counts：每个细胞的总UMI数
pct_counts_mt：线粒体基因占比

2.2 质控可视化与阈值选择

通过可视化可以直观判断质控阈值：

sc.pl.violin(adata, ['n_genes_by_counts', 'total_counts', 'pct_counts_mt'], jitter=0.4, multi_panel=True)

常见质控阈值选择原则：

线粒体基因占比：通常<5-10%（PBMC数据建议<5%）
检测基因数：PBMC通常在200-2500之间
总UMI数：需结合实验设计确定

应用质控过滤：

# 初步过滤低质量细胞和基因 sc.pp.filter_cells(adata, min_genes=200) sc.pp.filter_genes(adata, min_cells=3) # 基于质控指标的过滤 adata = adata[adata.obs.pct_counts_mt < 5, :] adata = adata[adata.obs.n_genes_by_counts < 2500, :]

3. 数据标准化与特征选择

3.1 文库大小标准化与对数转换

为消除细胞间测序深度差异，需要进行文库大小标准化：

sc.pp.normalize_total(adata, target_sum=1e4) sc.pp.log1p(adata)

注意：target_sum参数应根据实际数据规模调整，1e4适用于大多数10x数据

3.2 高变基因选择

单细胞数据通常具有高维度（数万个基因），但只有部分基因对细胞异质性有贡献。识别这些高变基因可显著提高分析效率：

sc.pp.highly_variable_genes( adata, min_mean=0.0125, max_mean=3, min_disp=0.5 ) sc.pl.highly_variable_genes(adata)

选择高变基因后，我们可以专注于这些基因进行后续分析：

adata = adata[:, adata.var.highly_variable]

4. 数据降维与可视化

4.1 主成分分析（PCA）

PCA是降维的标准方法，可有效减少数据噪声：

sc.pp.regress_out(adata, ['total_counts', 'pct_counts_mt']) sc.pp.scale(adata, max_value=10) sc.tl.pca(adata, svd_solver='arpack')

确定保留的主成分数至关重要。常用的方法是观察"肘部"：

sc.pl.pca_variance_ratio(adata, log=True)

对于PBMC数据，通常选择10-50个主成分。

4.2 UMAP可视化

UMAP比t-SNE更能保持全局结构，已成为单细胞分析的标准可视化方法：

sc.pp.neighbors(adata, n_neighbors=10, n_pcs=40) sc.tl.umap(adata) sc.pl.umap(adata, color=['CST3', 'NKG7', 'PPBP'])

5. 细胞聚类与标记基因鉴定

5.1 Leiden聚类算法

Leiden算法是Louvain的改进版，能产生更连贯的聚类结果：

sc.tl.leiden(adata, resolution=0.5) sc.pl.umap(adata, color=['leiden'])

resolution参数控制聚类粒度：

值越大，聚类数越多
PBMC通常使用0.4-1.0

5.2 差异表达分析与细胞类型注释

鉴定每个簇的标记基因是理解细胞身份的关键：

sc.tl.rank_genes_groups(adata, 'leiden', method='wilcoxon') sc.pl.rank_genes_groups(adata, n_genes=25, sharey=False)

基于已知标记基因，我们可以注释细胞类型：

marker_genes = { 'CD4 T cells': ['IL7R', 'CD4'], 'CD8 T cells': ['CD8A', 'CD8B'], 'B cells': ['MS4A1', 'CD79A'], 'NK cells': ['GNLY', 'NKG7'], 'Monocytes': ['CD14', 'LYZ'], 'Dendritic cells': ['FCER1A', 'CST3'] } sc.pl.dotplot(adata, marker_genes, groupby='leiden')

6. 高级分析与结果导出

6.1 轨迹推断与伪时间分析

对于发育或分化过程，伪时间分析可揭示细胞状态转变：

sc.tl.diffmap(adata) sc.tl.dpt(adata, n_branchings=1) sc.pl.diffmap(adata, color=['leiden', 'dpt_pseudotime'])

6.2 数据保存与共享

分析完成后，可以保存结果供后续使用：

# 保存完整数据 adata.write('pbmc_processed.h5ad', compression='gzip') # 导出标记基因表格 result = adata.uns['rank_genes_groups'] pd.DataFrame(result).to_csv('marker_genes.csv')