当前位置：首页 > news >正文

单细胞测序实战：用Cell Ranger 9.0.1处理小鼠样本的完整流程

news 2026/7/18 11:02:21

单细胞测序实战：用Cell Ranger 9.0.1处理小鼠样本的完整流程

单细胞测序技术正在彻底改变我们对生物系统的理解能力。想象一下，你手头有一批小鼠组织样本，希望通过单细胞测序揭示其中隐藏的细胞异质性。Cell Ranger作为10x Genomics官方提供的分析套件，已经成为这一领域的标准工具。本文将带你从零开始，完整走通使用Cell Ranger 9.0.1处理小鼠单细胞数据的全流程。

1. 环境准备与软件安装

在开始分析之前，我们需要搭建一个稳定可靠的工作环境。不同于简单的脚本运行，单细胞数据分析对计算资源有着较高要求。

1.1 创建专用conda环境

建议使用conda管理Python环境，避免与其他项目的依赖冲突：

conda create -n cellranger python=3.8 -y conda activate cellranger

为什么选择Python 3.8？这是目前Cell Ranger 9.0.1测试最稳定的版本，既能保证兼容性，又具备现代Python特性。

1.2 安装Cell Ranger 9.0.1

在项目目录下创建软件文件夹并下载：

mkdir -p ~/singlecell/software cd ~/singlecell/software wget https://cf.10xgenomics.com/releases/cell-exp/cellranger-9.0.1.tar.gz tar -zxvf cellranger-9.0.1.tar.gz

解压后需要设置环境变量：

export PATH=$PATH:~/singlecell/software/cellranger-9.0.1 source ~/singlecell/software/cellranger-9.0.1/sourceme.bash

验证安装是否成功：

cellranger --version

提示：建议将环境变量设置写入~/.bashrc文件，避免每次重新登录都需要配置

2. 获取参考基因组

参考基因组的选择直接影响后续分析的准确性。对于小鼠样本，我们使用最新的GRCm39版本。

2.1 下载小鼠参考基因组

mkdir -p ~/singlecell/reference cd ~/singlecell/reference wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCm39-2024-A.tar.gz tar -zxvf refdata-gex-GRCm39-2024-A.tar.gz

解压后的目录结构应包含以下关键文件：

文件类型	描述
genes/	基因注释文件
genome.fa	基因组序列
genes.gtf	基因结构注释

2.2 参考基因组版本选择考量

GRCm39 vs GRCm38：GRCm39是2021年发布的最新版本，修正了之前版本中的许多错误
2024-A版本：10x Genomics特别优化的版本，包含：
- 更准确的转录本定量
- 改进的基因注释
- 优化的比对算法参数

3. 原始数据获取与预处理

单细胞测序数据通常以SRR编号存储在公共数据库中。我们需要将其转换为Cell Ranger可识别的fastq格式。

3.1 安装parallel-fastq-dump

比传统fastq-dump更高效的转换工具：

conda install -c bioconda parallel-fastq-dump

3.2 从NCBI下载SRR数据

假设我们要分析的样本SRR编号为SRR1234567：

mkdir -p ~/singlecell/data/srr cd ~/singlecell/data/srr prefetch SRR1234567

3.3 转换为fastq格式

parallel-fastq-dump --sra-id SRR1234567 \ --threads 16 \ --outdir ./ \ --split-files \ --gzip

转换完成后，需要按照Cell Ranger要求的格式重命名文件：

mv SRR1234567_1.fastq.gz sample_S1_L001_R1_001.fastq.gz mv SRR1234567_2.fastq.gz sample_S1_L001_R2_001.fastq.gz

注意：文件名中的"S1_L001"是必须保留的格式标识，不能随意更改

4. 运行Cell Ranger count

这是整个流程的核心步骤，将原始序列数据转换为基因表达矩阵。

4.1 基本命令结构

cellranger count --id=sample_results \ --transcriptome=~/singlecell/reference/refdata-gex-GRCm39-2024-A \ --fastqs=~/singlecell/data/srr \ --sample=sample \ --nosecondary \ --localcores=16 \ --localmem=64

关键参数解析：

--nosecondary：跳过耗时较长的二级分析，可后续单独运行
--localcores：根据服务器配置调整，建议8-16核
--localmem：单位GB，64GB内存适合处理约10,000个细胞

4.2 结果解读

运行完成后，结果目录包含以下重要文件：

文件/目录	内容描述
outs/raw_feature_bc_matrix/	原始计数矩阵
outs/filtered_feature_bc_matrix/	过滤后的计数矩阵
outs/analysis/	初步分析结果
outs/web_summary.html	可视化报告

4.3 性能优化技巧

临时文件处理：
```
export TMPDIR=/path/to/large/tmp
```

内存不足时的解决方案：

--mempercore=8 # 限制每个核心的内存使用量

中断后继续运行：

--disable-ui # 不显示进度界面，减少资源占用

5. 质量控制与结果验证

获得初步结果后，必须进行严格的质量控制。

5.1 解读web_summary.html

关键指标检查表：

测序质量：
- Q30碱基百分比应>85%
- 测序饱和度>50%
细胞捕获：
- 预计细胞数与实验设计相符
- 双细胞率<10%
比对率：
- 外显子比对率>60%
- 内含子比对率<20%

5.2 常见问题排查

问题现象	可能原因	解决方案
低比对率	参考基因组不匹配	确认使用正确的物种版本
高双细胞率	细胞悬液浓度过高	重新计算最佳细胞输入量
低基因检出	细胞活性差	检查细胞制备过程

6. 高级配置与定制分析

基础流程运行成功后，可以考虑进行更深入的分析定制。

6.1 自定义参考基因组

对于非模式生物或特殊研究需求，可以构建自定义参考基因组：

cellranger mkref --genome=my_custom_ref \ --fasta=genome.fa \ --genes=genes.gtf \ --nthreads=16

6.2 多样本整合分析

当有多个样本需要联合分析时：

cellranger aggr --id=combined \ --csv=libraries.csv \ --normalize=mapped

libraries.csv示例：

library_id,molecule_h5 sample1,/path/to/sample1/outs/molecule_info.h5 sample2,/path/to/sample2/outs/molecule_info.h5

6.3 参数调优建议

根据数据特点调整关键参数：

--expect-cells=5000 # 更准确的预估细胞数 --r1-length=28 # 调整读长截断位置 --chemistry=SC3Pv3 # 明确指定化学版本

在实际项目中，我发现最耗时的步骤往往是SRR到fastq的转换过程。使用parallel-fastq-dump相比传统方法可以节省约40%的时间，特别是在处理大型单细胞数据集时。另一个容易忽视的细节是文件命名规范——Cell Ranger对fastq文件名有严格要求，一个字符的错误都可能导致分析失败。

查看全文

http://www.jsqmd.com/news/585900/