当前位置: 首页 > news >正文

在单细胞测序数据分析中,barcodes、features和matrix是三个最核心的基础文件,它们共同构成了所有分析的基石。

在GEO(Gene Expression Omnibus)数据库中下载单细胞数据时,最常见的数据存储和提供形式主要有以下四种类型:


  1. 10x Genomics 标准格式(最主流)

在GEO的数据集中,我们通常会找到一个包含以下三个核心文件的文件夹(通常以 *_filtered_feature_bc_matrix.tar.gz或类似名称的压缩包提供):

barcodes.tsv(.gz): 包含所有检测到的细胞条形码(Cell Barcode),每个条形码代表一个可能的细胞。

features.tsv(.gz)​ 或 genes.tsv(.gz): 包含所有被检测的基因(或转录本、抗体标签)的标识符和名称。

matrix.mtx(.gz): 以稀疏矩阵格式存储的基因表达计数矩阵,行对应基因,列对应细胞。


  1. H5 格式(高效二进制格式)

这是一种用于存储大规模数据的二进制文件格式。在单细胞上下文中,它通常是将上述10x标准格式的三个文件整合到了一个单一的 .h5文件中。

典型命名: *_filtered_feature_bc_matrix.h5

优势: 文件单一,便于管理和传输,存储效率高。


  1. R 数据文件(可直接使用的分析对象)

部分数据提交者会将已初步处理好的单细胞数据直接保存为R语言特有的数据文件格式,供其他研究者快速载入。

.rds文件: 存储单个R对象(如一个Seurat对象或表达矩阵)。使用 readRDS()函数读取。

.RData或 .rda文件: 可存储一个或多个R对象。使用 load()函数读取,对象会被载入当前工作环境。

优势: 读取速度极快,且能保留完整的对象结构和中间分析结果。


  1. 压缩文本矩阵(通用表格格式)

这是一种比较传统和通用的数据提供方式,将表达矩阵保存为纯文本表格,并进行压缩以减小体积。

格式: 通常是 .txt.gz或 .csv.gz文件。

内容: 行是基因,列是细胞(或样本),表格内的值为表达量。有时也可能提供转置后的格式(行是细胞,列是基因)。

如何读取: 可以使用 data.table::fread()、read.delim()等函数读取,或在Excel中打开(不推荐用于大型数据)。读取后通常需要转换为矩阵或数据框,才能用于创建Seurat对象。


二、以”GSE234527”为例子:读取一个10× Genomics格式文件

1、搜索“GSE234527”:

2、在补充材料里下载(点击“custom”)


3、在桌面解压缩,分类整理:数据来自五个不同样本,分成五类,每个样本包含多个细胞
修改前:

修改后:

http://www.jsqmd.com/news/541408/

相关文章:

  • 做了十几年财务,我用RPA把最累的工作交给了“机器人”
  • 基于Matlab的正态云模型花卉特征提取:从理论到代码实现
  • OpenClaw安全实践:百川2-13B量化模型下的权限管控方案
  • 生成式人工智能赋能下的钓鱼攻击演进:基于Railway PaaS滥用的实证分析与防御重构
  • SEO_避开这些常见误区让你的SEO效果事半功倍
  • 如何用浏览器矢量图形编辑工具提升你的设计效率?
  • Windows上搭建PostgreSQL监控神器:Grafana+Prometheus+Postgres_Exporter保姆级干货教程
  • 5分钟搞定ollama+qwen2.5模型配置:从下载到对话测试全流程指南
  • 博客开荒记
  • apt-offline终极指南:离线环境下的APT包管理解决方案
  • 机械结构零件优化分析:基于Matlab的设计探索
  • 嵌入式工程师高效学习与知识管理方法论
  • GPT-5-Codex CLI实战:如何用UIUIApi中转服务稳定获取API Key(避坑指南)
  • 基于单片机的汽车智能胎压监测预警系统设计
  • 手把手教你用kafka-storage.sh重新格式化Kafka KRaft集群数据目录(解决No meta.properties报错)
  • STM32智能充电桩系统设计与实现
  • C++ 内联函数的性能影响
  • 1688爬虫避坑:无痕浏览抓HTML+XPath二次拼接提取数据实战
  • 1949–2024年中国县级行政区划(逐年)|全国范围、75年连续、SHP格式
  • 双模型灾备方案:OpenClaw同时配置百川2-13B-4bits与Llama3应对服务中断
  • C#的yield return:延迟执行的迭代器模式实现
  • OpenClaw案例合集:Qwen3-VL:30B在飞书落地的10个实用场景
  • 基于2026校招数据分析:拥有这几张AI证书的学生,起薪普遍高30%
  • 3.26打卡
  • CX8242KA射频直采收发器性能测试与优化指南
  • 从零设计进程独立内核页表:XV6内存管理优化实战记录
  • 避坑指南:用ESP32驱动LD2420毫米波雷达时,串口数据丢失和自动开机卡死的那些事儿
  • 3个核心功能让Vue拖拽交互开发效率提升80%:从入门到电商级应用实践
  • MySQL基础运维:mysqldump全量备份与恢复实操 | 新手可直接落地的备份指南
  • 2021年中国村级行政区划边界矢量数据|行政村 + 社区|全国60万+单元|SHP格式、WGS84坐标