当前位置: 首页 > news >正文

转录组如何组装,3种主流方法快速入门贴--随笔022

转录组组装实战指南:3 种主流形式

转录组组装是高通量 RNA-seq 数据分析的核心环节,不同研究场景(有无参考基因组、研究物种类型)需选择适配的组装策略。本文梳理了Trinity 无参考组装、Trinity 有参考引导组装、Hisat2+Stringtie 参考基因组组装三种主流形式,全程保留原始代码与核心参数,仅做逻辑润色和实操解读,新手可直接复制运行。

01 Trinity 无参考基因组组装(De novo)

Trinity安装与使用-Trinity-v2.15.1(bioinfomatics tools-006)-CSDN博客

StringTie v2.2.3安装与使用-生物信息学工具25_stringtie安装-CSDN博客

梨泛转录组-文献精读145_epav 鉴定和表征是什么-CSDN博客

RNA-seq通用代码-生物信息学pipeline001_rnaseq分析代码-CSDN博客

rna_seq_pipeline.py-python002_python rna-seq-CSDN博客

适合无参考基因组 / 基因组质量差的物种(如非模式生物、新测序物种),也是真菌 / 细菌等小基因组的首选(需加特定参数),核心是基于 k-mer 拼接出完整转录本,后续可通过去冗余、筛选最长转录本优化结果。

1.1 核心参数说明

参数含义实操注意
--seqType fq指定输入序列格式为 fastq若为 fasta 格式则改为fa
--CPU 64调用 CPU 核心数按需调整,建议≥16,越多越快
--max_memory 500G最大使用内存小数据可设为 100G/200G,避免内存不足报错
--full_cleanup组装完成后删除中间文件节省磁盘空间,建议添加
--jaccard_clip高基因密度物种专用(真菌 / 细菌)小基因组必须加,避免过度拼接

1.2 不同测序数据的组装指令

(1)双端测序数据(最常用)
Trinity --seqType fq --left reads_1.fq --right read_2.fq --output trinity_tdn_out --CPU 64 --full_cleanup --max_memory 500G # 真菌/细菌小基因组需添加--jaccard_clip Trinity --seqType fq --left reads_1.fq --right read_2.fq --output trinity_tdn_out --CPU 64 --full_cleanup --max_memory 500G --jaccard_clip
(2)单端测序数据
Trinity --seqType fq --single reads.fq --output trinity_tdn_out --CPU 64 --full_cleanup --max_memory 500G
(3)单双端数据结合(特殊场景)

需先合并数据(合并方法参考:https://github.com/trinityrnaseq/trinityrnaseq/wiki/How-do-I-combine-reads%3F),再运行组装:

Trinity --seqType fq --single combined_reads.fastq --no_normalize_reads --run_as_paired --output rinity_tdn_out_denovo --CPU 64 --full_cleanup --max_memory 500G

1.3 组装后优化(关键步骤)

(1)去除冗余序列(CD-hit-est)

组装结果会存在重复转录本,需用cd-hit-est去冗余,参数-c 0.9表示序列相似度≥90% 即判定为冗余:

cd-hit-est -i trinity_tdn_out_denovo.Trinity.fasta -o new.fa -c 0.9 -n 10 -M 0 -T 0 1>cdhit.log 2>&1
  • -M 0:不限制内存使用;-T 0:自动调用所有可用 CPU;日志输出到cdhit.log,方便排查报错。
(2)提取 accession 号(后续注释用)
~/software/PASApipeline.v2.5.3/misc_utilities/accession_extractor.pl trinity_tdn_out.Trinity.fasta > tdn.accession
(3)统计组装结果(评估质量)

生成组装报告,包含转录本数量、长度分布、N50 等核心指标,是判断组装质量的关键:

~/miniconda3/envs/Trinity/bin/TrinityStats.pl trinity_tdn_out_denovo.Trinity.fasta > assembly_report.txt
(4)筛选最长转录本(构建 unigene)

同一基因会拼接出多个可变剪接本,筛选最长转录本作为 unigene,便于后续功能注释:

~/miniconda3/envs/Trinity/bin/util/misc/get_longest_isoform_seq_per_trinity_gene.pl trinity_tdn_out_denovo.Trinity.fasta > unigene.fasta

02 Trinity 有参考基因组引导组装(Genome Guide)

适合有高质量参考基因组的物种,先将 RNA-seq 数据比对到基因组,再基于比对结果组装,精度远高于无参考组装。

2.1 前置步骤:合并多样本比对结果

若有多个样本的 bam 文件,需先合并(提高组装完整性):

samtools merge -@ 48 -o rnaseq_merge.bam \ ERR392009.sorted.bam SRR7883198.sorted.bam SRR13870117.sorted.bam
  • -@ 48:调用 48 个 CPU 线程;替换为实际样本的 bam 文件名,需是排序后的 bam(sorted.bam)。

2.2 核心组装指令

Trinity --genome_guided_bam rnaseq_merge.bam --output trinity_GG_out --genome_guided_max_intron 100000 --CPU 48 --full_cleanup --max_memory 500G
  • --genome_guided_max_intron 100000:设置最大内含子长度为 100kb,适配大多数真核生物(植物 / 动物可按需调整,如植物设为 50000)。

2.3 去冗余优化

与无参考组装一致,去除冗余序列,提升后续分析效率:

cd-hit-est -i trinity_GG_out.Trinity-GG.fasta -o new.fa -c 0.9 -n 10 -M 0 -T 0

03 Hisat2+Stringtie 组装(参考基因组最优解)

Hisat2(序列比对)+ Stringtie(转录本组装)是有参考基因组时的黄金组合,比 Trinity 有参考组装更精准,尤其适合可变剪接分析、基因表达定量。

3.1 批量处理多样本(for 循环实操)

for sample in ERR392009 SRR7883198 SRR13870117 do echo "开始处理 $sample ..." ## Step1: Stringtie组装转录本(基于比对后的sorted.bam) stringtie ${sample}.sorted.bam -o ${sample}.rnaseq.gtf -p 64 ## Step2: 合并所有样本的gtf文件(构建统一转录本集) stringtie --merge -o stringtie_transcripts.gtf gtf_files.txt -p 64 ## Step3: 提取ORF(开放阅读框)信息(编码区预测) ### 3.1 提取cDNA序列 ~/software/TransDecoder-TransDecoder-v5.7.1/util/gtf_genome_to_cdna_fasta.pl \ stringtie_transcripts.gtf genome.fasta.masked >stringtie_transcripts.fasta ### 3.2 GTF格式转GFF3(适配TransDecoder) ~/software/TransDecoder-TransDecoder-v5.7.1/util/gtf_to_alignment_gff3.pl \ stringtie_transcripts.gtf >stringtie_transcripts.gff3 ### 3.3 提取最长开放阅读框 ~/software/TransDecoder-TransDecoder-v5.7.1/TransDecoder.LongOrfs \ -t stringtie_transcripts.fasta ### 3.4 预测编码区 ~/software/TransDecoder-TransDecoder-v5.7.1/TransDecoder.Predict \ -t stringtie_transcripts.fasta ### 3.5 生成基因组水平的ORF GFF3文件 ~/software/TransDecoder-TransDecoder-v5.7.1/util/cdna_alignment_orf_to_genome_orf.pl \ stringtie_transcripts.fasta.transdecoder.gff3 \ stringtie_transcripts.gff3 \ stringtie_transcripts.fasta \ > stringtie_transcripts.fasta.transdecoder.genome.gff3 ### 3.6 筛选完整编码区的基因GFF3 grep ">" stringtie_transcripts.fasta.transdecoder.cds \ |grep "complete" |sed 's#>##' |sed 's#\s.*##' \ > stringtie_accs.txt grep -f stringtie_accs.txt stringtie_transcripts.fasta.transdecoder.genome.gff3 \ >stringtie_trandecoder.cds.complete.gff3 echo "$sample 处理完成,日志保存到 ${sample}.log" done

3.2 关键步骤解读

  1. Stringtie 组装-o指定输出 GTF 文件(转录本结构注释),-p 64调用 64 线程;
  2. GTF 合并--merge参数整合多样本的转录本,消除样本间的组装差异,构建更完整的转录本集;
  3. ORF 预测:通过 TransDecoder 完成编码区预测,筛选complete(完整 ORF)的序列,是后续蛋白功能分析的基础;
  4. 格式转换:GTF 转 GFF3 是为了适配多数功能注释工具(如 MAKER、InterProScan)的输入要求。

04 三种组装形式对比与选择建议

组装形式适用场景优势劣势
Trinity 无参考无参考基因组 / 新物种无需基因组,通用性强组装精度低,冗余度高,耗时久
Trinity 有参考引导有参考基因组,追求便捷操作简单,兼容 Trinity 生态精度低于 Hisat2+Stringtie
Hisat2+Stringtie有高质量参考基因组组装精度最高,支持可变剪接 / 定量步骤稍多,依赖基因组注释质量

实操总结

  1. 无参考基因组:优先选 Trinity 无参考组装,务必加--jaccard_clip(小基因组)、后续去冗余 + 筛选最长转录本;
  2. 有参考基因组:首选 Hisat2+Stringtie,精度更高;若追求便捷,可选 Trinity 有参考引导组装;
  3. 核心参数:CPU 和内存按需调整,小数据(<100G)可降低内存至 100-200G,避免资源浪费;
  4. 质量评估:组装后务必运行TrinityStats.pl统计结果,重点关注 N50(越高越好)、转录本长度分布、完整 ORF 比例。
http://www.jsqmd.com/news/359772/

相关文章:

  • LLaVA-v1.6-7b Java学习路线:从模型调用到系统集成
  • Qwen2.5-Coder-1.5B在Claude中的应用:AI助手功能扩展
  • vLLM加速技巧:如何优化Baichuan-M2-32B的推理性能
  • 解决直播互动效率低下:BLiveChat的低延迟弹幕系统应用指南
  • 如何掌控游戏资源?深岩银河存档编辑工具全解析
  • 解锁智能散热新维度:探索FanControl的风扇调校艺术
  • 从零到一:Multisim洗衣机控制电路设计中的数码管驱动技术揭秘
  • 万物识别-中文镜像作品集:涵盖30+行业高频图像类型的识别效果实录
  • Qwen3-TTS-12Hz-1.7B-VoiceDesign在车载系统中的应用:智能语音交互方案
  • Qwen2.5-Coder-1.5B实战:用AI写Python爬虫代码
  • 鼠标加速工具怎么选?Raw Accel让游戏操作提升30%的秘密
  • Lychee模型在社交媒体内容检索中的实战应用
  • 本地化部署:打造专属AI金融分析师的完整指南
  • Qwen3-ForcedAligner实战:基于Python爬虫的语音数据自动对齐
  • ESP32音频库 HLS流媒体实现:从原理到落地的全攻略
  • 高效获取抖音直播回放:douyin-downloader全流程应用指南
  • STorM32 BGC三轴无刷云台控制器完全使用指南
  • Pi0机器人控制中心AI技能开发:基于Keil5的嵌入式控制实战
  • 春联生成模型在运维自动化中的创新应用
  • 智能散热管理:从噪音困扰到静音体验的蜕变
  • 无需编程!用UI-TARS-desktop打造你的智能办公助手
  • DeepSeek-R1-Distill-Qwen-1.5B 效果展示:智能对话与逻辑推理实测
  • 突破式系统假死防护:NoSleep终极防休眠工具全解析
  • Soundflower虚拟音频路由技术指南:从配置到优化的全面解析
  • 新手友好:Lychee Rerank MM系统快速安装与配置
  • 零基础掌握社交媒体数据采集:反爬解决方案与低代码实践指南
  • 灵毓秀-牧神-造相Z-Turbo实战分享:生成个性化动漫角色
  • YOLO X Layout模型量化:INT8精度加速实践
  • Pi0 VLA模型实战:三视角机器人控制界面搭建与指令测试
  • SRS流媒体服务器Windows部署技术指南:从环境配置到性能优化