当前位置：首页 > news >正文

转录组如何组装，3种主流方法快速入门贴--随笔022

news 2026/3/27 6:07:09

转录组组装实战指南：3 种主流形式

转录组组装是高通量 RNA-seq 数据分析的核心环节，不同研究场景（有无参考基因组、研究物种类型）需选择适配的组装策略。本文梳理了Trinity 无参考组装、Trinity 有参考引导组装、Hisat2+Stringtie 参考基因组组装三种主流形式，全程保留原始代码与核心参数，仅做逻辑润色和实操解读，新手可直接复制运行。

01 Trinity 无参考基因组组装（De novo）

Trinity安装与使用-Trinity-v2.15.1（bioinfomatics tools-006）-CSDN博客

StringTie v2.2.3安装与使用-生物信息学工具25_stringtie安装-CSDN博客

梨泛转录组-文献精读145_epav 鉴定和表征是什么-CSDN博客

RNA-seq通用代码-生物信息学pipeline001_rnaseq分析代码-CSDN博客

rna_seq_pipeline.py-python002_python rna-seq-CSDN博客

适合无参考基因组 / 基因组质量差的物种（如非模式生物、新测序物种），也是真菌 / 细菌等小基因组的首选（需加特定参数），核心是基于 k-mer 拼接出完整转录本，后续可通过去冗余、筛选最长转录本优化结果。

1.1 核心参数说明

参数	含义	实操注意
`--seqType fq`	指定输入序列格式为 fastq	若为 fasta 格式则改为`fa`
`--CPU 64`	调用 CPU 核心数	按需调整，建议≥16，越多越快
`--max_memory 500G`	最大使用内存	小数据可设为 100G/200G，避免内存不足报错
`--full_cleanup`	组装完成后删除中间文件	节省磁盘空间，建议添加
`--jaccard_clip`	高基因密度物种专用（真菌 / 细菌）	小基因组必须加，避免过度拼接

1.2 不同测序数据的组装指令

（1）双端测序数据（最常用）

Trinity --seqType fq --left reads_1.fq --right read_2.fq --output trinity_tdn_out --CPU 64 --full_cleanup --max_memory 500G # 真菌/细菌小基因组需添加--jaccard_clip Trinity --seqType fq --left reads_1.fq --right read_2.fq --output trinity_tdn_out --CPU 64 --full_cleanup --max_memory 500G --jaccard_clip

（2）单端测序数据

Trinity --seqType fq --single reads.fq --output trinity_tdn_out --CPU 64 --full_cleanup --max_memory 500G

（3）单双端数据结合（特殊场景）

需先合并数据（合并方法参考：https://github.com/trinityrnaseq/trinityrnaseq/wiki/How-do-I-combine-reads%3F），再运行组装：

Trinity --seqType fq --single combined_reads.fastq --no_normalize_reads --run_as_paired --output rinity_tdn_out_denovo --CPU 64 --full_cleanup --max_memory 500G

1.3 组装后优化（关键步骤）

（1）去除冗余序列（CD-hit-est）

组装结果会存在重复转录本，需用cd-hit-est去冗余，参数-c 0.9表示序列相似度≥90% 即判定为冗余：

cd-hit-est -i trinity_tdn_out_denovo.Trinity.fasta -o new.fa -c 0.9 -n 10 -M 0 -T 0 1>cdhit.log 2>&1

-M 0：不限制内存使用；-T 0：自动调用所有可用 CPU；日志输出到cdhit.log，方便排查报错。

（2）提取 accession 号（后续注释用）

~/software/PASApipeline.v2.5.3/misc_utilities/accession_extractor.pl trinity_tdn_out.Trinity.fasta > tdn.accession

（3）统计组装结果（评估质量）

生成组装报告，包含转录本数量、长度分布、N50 等核心指标，是判断组装质量的关键：

~/miniconda3/envs/Trinity/bin/TrinityStats.pl trinity_tdn_out_denovo.Trinity.fasta > assembly_report.txt

（4）筛选最长转录本（构建 unigene）

同一基因会拼接出多个可变剪接本，筛选最长转录本作为 unigene，便于后续功能注释：

~/miniconda3/envs/Trinity/bin/util/misc/get_longest_isoform_seq_per_trinity_gene.pl trinity_tdn_out_denovo.Trinity.fasta > unigene.fasta

02 Trinity 有参考基因组引导组装（Genome Guide）

适合有高质量参考基因组的物种，先将 RNA-seq 数据比对到基因组，再基于比对结果组装，精度远高于无参考组装。

2.1 前置步骤：合并多样本比对结果

若有多个样本的 bam 文件，需先合并（提高组装完整性）：

samtools merge -@ 48 -o rnaseq_merge.bam \ ERR392009.sorted.bam SRR7883198.sorted.bam SRR13870117.sorted.bam

-@ 48：调用 48 个 CPU 线程；替换为实际样本的 bam 文件名，需是排序后的 bam（sorted.bam）。

2.2 核心组装指令

Trinity --genome_guided_bam rnaseq_merge.bam --output trinity_GG_out --genome_guided_max_intron 100000 --CPU 48 --full_cleanup --max_memory 500G

--genome_guided_max_intron 100000：设置最大内含子长度为 100kb，适配大多数真核生物（植物 / 动物可按需调整，如植物设为 50000）。

2.3 去冗余优化

与无参考组装一致，去除冗余序列，提升后续分析效率：

cd-hit-est -i trinity_GG_out.Trinity-GG.fasta -o new.fa -c 0.9 -n 10 -M 0 -T 0

03 Hisat2+Stringtie 组装（参考基因组最优解）

Hisat2（序列比对）+ Stringtie（转录本组装）是有参考基因组时的黄金组合，比 Trinity 有参考组装更精准，尤其适合可变剪接分析、基因表达定量。

3.1 批量处理多样本（for 循环实操）

for sample in ERR392009 SRR7883198 SRR13870117 do echo "开始处理 $sample ..." ## Step1: Stringtie组装转录本（基于比对后的sorted.bam） stringtie ${sample}.sorted.bam -o ${sample}.rnaseq.gtf -p 64 ## Step2: 合并所有样本的gtf文件（构建统一转录本集） stringtie --merge -o stringtie_transcripts.gtf gtf_files.txt -p 64 ## Step3: 提取ORF（开放阅读框）信息（编码区预测） ### 3.1 提取cDNA序列 ~/software/TransDecoder-TransDecoder-v5.7.1/util/gtf_genome_to_cdna_fasta.pl \ stringtie_transcripts.gtf genome.fasta.masked >stringtie_transcripts.fasta ### 3.2 GTF格式转GFF3（适配TransDecoder） ~/software/TransDecoder-TransDecoder-v5.7.1/util/gtf_to_alignment_gff3.pl \ stringtie_transcripts.gtf >stringtie_transcripts.gff3 ### 3.3 提取最长开放阅读框 ~/software/TransDecoder-TransDecoder-v5.7.1/TransDecoder.LongOrfs \ -t stringtie_transcripts.fasta ### 3.4 预测编码区 ~/software/TransDecoder-TransDecoder-v5.7.1/TransDecoder.Predict \ -t stringtie_transcripts.fasta ### 3.5 生成基因组水平的ORF GFF3文件 ~/software/TransDecoder-TransDecoder-v5.7.1/util/cdna_alignment_orf_to_genome_orf.pl \ stringtie_transcripts.fasta.transdecoder.gff3 \ stringtie_transcripts.gff3 \ stringtie_transcripts.fasta \ > stringtie_transcripts.fasta.transdecoder.genome.gff3 ### 3.6 筛选完整编码区的基因GFF3 grep ">" stringtie_transcripts.fasta.transdecoder.cds \ |grep "complete" |sed 's#>##' |sed 's#\s.*##' \ > stringtie_accs.txt grep -f stringtie_accs.txt stringtie_transcripts.fasta.transdecoder.genome.gff3 \ >stringtie_trandecoder.cds.complete.gff3 echo "$sample 处理完成，日志保存到 ${sample}.log" done

3.2 关键步骤解读

Stringtie 组装：-o指定输出 GTF 文件（转录本结构注释），-p 64调用 64 线程；
GTF 合并：--merge参数整合多样本的转录本，消除样本间的组装差异，构建更完整的转录本集；
ORF 预测：通过 TransDecoder 完成编码区预测，筛选complete（完整 ORF）的序列，是后续蛋白功能分析的基础；
格式转换：GTF 转 GFF3 是为了适配多数功能注释工具（如 MAKER、InterProScan）的输入要求。

04 三种组装形式对比与选择建议

组装形式	适用场景	优势	劣势
Trinity 无参考	无参考基因组 / 新物种	无需基因组，通用性强	组装精度低，冗余度高，耗时久
Trinity 有参考引导	有参考基因组，追求便捷	操作简单，兼容 Trinity 生态	精度低于 Hisat2+Stringtie
Hisat2+Stringtie	有高质量参考基因组	组装精度最高，支持可变剪接 / 定量	步骤稍多，依赖基因组注释质量