当前位置：首页 > news >正文

miRDeep2实战指南：从安装到新miRNA预测

news 2026/6/4 11:59:03

1. miRDeep2简介与核心功能

miRDeep2是当前小RNA测序分析领域最常用的工具之一，主要用于已知miRNA的定量分析和新miRNA的预测发现。这套Perl脚本集合由德国马克斯·德尔布吕克分子医学中心的Rajewsky实验室开发，其核心优势在于整合了序列比对、二级结构预测和统计学评估等多重分析方法。

我在实际项目中使用这个工具时，发现它特别适合处理18-25nt长度范围内的小RNA测序数据。软件包含三个主要模块：

mapper.pl：负责原始测序数据的预处理和基因组比对
miRDeep2.pl：执行新miRNA的预测分析
quantifier.pl：完成已知miRNA的表达定量

与第一代相比，miRDeep2增加了对多物种参考序列的支持，显著提高了新miRNA预测的准确性。记得第一次使用时，我被它生成的交互式HTML报告惊艳到了——不仅自动标注了可能的发夹结构区域，还会给出每个预测结果的置信度评分。

2. 安装与环境配置

2.1 基础依赖安装

在Ubuntu 20.04系统上实测可用的安装方案如下。首先确保已安装Perl 5.10+和必要的生物信息学工具：

# 安装系统依赖 sudo apt-get install -y build-essential libexpat-dev libssl-dev \ zlib1g-dev libncurses5-dev libbz2-dev liblzma-dev # 安装Perl模块 cpan install PDF::API2 cpan install URI::Escape

Bowtie1的安装需要特别注意版本兼容性。我踩过的坑是误装了Bowtie2导致后续步骤报错：

wget https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/bowtie-1.3.0-linux-x86_64.zip unzip bowtie-1.3.0-linux-x86_64.zip export PATH=$PATH:$(pwd)/bowtie-1.3.0

2.2 miRDeep2本体安装

推荐直接从GitHub克隆最新代码而非使用bioconda（后者缺少必要的Rfam数据库文件）：

git clone https://github.com/rajewsky-lab/mirdeep2.git cd mirdeep2 perl install.pl

安装完成后需要配置环境变量。在我的~/.bashrc中添加了这些设置：

export PATH=$PATH:/path/to/mirdeep2/bin export PERL5LIB=$PERL5LIB:/path/to/mirdeep2/lib

验证安装是否成功可以运行：

mapper.pl --version miRDeep2.pl --help

3. 数据准备与预处理

3.1 参考序列提取

从miRBase下载最新版本的参考序列（当前为v22）：

wget ftp://mirbase.org/pub/mirbase/CURRENT/hairpin.fa.gz wget ftp://mirbase.org/pub/mirbase/CURRENT/mature.fa.gz

提取目标物种（以人类为例）的参考序列：

extract_miRNAs.pl mature.fa.gz hsa > mature_hsa.fa extract_miRNAs.pl hairpin.fa.gz hsa > hairpin_hsa.fa

建议同时准备近缘物种的参考序列提升预测准确性。比如在分析人类数据时，可以加入小鼠和恒河猴的序列：

extract_miRNAs.pl mature.fa.gz mmu,rno > mature_other.fa

3.2 基因组索引构建

使用Bowtie1为参考基因组建立索引（注意不是Bowtie2！）：

bowtie-build hg38.fa hg38

这个步骤会生成多个.ebwt后缀的索引文件。我曾在服务器上处理过30GB的人类基因组，整个过程大约需要2小时，建议在后台运行：

nohup bowtie-build hg38.fa hg38 > build.log 2>&1 &

4. 核心分析流程

4.1 原始数据预处理

典型的Illumina小RNA测序数据需要先去除接头并过滤低质量序列。以下是处理fastq文件的完整命令：

mapper.pl sample.fastq -e -h -i -j -k TGGAATTCTCGGGTGCCAAGG \ -l 18 -m -p hg38 -s processed.fa -t align.arf -v -o 8

参数详解：

-e指定输入为fastq格式（fasta文件用-c）
-k接头的具体序列需根据实验protocol确定
-l 18过滤掉短于18nt的reads
-m去除重复序列，保留唯一序列并在ID后标注重复次数（如_x10）
-o 8使用8个CPU核心加速处理

4.2 新miRNA预测

运行核心预测算法前，建议先准备好这些文件：

processed.fa - 预处理后的序列
hg38.fa - 参考基因组
align.arf - 比对结果文件
mature_hsa.fa - 本物种成熟miRNA
mature_other.fa - 近缘物种miRNA
hairpin_hsa.fa - 本物种前体序列

完整命令示例：

miRDeep2.pl processed.fa hg38.fa align.arf \ mature_hsa.fa mature_other.fa hairpin_hsa.fa -t hsa 2>report.log

这个步骤通常需要4-8小时，会生成以下关键结果文件：

result.html 交互式报告
pdfs/ 包含所有预测miRNA的二级结构图
expression_analyses/ 定量分析结果

4.3 已知miRNA定量分析

使用quantifier.pl进行表达定量：

quantifier.pl -p hairpin_hsa.fa -m mature_hsa.fa \ -r processed.fa -t hsa -y 20230801

重要输出包括：

miRNA_expressed.csv 表达矩阵
miRNA_not_expressed.csv 未检测到的miRNA
expression.html 可视化报告

5. 结果解读与优化建议

5.1 预测结果验证

在result.html报告中，重点关注这些指标：

miRDeep2 score：一般>4的预测结果较可靠
Randfold p-value：需<0.05
成熟/star序列比例：正常范围3:1到10:1
发夹结构自由能：通常<-25 kcal/mol

我曾遇到过score很高但实际是tRNA片段的情况，这时需要检查：

grep "tRNA" result.csv | wc -l

5.2 常见报错处理

问题1：Rfam_for_miRDeep.fa缺失解决方法：从GitHub原版安装包中复制该文件到scripts目录

问题2：Perl模块缺失错误典型表现是报"Can't locate PDF/API2.pm" 解决方法：

cpan install PDF::API2 export PERL5LIB=$PERL5LIB:/path/to/mirdeep2/lib

问题3：Bowtie版本不匹配症状是报"bowtie-align exited with value 139" 确认使用的是Bowtie1而非Bowtie2：

bowtie --version | head -1

6. 高级应用技巧

6.1 多样本批量处理

建议使用GNU parallel并行处理多个样本：

ls *.fastq | parallel -j 4 "mapper.pl {} -e -h -i -j -k TGGAATTCTCGGGTGCCAAGG -l 18 -m -p hg38 -s {.}.fa -t {.}.arf -v -o 2"

6.2 自定义参考数据库

当研究非模式生物时，可以创建自定义数据库：

收集该物种及其近缘种的miRNA序列
用BLAST去除冗余序列
合并到mature_other.fa中

6.3 结果可视化增强

使用R语言进一步分析quantifier.pl的输出：

library(ggplot2) data <- read.csv("miRNAs_expressed_all_samples.csv") ggplot(data, aes(x=log10(reads), y=miRNA)) + geom_point(aes(color=significant)) + theme_minimal()