当前位置: 首页 > news >正文

RepeatModeler 2.0.7 安装与使用--生信工具75

1. 简介

RepeatModeler 是一套从头(de novo)鉴定转座子(TE)家族并构建共有序列的软件包。它整合了多个互补的重复序列预测工具,自动完成重复序列识别、聚类、去冗余、精修与分类,最终生成可直接用于 RepeatMasker 注释、甚至可提交至 Dfam 数据库的高质量 TE 文库。

https://github.com/Dfam-consortium/RepeatModeler #官网

核心组件

  • RECON
  • RepeatScout
  • LtrHarvest / LTR_retriever(LTR 结构预测)
  • 源码发布版本可在 GitHub Release 或官网下载:
    • http://www.repeatmasker.org

2. 安装方式

RepeatModeler 支持两种安装方式:

  1. 源码编译安装(传统服务器)
  2. Dfam-TETools 容器(Docker/Singularity)(一键环境)

2.1 依赖(必须提前装好)

必选依赖

  • Perl(≥5.8.8)
  • RepeatMasker + 库文件(推荐 4.1.9+)
  • RECON 1.08(patched 版本,支持 64 位)
  • RepeatScout 1.0.7
  • TRF(Tandem Repeat Finder,≥4.0.9)
  • RMBlast(≥2.14.1,RepeatMasker 专用 blast)
  • RepeatAfterMe(≥0.0.6,共有序列精修)
  • UCSC 工具:twoBitToFafaToTwoBittwoBitInfo

LTRStruct 可选依赖(强烈建议开启)

  • GenomeTools / LtrHarvest(1.5.9,编译加threads=yes
  • LTR_retriever2.9.0(新版不兼容)
  • MAFFT(≥7.505)
  • CD-HIT(≥4.8.1)
  • Ninja(0.98-cluster_only)

2.2 源码安装步骤

下载源码

GitHub:https://github.com/Dfam-consortium/RepeatModeler

官网:http://www.repeatmasker.org/RepeatModeler

解压

tar -zxvf RepeatModeler-xxx.tar.gz

配置

perl ./configure

按提示依次指定:

  • RepeatMasker
  • RECON
  • RepeatScout
  • TRF
  • RMBlast
  • LTR 相关工具(如启用 LTRStruct)

也可直接带参数配置:

perl ./configure -rscout_dir ... -recon_dir ...

3. 使用

构建数据库(必须先做)

BuildDatabase -name elephant elephant.fa

运行 RepeatModeler(推荐加 LTRStruct)

nohup RepeatModeler -database elephant \ -threads 20 \ -LTRStruct \ >& run.out &

要点:

  • 建议32G+ 内存、多核 CPU
  • 大型基因组可能运行1–3 天
  • 使用nohupscreen避免断连
  • 日志非常重要,用于断点续跑与 debug

4. 结果文件说明

运行成功后会生成三个关键文件:

elephant-families.fa # 最终TE共有序列文库(可直接给RepeatMasker用) elephant-families.stk # 种子比对文件(可提交Dfam) elephant-rmod.log # 运行日志

临时目录(用于断点续跑)

RM_<PID>.<日期>/ ├── round-1/ ├── round-2/ ├── round-3/ ├── consensi.fa ├── families.stk └── index.html(可浏览器查看模型)

断点续跑(崩溃后必备)

如果任务中断,无需重新开始:

RepeatModeler -recoverDir RM_xxx.xxx ...

使用文库进行 RepeatMasker 注释

RepeatMasker -lib elephant-families.fa genome.fa

重要注意事项(避坑指南)

  1. RMBlast 会上报使用统计内网 / 无外网机器必须关闭:

    export BLAST_USAGE_REPORT=false
  2. 只适用于基因组组装,不适用于 reads软件会自动检查 N50,短序列无法运行。

  3. 必须单节点多线程,不支持分布式

  4. 不要分批跑再粗暴合并结果会造成大量冗余,影响注释质量。如需加大样本量,使用-genomeSampleSizeMax

运行速度参考(RepeatModeler 2.0.7 + 48 线程)

物种基因组大小运行时间模型数量
果蝇164 Mbp3h41m492
人类3.1 Gbp21h26m810
http://www.jsqmd.com/news/488950/

相关文章:

  • CV论文Ablation Study表格Latex高效排版技巧
  • 基于TI TMS320F28P550的雨滴传感器模块驱动移植与ADC/GPIO应用实战
  • mPLUG VQA效果实测:中英文混合提问的识别与响应能力
  • web渗透-SSRF漏洞深度解析与Discuz!论坛实战攻防
  • jetson orin nano 手把手刷机指南:NVME
  • 零成本搭建家庭Linux服务器:樱花frp+SSH避坑指南(含端口冲突解决)
  • 可视化微调神器Llama Factory:10分钟让大模型听懂你的话
  • 激光除锈机厂家推荐:嘉乐激光-2026专业激光洗模机源头厂家,工业清洗优选品牌 - 栗子测评
  • 大模型工具使用能力评测新标杆:T-Eval基准全面解析(附实战案例)
  • yt-dlp进阶指南:从基础配置到高效下载
  • Comake D1 开发板 YOLOv8-pose 模型部署全流程解析
  • 代理服务器连接失败的常见原因及快速修复指南
  • 2026焊缝激光清洗机哪家好?嘉乐激光-脉冲激光清洗机厂家,焊缝激光清洗机专业之选 - 栗子测评
  • Cosmos-Reason1-7B开源镜像:支持Kubernetes集群部署的物理AI服务
  • LingBot-Depth在SpringBoot微服务中的集成实践
  • Docker 27安全沙箱增强深度解析(企业级容器Runtime防护体系首次公开)
  • 2026年口碑好的仿貂绒厂家推荐:小雪貂绒/印花貂绒/阳离子貂绒源头厂家推荐 - 品牌宣传支持者
  • Kali Linux渗透实战:Metasploit框架(MSF)核心模块与永恒之蓝漏洞利用详解
  • 智能客服API接口流程图:从架构设计到性能优化实战
  • ChatGPT下载与API接入实战指南:从注册到集成开发
  • 2026年口碑好的仿貂绒工厂推荐:高低貂绒/银兰貂绒/印花貂绒源头厂家推荐 - 品牌宣传支持者
  • MiniCPM-o-4.5-nvidia-FlagOS在互联网内容安全中的应用:智能审核与风险识别
  • SQL中的地理距离计算:Oracle和MySQL双平台实战指南
  • 2026年靠谱的304不锈钢烟筒公司推荐:厨房不锈钢烟筒品牌厂家推荐 - 品牌宣传支持者
  • AudioSeal Pixel Studio效果展示:实时流式音频(WebRTC)水印嵌入可行性验证
  • 开源双足机器人ottoRobot:云边协同的轻量级伺服控制平台
  • DL00618 - 基于YOLOv5的钢材表面缺陷检测含数据集处理
  • Wan2.2-T2V-A5B对比体验:轻量级模型在速度与效果上的平衡
  • Dify+农业知识图谱落地全链路:从零搭建高可用知识库的7个关键技术决策点
  • OV-Card:基于STM32与RC522的UID卡模拟硬件终端