当前位置: 首页 > news >正文

NCBI Primary Transcript 程序:处理 RefSeq 蛋白质数据中的异构体以进行直系同源分析

引言

在进行基因组学分析,特别是直系同源(Ortholog)分析时,我们常常会遇到一个关键问题:RefSeq 等权威数据库中的蛋白质数据往往包含同一个基因的多个转录本,即不同的异构体(isoform)。这些异构体虽然源自同一个基因,但具有不同的序列,如果直接用于分析,会导致同一个基因被重复计数,严重影响分析结果的准确性。因此,在进行直系同源分析前,需要将来自同一基因的不同异构体合并,只保留一个代表性的转录本(通常是最长的或主要的转录本)。本文将介绍这一需求,并重点讲解一个用于自动化处理此问题的工具——NCBI Primary Transcript 程序。

先上程序链接:GitHub:原版; 笔者改进版
着急的朋友可以直接跳转,链接里的使用说明也都已经写清~
下面稍微借助ai解释一下为什么要用这个程序。

1. RefSeq 蛋白质数据中的异构体问题

RefSeq(Reference Sequence)数据库为研究人员提供了高质量、注释良好的参考序列。对于一个真核生物基因,由于可变剪接(Alternative Splicing)的存在,通常会生成多个不同的 mRNA 转录本,进而翻译成多个蛋白质异构体。

主要影响:

  • 直系同源分析失真:像 OrthoFinder 这样的工具会将每个蛋白质序列视为独立的实体。如果不加处理,来自同一基因的多个异构体会被识别为不同的“基因”,导致直系同源群(Orthogroups)中包含大量实际上是同一基因的冗余序列,从而高估基因家族的大小和复杂度。
  • 下游分析偏差:基于错误基因计数的比较基因组学、进化分析等都会产生偏差。

因此,预处理步骤的核心是:将每个基因对应的所有蛋白质异构体合并,只保留一个“主要转录本”(Primary Transcript)

2. 直系同源分析前的数据合并需求

为了获得准确的直系同源关系,标准的预处理流程要求:

  1. 输入标准化:为每个基因提供一个唯一的蛋白质序列。
  2. 选择代表序列:通常选择该基因所有异构体中最长的蛋白质序列作为代表。
  3. 保持注释一致性:合并过程中,需要从 GFF/GTF 注释文件中提取基因与转录本的对应关系,并确保输出文件的 ID 和注释信息正确无误。

3. 原版 NCBI Primary Transcript 程序

David Emms 为解决 OrthoFinder 分析前的数据准备问题,提供了一个 Python 脚本。该程序的核心功能是读取 NCBI 的基因组注释文件(GFF)和蛋白质序列文件(FASTA),为每个基因筛选出一个主要的蛋白质序列。

原版程序特点与限制:

  • 功能:根据 GFF 文件中的基因-转录本对应关系,找出每个基因对应的所有蛋白质异构体,并选择序列最长的一个作为该基因的代表序列输出。
  • 输入要求:原版程序设计为处理从 NCBI 下载的、包含.gff.faa文件的ZIP 压缩包
  • 使用方式:用户需要先下载物种的基因组 ZIP 包,然后运行脚本指定该 ZIP 文件路径。
  • 原版链接:该程序的讨论和获取方式详见 GitHub Issue: https://github.com/davidemms/OrthoFinder/issues/930

4. 改进版程序:支持文件夹输入

原版程序强制要求输入为 ZIP 文件,这在某些自动化流水线或处理已解压数据时不够灵活。因此,小编对程序进行了改进。

改进版程序特点:

  • 核心改进允许用户直接输入包含所需.gff.faa(或.fasta) 文件的文件夹路径,无需再将文件压缩成 ZIP 包。
  • 功能增强:保持了原版所有核心功能,同时提高了易用性和与现有文件组织的兼容性。
  • 程序路径:改进版程序托管在 GitHub: https://github.com/wsysissi/ncbi_primary_transcript

改进版使用方式:

  1. 准备数据:确保你的工作目录下有一个文件夹(例如./data/species_x),里面包含从 NCBI 下载的 GFF 注释文件(如genomic.gff)和蛋白质序列文件(如protein.faa)。

  2. 克隆或下载改进版脚本

    gitclone https://github.com/wsysissi/ncbi_primary_transcript.git
  3. 运行程序

    • 如果是想输入一个文件夹路径,则如下运行:
    python primary_transcript.py--input_dir/path/to/your/data_folder

    --input_dir: 指定包含 GFF 和 FASTA 文件的文件夹路径。

    • 如果是想和原版一样使用,则如下运行:
    python primary_transcript.py--zip_file1

    这样运行需要保证当前文件夹只有你想进行处理的数据一个zip包。

输出结果:
程序运行后,会在输出目录生成一个新的蛋白质文件,其中每个基因只对应一条代表序列。这个文件即可直接用于 OrthoFinder 等直系同源分析工具。

使用建议:

  • 始终检查输入 GFF 和 FASTA 文件的格式是否与 NCBI 标准一致。
  • 运行后,对比输入和输出的序列数量,确认合并操作已生效。
  • 可将此步骤集成到你的基因组分析流程中,实现自动化预处理。
http://www.jsqmd.com/news/897517/

相关文章:

  • 8000+戴森球计划蓝图仓库:告别重复造轮子,打造高效星际工厂
  • 鸣潮自动化工具ok-ww终极指南:从零开始掌握智能后台操作
  • 2026年最新开远市黄金回收白银回收铂金回收靠谱店铺权威排行榜TOP5:纯金+金条+银条+钯金 门店地址联系方式推荐 - 莘州文化
  • 2026年最新双柏县黄金回收白银回收铂金回收靠谱店铺权威排行榜TOP5:纯金+金条+银条+钯金 门店地址联系方式推荐 - 莘州文化
  • 企业级应用如何借助Taotoken实现API访问控制与审计
  • 基于CPS的能源互联网接入设备:硬件实现与软件架构解析
  • 2026大理旅拍婚纱照甄选完整攻略|8家高口碑机构测评+风格取景+新手避坑全指南 - 江湖评测
  • 基于接触与虚拟点补偿的协作机器人与AMR高精度集成方法
  • ML模型选择:根据业务需求选择合适的机器学习模型
  • ChatGPT价值主张设计:从模糊愿景到可审计KPI的6周冲刺指南(附ISO/IEC 23894合规检查清单)
  • SQL-Lint:专业SQL代码质量守护者,预防数据灾难的智能检查工具
  • 实战指南:用Obsidian搭建你的智能科研知识管理系统
  • StreamFX终极指南:如何为OBS Studio打造专业级直播特效系统
  • 戴森球计划工厂蓝图终极指南:如何用开源蓝图库打造高效自动化工厂?
  • 【厂长自测清单】你的工厂急需升级水处理系统吗?中3条以上请立刻联系我们! - 企业名录优选推荐
  • 基于阶段转换图(STG)的半形式化功能验证方法与实践
  • 论文降重好降吗?
  • Boss-Key:一键隐藏窗口的终极隐私保护工具,上班摸鱼必备神器
  • 边缘AI板载学习:模型压缩、高效推理与持续学习实战解析
  • 2026年最新定海区黄金回收白银回收铂金回收靠谱店铺权威排行榜TOP5:纯金+金条+银条+钯金 门店地址联系方式推荐 - 莘州文化
  • 量子机器学习在医学影像分析中的应用与实战解析
  • 三分钟掌握缠论分析:ChanlunX通达信插件让技术分析变得简单直观
  • 长期项目使用Token Plan套餐的成本控制实践感受
  • SPT-AKI Profile Editor新手必看:服务器路径配置完全指南,告别“服务器未找到“错误
  • 亿乐社区货源主站-豆包赋能抖音:从内容创作到运营增长的全场景应用
  • 华硕笔记本终极性能控制指南:GHelper轻量化解决方案深度解析
  • 唐诗模型训练及使用
  • 深度解析IDM激活脚本:从新手到专家的完整实战指南
  • AI生成内容声明必须包含的6个法律锚点,少1个即触发GDPR第58条执法调查——ChatGPT声明合规性压力测试报告
  • 全球ChatGPT替代率警报:客服、初阶编程、基础法律咨询等7类岗位需求萎缩超35%,但复合型提示工程师缺口达210万(附认证路径图)