当前位置：首页 > news >正文

有关MGnify

news 2026/6/27 7:24:44

这段话主要介绍了 MGnify 数据库 2024年4月版 中蛋白质数据的来源、处理方式和文件格式。

为了让你一看就懂，我把它拆解成直译和大白话解释两部分：

1. 直译（学术版）

MGnify 蛋白质序列来自对公开宏基因组组装的分析，使用了组合基因预测工具（Prodigal 和 FragGeneScan）。每个序列都有一个 MGYP 编号。MGYP 是非冗余¹ 的，也就是说，完全相同的序列共用同一个编号。我们会记录序列在组装（ERZ）和重叠群（MGYC）中的具体位置，以及其所属的生物群系（Biome）。这些序列在 90% 的覆盖度和一致性阈值下进行了聚类（打包）。此外，还利用 HMMER 工具添加了 Pfam 功能注释。在文件头中，FL 代表是否全长，CR 代表是否为聚类代表。

2. 大白话解释（通俗版）

你可以把这个数据库想象成一个巨大的蛋白质“图书馆”，这段话就是它的入馆说明书：

来源（哪里来的？）：
这些蛋白质是从大自然（比如海水、土壤、肠道）的基因数据里挖出来的，用了两个“探测器”（Prodigal 和 FragGeneScan）来找它们。
身份证 (MGYP)：
MGYP 就是蛋白质的身份证号。为了不浪费空间，长得一模一样的蛋白质只发一张身份证，大家都用同一个号（非冗余）。
家庭住址 (ERZ/MGYC)：
系统记录了每个蛋白质原来住在哪里（属于哪个基因拼图 ERZ，在哪个片段 MGYC 上），以及它的老家环境（Biome，比如它是来自海洋还是来自森林）。
分组打包 (Clustering)：
为了方便管理，系统把相似度超过 90% 的蛋白质打成一个包（Cluster）。这就好比把“红苹果”和“深红苹果”放在同一个篮子里。
功能标签 (Pfam)：
用一种算法（HMMER）给蛋白质贴上了标签，告诉你这个蛋白质大概是干什么用的。
文件暗号 (Fasta Header)：
你在下载的文件里会看到两个标记：
FL=1：表示这个蛋白质是完整的（没缺胳膊少腿）；如果是 0 就是残缺的。
CR=1：表示它是这个小组的组长（代表序列）；如果是 0 就是普通组员。

冗余：包含测序得到所有的序列
非冗余：相同ACGT排序序列仅保留一条并记录所有的采样环境

2. 核心关系与统计类 (Excel 表格)

mgy_assemblies.tsv.gz

翻译：MGYP（蛋白）与 ERZ（组装项目）的对应表。
用途：查户口。
你想知道某个蛋白质（MGYP）是在哪些测序项目（ERZ）里被找到的？查这个表。
它记录了“蛋白 ID”和“来源项目 ID”的关系。

mgy_biome_counts.tsv.gz

翻译：生态位（环境）计数统计。
用途：宏观统计。
比如：整个数据库里，“海洋”环境的数据出现了多少次，“人类肠道”环境出现了多少次。
它是看大环境的，不针对具体蛋白。

mgy_biomes.tsv.gz

翻译：蛋白与生态位的关联表。
用途：查成分/来源。
针对具体蛋白。比如 MGYP001 这个蛋白，它在“海洋”里出现了 5 次，在“土壤”里出现了 0 次。
如果你想研究“哪些蛋白只在肠道里有”，就用这个表。

mgy_proteins_pfam.tsv.gz

翻译：Pfam 功能注释表（由 HMMER 生成）。
用途：查功能（最重要文件之一）。
这堆字母组成的蛋白到底是干嘛的？是酶？是受体？还是毒素？
每一行告诉你：某个蛋白（MGYP）包含什么功能结构域（Pfam），以及可信度（E-value）是多少。

3. 聚类/去重类 (Cluster)

这部分是关于“把相似的蛋白归为一个小组（Cluster）”的文件。

mgy_cluster_seqs.tsv.gz

翻译：聚类成员列表。
用途：群成员名单。
第一列是“群主”（代表序列 ID），第二列是所有“群员”（和群主长得很像的其他蛋白 ID）。
你想找某一类蛋白的所有变体，就查这里。

mgy_clusters.fa.gz

翻译：聚类代表序列的 FASTA 文件。
用途：群主的证件照。
这里只包含每个小组中那个唯一的代表序列（Non-redundant）。
做分析时，通常先跑这个文件，因为它比全量文件小得多，跑得快。

mgy_clusters.tsv.gz

翻译：聚类统计信息表。
用途：群信息汇总。
这个群有多大？有多少个完全一模一样的序列？群主主要出现在哪种环境？整个群分布在哪些环境？

4. 序列与元数据类 (拆分文件)

mgy_counts.tsv.gz

翻译：MGYP 计数表。
用途：查热度。
某个蛋白（MGYP）在数据库里一共被观察到了多少次。数字越大，说明这个蛋白在自然界越常见。

mgy_proteins_N.fa.gz (那个 N 代表数字，比如 proteins_1, proteins_2...)

翻译：所有蛋白序列的 FASTA 文件（分卷）。
用途：全家福。
这里面是所有的蛋白质序列，不管是否重复。
因为数据量太大（可能有几十亿条），一个文件装不下，所以切成了很多个小文件（分卷）。

mgy_seq_metadata_N.tsv.gz

翻译：序列元数据映射表（分卷）。
用途：详细定位。
告诉你每个蛋白具体在基因组的哪一段（坐标、正负链）。
格式里的一串代码 ERZ.MGYC:start-end 就是它的精确“GPS 坐标”。

mgy_contig_map_N.tsv.gz

翻译：MGYC（重叠群）与 Contig 名称映射表（分卷）。
用途：名字翻译本。
MGNify 系统内部用 MGYC 这种编号，但原始测序文件里用的是 NODE_1_length_... 这种乱七八糟的名字。
这个表用来把内部编号和原始名字对应起来。

5. 历史遗留类

reassigned_mgyps.tsv.gz

翻译：MGYP 重分配映射表。
用途：改名记录。
随着数据库更新，有些旧的 ID（Suppressed）可能被废弃了，合并到了新 ID（Reassigned）里。
如果你用去年的 ID 查不到数据，来这里看看它是不是改名了。

http://www.jsqmd.com/news/279968/

相关文章：

外贸企业注意！2026年外贸GEO国际社媒推广代运营，这10家深圳公司谁更靠谱？

【Linux】进程概念 - 指南

专著参编证明怎么开？

618 大促技术实践：定时任务异常重试的探索与沉淀

TDengine 字符串函数 GROUP_CONCAT 用户手册 - 实践

专著和著作的区别有哪些？

智能混动越野房车：STM32N657L0H3Q

怎么提高专著的含金量？

基于yolov8的夜间车辆检测识别系统python源码+onnx模型+评估指标曲线+精美GUI界面

广州专业展览公司有哪些？2026这份实力盘点教你避开“展台设计搭建陷阱”

收藏必备！大模型知识蒸馏技术调研：黑盒、白盒与混合方法全解析

LangChain多智能体架构全解析：5种模式实战+收藏级代码实现

热销榜单：2026年高口碑企业加密软件评测公司口碑排行榜单，数据防泄露系统机构推荐

2026年腐殖酸钾优质厂家推荐指南适配多场景

亚马逊、敦煌网商家突围必备！自养号测评补单提升店铺排名销量秘籍

【强烈收藏】7天打造AI知识库：每天10分钟，把你的经历变成可复用的知识资产

十大防脱生发品牌排行榜评测，秋冬脱发严重，防脱育发液哪个牌子效果最好？

【必看收藏】2023年RAG最新突破！12种前沿架构深度解析，让大模型不再胡说八道

深圳昊客网络｜社媒外贸GEO外贸推广代运营公司/服务商：排名前十机构哪好点？

止痒防脱洗发水怎么选?2026实测最有效榜单，国货黑马逆袭出圈

2026年全网热议的活动搭建品牌推荐，帮你提升活动效果

c4d.python克隆体缓存操作割草代码--支持事件回滚

东瀛匠心・数智绿筑 2026：日本展台设计搭建的精密范本

Arthas使用 - 倾听

阿里上新 AI 平台「呜哩」，生图生视频免费开放！

2026年苏州昆山AI推广/geo优化公司/服务商哪家好？TOP5哪家好？看实战合规与本土适配

大模型基础概念解析——优化

Shiro反序列化漏洞一站式综合利用工具

day158—回溯—全排列（LeetCode-46）