当前位置：首页 > news >正文

告别手动解析！用Docker快速上手CFM-ID 4.0，搞定代谢物质谱碎片预测

news 2026/7/23 11:39:53

告别手动解析！用Docker快速上手CFM-ID 4.0，搞定代谢物质谱碎片预测

在代谢组学和药物分析领域，质谱数据的解析一直是让科研人员头疼的问题。传统方法需要手动比对碎片峰，不仅耗时耗力，还容易出错。CFM-ID 4.0作为一款基于机器学习的质谱预测工具，能够快速生成理论质谱图，大大提升研究效率。但对于非计算机背景的研究者来说，复杂的本地安装和环境配置往往成为第一道门槛。

本文将带你用Docker这一"容器化"神器，绕过繁琐的环境配置，直接在个人电脑上快速部署CFM-ID 4.0。无论你是Windows还是macOS用户，只需几个简单的命令行操作，就能开始批量预测代谢物的质谱碎片。我们将从最基础的Docker镜像拉取开始，逐步演示完整的预测流程，并教你如何解读输出结果中的关键信息。

1. 准备工作：Docker环境与CFM-ID镜像

1.1 Docker安装与验证

在开始之前，确保你的系统已经安装了Docker。Docker的安装过程非常简单：

Windows/macOS：直接从Docker官网下载Docker Desktop安装包
Linux：使用系统包管理器安装（如Ubuntu的apt-get install docker.io）

安装完成后，打开终端（Windows用户可以使用PowerShell或CMD）输入以下命令验证安装是否成功：

docker --version

如果看到类似Docker version 20.10.12的输出，说明Docker已经正确安装。

1.2 拉取CFM-ID镜像

CFM-ID的官方镜像托管在Docker Hub上，由Wishart Lab维护。拉取镜像只需要一条命令：

docker pull wishartlab/cfmid:latest

这个命令会下载最新版的CFM-ID 4.0镜像，包含以下预训练模型：

模型类型	离子模式	适用场景
ESI-MS/MS	[M+H]+	正离子模式预测
ESI-MS/MS	[M-H]-	负离子模式预测

提示：首次拉取可能需要几分钟时间，取决于你的网络速度。镜像大小约2GB，请确保有足够的磁盘空间。

2. 运行CFM-ID容器

2.1 启动交互式容器

拉取镜像后，我们可以启动一个交互式容器来运行CFM-ID：

docker run -it --rm wishartlab/cfmid:latest sh

这个命令中：

-it：开启交互式终端
--rm：容器退出后自动删除
sh：启动shell环境

成功运行后，你会看到一个类似/cfmid #的提示符，表示已经进入容器内部。

2.2 理解容器文件结构

在容器内部，CFM-ID的主要文件和目录结构如下：

/cfmid/ ├── public/ # 用户工作目录 ├── trained_models_cfmid4.0/ # 预训练模型 │ ├── [M+H]+/ # 正离子模式模型 │ └── [M-H]-/ # 负离子模式模型 └── bin/ # 可执行文件

了解这个结构对后续操作非常重要，特别是当我们需要挂载本地目录时。

3. 执行质谱预测

3.1 单化合物预测

让我们从一个简单的例子开始，预测单个化合物的质谱。假设我们要预测SMILES为CC(=O)OC1=CC=CC=C1C(=O)O（阿司匹林）的质谱图。

正离子模式预测：

cfm-predict 'CC(=O)OC1=CC=CC=C1C(=O)O' 0.001 \ /trained_models_cfmid4.0/[M+H]+/param_output.log \ /trained_models_cfmid4.0/[M+H]+/param_config.txt 1 myout

负离子模式预测：

cfm-predict 'CC(=O)OC1=CC=CC=C1C(=O)O' 0.001 \ /trained_models_cfmid4.0/[M-H]-/param_output.log \ /trained_models_cfmid4.0/[M-H]-/param_config.txt 1 myout

命令参数说明：

第一个参数：化合物的SMILES字符串
第二个参数：碰撞能量（通常使用0.001）
第三个参数：模型参数文件路径
第四个参数：配置文件路径
第五个参数：输出能量级别数量（1表示只输出一个能量级别）
第六个参数：输出文件名前缀

3.2 批量预测

实际研究中，我们通常需要处理多个化合物。CFM-ID支持通过输入文件进行批量预测。

首先，准备一个包含SMILES的文本文件（如input_smiles.txt）：

CC(=O)OC1=CC=CC=C1C(=O)O Aspirin CN1C=NC2=C1C(=O)N(C(=O)N2)C Caffeine C1=CC(=C(C=C1O)O)O Pyrogallol

然后使用以下命令进行批量预测：

cfm-predict input_smiles.txt 0.001 \ /trained_models_cfmid4.0/[M+H]+/param_output.log \ /trained_models_cfmid4.0/[M+H]+/param_config.txt 1 batch_output

3.3 挂载本地目录

为了避免每次都在容器内创建文件，我们可以将本地目录挂载到容器中：

docker run -it --rm -v "$(pwd)":/cfmid/public wishartlab/cfmid:latest sh -c "cd /cfmid/public && cfm-predict input_smiles.txt 0.001 /trained_models_cfmid4.0/[M+H]+/param_output.log /trained_models_cfmid4.0/[M+H]+/param_config.txt 1 batch_output"

这个命令中：

-v "$(pwd)":/cfmid/public：将当前目录挂载到容器的/cfmid/public
所有输入文件应放在当前目录下
输出文件也会直接生成在当前目录中

4. 解读输出结果

CFM-ID会生成多个输出文件，最重要的是.log和.tsv文件。以myout.log为例：

energy0: mass intensity annotation 105.0335 0.1234 C6H5O+ 121.0284 0.4567 C6H5O2+ ...

输出文件包含以下关键信息：

能量级别：通常包括低(10V)、中(20V)、高(40V)三个能量级别
质荷比(m/z)：预测的碎片离子质量
相对强度：碎片的相对丰度
注释：可能的碎片组成（如果可用）

4.1 结果可视化

虽然CFM-ID本身不提供图形界面，但我们可以用Python的matplotlib简单可视化结果：

import pandas as pd import matplotlib.pyplot as plt # 读取结果文件 df = pd.read_csv('myout_energy0.tsv', sep='\t', header=None, names=['mz', 'intensity']) # 绘制棒状图 plt.figure(figsize=(10,5)) plt.vlines(df['mz'], 0, df['intensity'], color='b', linewidth=1) plt.xlabel('m/z') plt.ylabel('Relative Intensity') plt.title('Predicted Mass Spectrum') plt.show()

5. 高级技巧与问题排查

5.1 使用不同的碰撞能量

CFM-ID支持三种碰撞能量级别：

能量级别	对应电压	适用场景
0	10V	低能量，产生较少碎片
1	20V	中等能量，平衡碎片数量
2	40V	高能量，产生更多碎片

要获取所有三个能量级别的预测结果，将命令中的第五个参数改为3：

cfm-predict 'CC(=O)OC1=CC=CC=C1C(=O)O' 0.001 \ /trained_models_cfmid4.0/[M+H]+/param_output.log \ /trained_models_cfmid4.0/[M+H]+/param_config.txt 3 myout

5.2 常见错误与解决方案

Docker权限问题：
```
Got permission denied while trying to connect to the Docker daemon
```
解决：在Linux/Mac上，在命令前加sudo；或将自己加入docker用户组。
SMILES格式错误：
```
Error: invalid SMILES string
```
解决：检查SMILES是否有效，可以使用在线工具验证。
输出文件不存在：解决：确保命令中的输出路径有写入权限，或者尝试使用绝对路径。

5.3 性能优化

对于大批量预测，可以考虑以下优化措施：

使用脚本自动化：编写shell脚本或Python脚本自动处理多个文件
增加Docker资源：在Docker设置中分配更多CPU和内存
分批处理：将大文件拆分为多个小文件分别处理

6. 实际应用案例

让我们看一个真实的研究场景：假设你从植物提取物中分离出一组代谢物，通过LC-MS获得了它们的质谱数据，现在需要预测这些化合物的理论质谱以辅助鉴定。

工作流程：

准备一个文本文件unknowns.txt，包含所有待鉴定化合物的SMILES
运行批量预测命令（正离子和负离子模式各一次）
将预测结果与实际实验数据比对
使用工具如ms-dial或mzmine进行谱图匹配

示例命令：

# 正离子模式批量预测 docker run --rm -v $(pwd):/cfmid/public wishartlab/cfmid:latest sh -c "cd /cfmid/public && cfm-predict unknowns.txt 0.001 /trained_models_cfmid4.0/[M+H]+/param_output.log /trained_models_cfmid4.0/[M+H]+/param_config.txt 3 pos_output" # 负离子模式批量预测 docker run --rm -v $(pwd):/cfmid/public wishartlab/cfmid:latest sh -c "cd /cfmid/public && cfm-predict unknowns.txt 0.001 /trained_models_cfmid4.0/[M-H]-/param_output.log /trained_models_cfmid4.0/[M-H]-/param_config.txt 3 neg_output"