当前位置：首页 > news >正文

Graphormer图神经网络教程：如何用app.py扩展支持自定义SMILES批量预测？

news 2026/7/13 16:05:50

Graphormer图神经网络教程：如何用app.py扩展支持自定义SMILES批量预测？

1. 引言

Graphormer是一种基于纯Transformer架构的图神经网络，专门为分子图（原子-键结构）的全局结构建模与属性预测而设计。这个模型在OGB、PCQM4M等分子基准测试中表现出色，大幅超越了传统GNN模型的表现。

本文将带你从零开始学习如何扩展Graphormer的app.py文件，使其支持自定义SMILES字符串的批量预测功能。通过本教程，你将掌握：

Graphormer模型的基本工作原理
如何修改app.py文件实现批量预测
实用的代码示例和调试技巧
常见问题的解决方案

2. 环境准备与快速部署

2.1 系统要求

确保你的系统满足以下要求：

Linux操作系统（推荐Ubuntu 20.04+）
NVIDIA GPU（至少24GB显存）
Python 3.11环境
Conda包管理器

2.2 安装依赖

conda create -n graphormer python=3.11 conda activate graphormer pip install rdkit-pypi torch-geometric ogb gradio torch==2.8.0

2.3 下载模型

mkdir -p /root/ai-models/microsoft/Graphormer/ # 下载模型权重文件到上述目录

3. 基础概念快速入门

3.1 什么是SMILES格式

SMILES（Simplified Molecular Input Line Entry System）是一种用ASCII字符串表示分子结构的化学语言。例如：

水：O
乙醇：CCO
苯：c1ccccc1

3.2 Graphormer工作原理

Graphormer将分子图转换为Transformer可以处理的序列形式，通过以下关键步骤：

将SMILES转换为分子图
计算原子和键的特征
使用Transformer编码器处理图结构
输出预测结果

4. 修改app.py支持批量预测

4.1 原始代码分析

原始的app.py通常只支持单条SMILES输入。我们需要修改它以支持批量处理。

# 原始预测函数示例 def predict_single(smiles, task_type): mol = Chem.MolFromSmiles(smiles) # ...处理逻辑... return prediction

4.2 实现批量预测功能

def predict_batch(smiles_list, task_type): results = [] for smiles in smiles_list: try: mol = Chem.MolFromSmiles(smiles) if mol is None: results.append({"smiles": smiles, "error": "Invalid SMILES"}) continue # 这里添加实际的预测逻辑 prediction = predict_single(smiles, task_type) results.append({"smiles": smiles, "prediction": prediction}) except Exception as e: results.append({"smiles": smiles, "error": str(e)}) return results

4.3 添加Gradio界面支持

import gradio as gr with gr.Blocks() as demo: with gr.Tab("单条预测"): # 原始单条预测界面 ... with gr.Tab("批量预测"): with gr.Row(): smiles_textbox = gr.Textbox(label="输入SMILES列表（每行一个）", lines=10) output_json = gr.JSON(label="预测结果") task_dropdown = gr.Dropdown(["property-guided", "catalyst-adsorption"], label="任务类型") predict_button = gr.Button("批量预测") predict_button.click( fn=predict_batch, inputs=[smiles_textbox, task_dropdown], outputs=output_json )

5. 完整代码示例

以下是支持批量预测的完整app.py示例：

from rdkit import Chem import torch import gradio as gr from model_utils import load_graphormer_model # 假设有这个工具函数 # 加载模型 model = load_graphormer_model("/root/ai-models/microsoft/Graphormer/") def predict_single(smiles, task_type): """处理单条SMILES预测""" mol = Chem.MolFromSmiles(smiles) if mol is None: return {"error": "Invalid SMILES"} # 这里简化了实际的模型调用过程 with torch.no_grad(): inputs = prepare_inputs(mol) # 假设有这个预处理函数 outputs = model(inputs, task_type=task_type) return process_outputs(outputs) # 假设有这个后处理函数 def predict_batch(smiles_text, task_type): """处理批量SMILES预测""" smiles_list = [s.strip() for s in smiles_text.split("\n") if s.strip()] results = [] for smiles in smiles_list: try: result = predict_single(smiles, task_type) if "error" in result: results.append({"smiles": smiles, "error": result["error"]}) else: results.append({"smiles": smiles, "prediction": result}) except Exception as e: results.append({"smiles": smiles, "error": str(e)}) return results # Gradio界面 with gr.Blocks(title="Graphormer分子属性预测") as demo: gr.Markdown("## Graphormer分子属性预测工具") with gr.Tab("单条预测"): with gr.Row(): single_smiles = gr.Textbox(label="分子SMILES") single_output = gr.JSON(label="预测结果") single_task = gr.Dropdown(["property-guided", "catalyst-adsorption"], label="任务类型", value="property-guided") single_button = gr.Button("预测") single_button.click( fn=predict_single, inputs=[single_smiles, single_task], outputs=single_output ) with gr.Tab("批量预测"): with gr.Row(): batch_smiles = gr.Textbox(label="SMILES列表（每行一个）", lines=10) batch_output = gr.JSON(label="预测结果") batch_task = gr.Dropdown(["property-guided", "catalyst-adsorption"], label="任务类型", value="property-guided") batch_button = gr.Button("批量预测") batch_button.click( fn=predict_batch, inputs=[batch_smiles, batch_task], outputs=batch_output ) # 示例部分 gr.Examples( examples=[ ["CCO", "property-guided"], ["c1ccccc1", "catalyst-adsorption"] ], inputs=[single_smiles, single_task], outputs=single_output, fn=predict_single, cache_examples=True ) if __name__ == "__main__": demo.launch(server_name="0.0.0.0", server_port=7860)

6. 实用技巧与进阶

6.1 性能优化建议

对于大批量预测，可以考虑以下优化：

from concurrent.futures import ThreadPoolExecutor def predict_batch_parallel(smiles_list, task_type, max_workers=4): """使用多线程加速批量预测""" with ThreadPoolExecutor(max_workers=max_workers) as executor: futures = [] for smiles in smiles_list: futures.append(executor.submit(predict_single, smiles, task_type)) results = [] for future in futures: try: results.append(future.result()) except Exception as e: results.append({"error": str(e)}) return results

6.2 输入验证增强

def validate_smiles(smiles): """更严格的SMILES验证""" mol = Chem.MolFromSmiles(smiles) if mol is None: return False, "无法解析为有效分子" try: Chem.SanitizeMol(mol) return True, None except Exception as e: return False, f"分子无效: {str(e)}"

6.3 结果后处理

def format_predictions(results, task_type): """格式化预测结果以便更好展示""" formatted = [] for item in results: if "error" in item: formatted.append({"状态": "错误", "详情": item["error"]}) else: pred = item["prediction"] if task_type == "property-guided": formatted.append({ "状态": "成功", "预测属性": pred["property"], "置信度": f"{pred['confidence']:.2f}" }) else: formatted.append({ "状态": "成功", "吸附能量": pred["adsorption_energy"], "稳定性评分": pred["stability"] }) return formatted

7. 常见问题解答

7.1 如何处理无效SMILES？

在批量预测时，建议：

预处理时过滤明显无效的输入
使用RDKit的严格验证模式
在结果中明确标记无效项

7.2 批量预测速度慢怎么办？

可以尝试：

增加max_workers参数（但不要超过CPU核心数）
批量预处理SMILES列表
使用GPU加速批次处理

7.3 如何保存预测结果？

添加结果导出功能：

import json import pandas as pd def save_results(results, format="json", filename="predictions"): if format == "json": with open(f"{filename}.json", "w") as f: json.dump(results, f, indent=2) elif format == "csv": df = pd.DataFrame(results) df.to_csv(f"{filename}.csv", index=False)