当前位置：首页 > news >正文

别再手动查文献了！用TCMSP+PubChem搞定中药成分收集，附Excel模板

news 2026/6/15 17:19:22

中药网络药理学研究的高效数据采集方法论

第一次接触网络药理学研究时，最让我头疼的就是中药化学成分的数据收集工作。记得当时为了完成一个简单的中药复方研究，整整花了两周时间在不同数据库和文献中反复查找、比对、整理数据，结果还因为格式不统一导致后续分析频频出错。这种低效的手工作业方式，在网络药理学这个需要处理海量数据的领域显得尤为不合时宜。

经过多个项目的实践，我总结出了一套标准化数据采集流程，能够将原本需要数周的工作压缩到几天内完成，且数据质量更高。这套方法的核心在于合理利用专业数据库的批量查询功能，配合经过优化的Excel模板，实现从原始文献到标准化化学信息的快速转换。下面将详细介绍如何运用TCMSP、PubChem等工具构建高效工作流。

1. 中药成分采集的三大数据源

网络药理学研究的第一步，也是最为基础性的工作，就是准确全面地收集中药化学成分信息。传统的手工文献查阅方式不仅效率低下，而且容易遗漏重要成分或产生数据格式混乱。现代研究应当充分利用以下三类数据源的组合优势：

1.1 专业数据库的批量查询

TCMSP数据库（Traditional Chinese Medicine Systems Pharmacology Database）是目前最常用的中药成分数据库之一。其优势在于：

提供中药成分的**类药性(DL)和口服生物利用度(OB)**等关键药代动力学参数
可直接导出成分的SMILES结构式和CAS登记号
关联了部分成分的已知靶点信息

典型查询流程示例：

访问TCMSP官网(https://old.tcmsp-e.com/)
在"Herb name"字段输入中药英文名（如"Angelica sinensis"）
设置筛选条件（建议OB≥30%且DL≥0.18）
导出全部结果到CSV格式

注意：TCMSP收录的中药拉丁名可能与《中国药典》不一致，建议先通过数据库的浏览功能确认准确名称。

对于TCMSP未收录或信息不全的中药，可以尝试以下补充数据库：

数据库名称	网址	主要特点
ETCM	http://www.tcmip.cn	包含中药-成分-靶点-疾病网络
BATMAN-TCM	http://bionet.ncpsb.org.cn	提供成分靶点预测功能
TCMID	http://www.megabionet.org/tcmid	收录复方配伍信息

1.2 文献数据的结构化提取

当数据库信息不足时，仍需借助文献检索补充成分信息。高效处理文献数据的关键在于：

建立标准化提取模板：预先设计包含所有必要字段的Excel表格
批量下载相关文献：利用CNKI、PubMed的高级检索功能
使用文献管理软件：如EndNote或Zotero进行去重和分类

我开发的Excel模板包含以下关键字段：

1. 编号（自动生成） 2. 中文名称（从文献提取） 3. 英文名称（优先使用IUPAC名） 4. CAS号（用于PubChem查询） 5. SMILES（结构式编码） 6. 分子量（用于后续筛选） 7. 来源文献（DOI或PMID）

1.3 实验数据的整合策略

对于通过LC-MS等实验手段新发现的成分，需要特别注意：

质谱数据需转换为标准分子式
新化合物应通过PubChem验证
建立内部编号系统与已知成分区分

实验数据与数据库信息的整合流程：

将实验得到的分子式输入PubChem
核对匹配结果中的结构信息
对全新化合物标注特殊标识
统一导入主成分列表

2. 化学成分信息的标准化处理

收集到原始成分数据后，标准化处理是保证后续分析质量的关键步骤。这个阶段常见的问题包括同物异名、结构重复和关键信息缺失等。

2.1 成分去重与合并

中药成分经常存在多种命名方式，需要通过技术手段识别实质相同的化合物。推荐的处理流程：

CAS号优先原则：具有唯一CAS号的成分直接合并
SMILES比对：对无CAS号的成分进行结构相似性比较
手动校验：对相似度高的成分进行人工确认

使用OpenBabel工具进行批量SMILES比对：

obabel -ismi input.smi -osmi -O output.smi --unique

2.2 关键信息的补充完善

对于缺少SMILES或CAS号的成分，可通过以下方式补充：

PubChem批量查询：
- 准备成分英文名称列表
- 使用PUG-REST API进行批量查询
- 解析返回的JSON数据提取所需字段

示例API调用：

import requests def get_cas_from_pubchem(compound_name): url = f"https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/name/{compound_name}/property/CAS/JSON" response = requests.get(url) if response.status_code == 200: return response.json()['PropertyTable']['Properties'][0]['CAS'] return None

化学结构转换工具：
- 对于只有分子式的成分，使用ChemDraw或MarvinSketch生成结构
- 导出为标准SMILES格式
- 通过InChIKey进行唯一性验证

2.3 数据质量验证

在进入下一步分析前，必须对数据集进行完整性检查：

必填字段验证：确保每个成分至少有1种标识符（CAS/SMILES/InChIKey）
结构有效性检查：使用RDKit等工具验证SMILES的化学合理性
来源追溯：记录每个成分的数据来源，便于后续核查

验证SMILES有效性的Python代码片段：

from rdkit import Chem def is_valid_smiles(smiles): mol = Chem.MolFromSmiles(smiles) return mol is not None

3. 从化学成分到靶点网络的构建

获得标准化的成分信息后，下一步是建立成分-靶点的关联网络。这一步骤将直接影响后续的PPI分析和通路富集结果。

3.1 靶点预测的多策略融合

不同数据库和预测工具各有侧重，建议采用组合策略提高靶点覆盖度：

数据库直接查询：
- TCMSP和ETCM中已有的实验验证靶点
- DrugBank中的已知药物-靶点对
计算预测方法：
- SwissTargetPrediction（基于2D相似性）
- PharmMapper（基于药效团匹配）
- SEA（相似性 ensemble approach）

各预测工具的特点比较：

工具名称	输入要求	优势	局限性
SwissTargetPrediction	SMILES	界面友好，结果直观	仅预测人类靶点
PharmMapper	3D结构文件	不受相似性限制	需要结构优化
SEA	SMILES	考虑多靶点协同	预测结果较宽泛

3.2 靶点数据的标准化处理

不同来源的靶点标识符需要统一为标准的Gene Symbol，处理步骤包括：

标识符转换：
- 使用UniProt的ID mapping工具
- 或DAVID基因功能分析工具的转换功能
物种过滤：
- 保留Homo sapiens的靶点
- 去除物种不符或未明确的条目
置信度筛选：
- 实验验证靶点优先保留
- 预测靶点根据多个工具的一致性进行筛选

批量UniProt ID转换示例：

import pandas as pd from bioservices import UniProt u = UniProt() mapping = u.mapping(fr="UniProtKB_AC-ID", to="Gene_Name", query="P12345,P67890")

3.3 网络构建与初步分析

使用Cytoscape构建成分-靶点网络时，建议：

节点属性完整：区分成分节点和靶点节点
边权重设置：根据关联强度（实验/预测）设置不同权重
拓扑分析：计算度中心性等关键指标

网络文件的基本结构示例：

source,target,interaction_type quercetin,PTGS2,inhibition kaempferol,AR,activation

4. 高效工作流的实现技巧

通过以下优化措施，可以进一步提升整个研究流程的效率：

4.1 自动化脚本的应用

针对重复性高的操作，可以开发小型自动化脚本：

文献数据提取：
- 使用Python的pdfminer库解析PDF文献
- 正则表达式匹配化学名称和CAS号
数据库批量查询：
- 利用各数据库提供的API接口
- 设置合理的请求间隔避免被封禁
数据清洗转换：
- OpenRefine工具处理混乱的命名
- Pandas库进行表格数据的合并与去重

4.2 质量控制的关键点

在整个流程中需要特别关注的质量控制环节：

成分收集阶段：确保覆盖主要活性成分，避免重要成分遗漏
靶点预测阶段：设置合理的置信度阈值，平衡假阳性和假阴性
网络分析阶段：检查核心靶点的生物学合理性

4.3 常见问题解决方案

在实际操作中经常遇到的问题及应对策略：

问题1：TCMSP查询不到目标中药
- 解决方案：检查拉丁名拼写，尝试同属不同种，或使用ETCM补充
问题2：PubChem中同分异构体难以区分
- 解决方案：结合文献报道的主要活性构型，或全部保留后续验证
问题3：不同预测工具的靶点结果差异大
- 解决方案：取多个工具的交集，或根据药理实验数据验证

经过多个项目的实践验证，这套方法能够将中药成分数据收集的时间缩短70%以上，且数据质量显著提高。关键在于建立标准化的工作流程，合理利用各种工具的批量处理功能，避免手工操作带来的误差和低效。

查看全文

http://www.jsqmd.com/news/1018061/

告别手动配置：用Tcl脚本一键搞定Quartus与ModelSim的仿真环境关联

实战指南：构建企业级AI接口网关的统一管理平台

华为OD机试真题新系统-字符串格式调整(C/C++/Py/Java/Js/Go)

2026甄选：赛罕区蹲坑疏通公司，专业疏通，快解堵塞，诚信服务口碑之选 - 企业推荐官【官方】

从操作细节看“ChatGPT品牌优化”：出海企业可以关注的五个方向

存储性能测试方法论：从 fio 到业务场景的 Benchmark 设计

跳出播放器思维，私有化视频会议平台EasyDSS一站式视频平台，重塑企业私有化融媒体/视频会议系统需求！

2026 梅州黄金回收全域深度测评｜合规商家实力详解与闲置黄金无忧变现指南 - zzlzzl6688

从C#到Python：手把手教你搞定Halcon图像格式转换（附避坑指南）

电瓶车托运上门取件操作流程 2026 新手办理全指南？电瓶车托运上门取件 2026新手办理全流程 - 快递物流资讯

福州厦门电视花屏维修指南：图像闪烁原因分析与上门检修方案2026 - 简单到家

Dism++终极指南：免费开源Windows系统优化工具完整教程

避开这3个坑，你的运输问题求解才算真的懂了：从退化、多解到产销不平衡实战解析

OmenSuperHub终极指南：3步解锁惠普OMEN游戏本隐藏性能的免费方案

上海英国留学社科类面试网站：清晰指南重点技巧呈现 - 虚拟星辰

MSC8251片上互连核心CLASS寄存器编程与性能优化实战

彻底解决64位应用程序区域语言模拟难题：Locale Remulator深度解析与实战指南

TV Bro：智能电视浏览器的终极解决方案，重新定义大屏上网体验

那些告诉你“试剂差不多就行”的人，后来都怎么样了？

免费AI背景移除插件终极指南：OBS背景移除插件完整教程

FLUX.1-dev模型bnb-nf4量化技术深度解析：V2版本如何实现精度与速度的双重突破

WarcraftHelper终极指南：让经典魔兽在现代电脑上完美运行的3大核心技术

MultiLogin终极指南：如何让正版与外置登录玩家在同一服务器畅玩

2026 上海核心商圈附近黄金奢侈品回收优质店铺深度探店 - 奢侈品回收

广州东莞灯具线路故障开关失灵维修 - 简单到家专业灯具维修服务 - 简单到家

多维聚合实战：从OLAP立方体到实时流式聚合工程化

2026晋中黄金回收实测攻略正规门店盘点及避坑指南 - 润富黄金回收

英雄联盟回放播放器终极指南：ROFL-Player免费开源工具完全解析