Cell|化学结构基因表达谱预测
简言之
批量转录组与单细胞转录组已被广泛用于疾病表征和细胞状态解析,但其在药物从头发现中的应用仍十分有限。本研究提出化合物筛选与优化策略GPS:利用深度学习模型,仅通过化学结构预测化合物诱导的转录组特征,再将其与疾病转录组谱匹配,从而完成化合物的筛选与优化。
lixiao@msu.edu
mchua@stanford.edu
jiayuz@umich.edu
chenbi12@msu.edu
#药物从头发现 #转录表型逆转 #基因表达谱预测 #结构基因活性关系 #肝细胞癌 #特发性肺纤维化 #虚拟筛选 #先导优化 #老药新用 #深度学习
要点
GPS模型预测的化合物诱导转录组变化,可用于药物虚拟筛选
结构-基因-活性关系分析能够阐明药物作用机制
GPS从化合物库中筛选出肝细胞癌(HCC)活性苗头化合物,并支持苗头-先导化合物优化
转录组逆转策略为特发性肺纤维化(IPF)挖掘出老药新用候选物与全新化合物
结果
基于化学结构的化合物诱导转录组特征预测
图1 GPS框架与性能
GPS模型中,神经网络以化合物结构指纹与基因本体(GO)术语为输入,学习化合物对输入基因的上调、下调或无调控作用。学习到的知识在多个对等网络间共享,用于标签的迭代噪声控制,最终利用约80%的数据点进行训练。所提稳健协同学习(RCL)框架在内部验证(随机划分)与外部验证(全新化合物)中均显著优于基线方法。整合基因信息并联合建模所有基因,而非将单个基因作为独立任务,可大幅降低单基因模型的过拟合问题;普通多任务学习(MTL)模型无法有效缓解该问题。仅使用统计高质量谱图或全部可用药物谱图训练的模型,泛化性能均低于RCL方法。RCL与基线方法在4种细胞模型中的整体性能差异均具有统计学意义(p<1E-8)。化合物水平的准确度分布与实验重复结果的一致性显著优于随机模型。模型性能与训练 / 测试化合物间的化学结构相似度无关。在10μM浓度、24小时处理以外的实验条件下,模型性能欠佳,可能与样本量较小有关。
训练算法方面:
(1)RCL优于主流机器学习/深度学习方法;
(2)无论采用何种化合物嵌入方式,RCL均优于基于鲁棒性的先进深度学习方法;
(3)图神经网络与Transformer模型学习的化学嵌入效果未优于结构指纹;随机森林模型在「已见」化合物中表现最优,但在「未见」化合物中表现最差。
GPS推算的化合物诱导转录组特征的生物学相关性
