当前位置: 首页 > news >正文

预测新药联合建模登Nature:AI淘金化学荒野,探路亿级分子星辰大海

寻找全新药物如同在未知的远洋中航行。

人工智能是极好的指南针,可一旦驶离训练数据划定的熟悉海域,预测模型往往会迷失方向。

科学家提出一种叫作陌生度的新指标,让模型学会衡量自身的认知边界,进而精准挑出结构全新且具有活性的潜力新药。

发表于《自然-机器智能》的研究展示了一种将分子性质预测与分子重建相结合的联合建模方法,通过计算模型重建分子的错误率来量化分布偏移,团队在33个数据集上验证了该指标,并在实验室中成功筛选出7个对目标激酶有强抑制活性的全新化合物。

走出已知化学空间

早期药物发现的核心目标是寻找结构全新的活性分子,解决未满足的医疗需求。

机器学习模型通常只能在数百个具有高质量实验标注的已知分子上进行训练,要在包含数十亿个化学物质的庞大库中执行预测。面临训练分布之外的分子时,模型极易遭遇惨败。

传统方法依靠计算分子相似性来划定适用域,极大地限制了对全新结构的探索。基于贝叶斯近似的预测不确定度估计被业界广泛使用,在处理完全陌生的数据时,模型容易给出过度自信的误判。

为了突破数据边界,研究团队引入了一种联合分子模型(JMM)。

联合分子模型基于半监督自动编码器设计,将简化分子线性输入规范(SMILES)字符串编码为压缩的潜在向量,随后解码重建出原始分子。模型在预测分子生物活性的同时执行重建任务。

从未见过的数据极难被准确重建,研究人员顺势将重建损失转化为陌生度指标。指标的高低直接量化了某个分子偏离训练分布的剧烈程度。

联合分子模型架构通过解码器的重建表现来估算目标对象究竟有多陌生。

捕捉数据分布偏移

研究团队收集了33个带有实验注释的数据集,涵盖多种生物特性。所有数据被拆分为训练集、同分布测试集和分布外测试集。在使用扩展连通性指纹(ECFP)和药效团描述符等分子相似性工具进行基准比对时,分布外测试集展现出极其显著的底层差异。

对比基线模型在遇到分布外测试集时,预测准确率无一例外地出现大幅滑坡。联合分子模型在保持同等分类预测性能的基础上,依靠解码器精准捕捉到了底层数据的偏移。分布外分子毫无悬念地获得了极高的陌生度得分。

分析证实极高的得分与分子自身结构的复杂度毫无关系,纯粹反映了待测目标与训练数据的绝对距离。

测试集合展示了33个数据集中数据划分与训练集的支架相似度走向,联合分子模型在同分布和分布外数据上给出了泾渭分明的陌生度评分。

深层比对揭示了陌生度与预测准确率的强绑定关系。

当分子的陌生度居高不下时,模型预测错误的概率急剧上升。测试囊括了所有主流可靠性指标,陌生度与分类性能的相关性大幅超越了单纯的嵌入距离测量。

百万级虚拟筛选测试

真实的药物发现绝非小规模测试,研究人员直接将模型应用于包含140万个分子的庞大商业筛选库。海量筛选库分子与训练集的结构重叠度降至冰点。

面临海量且剧烈的数据分布偏移,传统的不确定度估计彻底失效,给出的反馈曲线与测试同分布数据时几乎重合。单纯依赖不确定度,工程师会产生模型依然在安全区内健康运行的严重错觉。

陌生度指标极其敏锐地感知到了环境异变。

筛选库中的分子普遍获得了陡峭且极高的陌生度得分。深度扫描显示高陌生度分子普遍具备非典型结构,低陌生度分子有效保留了类固醇结构等经典生物活性分子的核心特征。

不确定度与陌生度在评估可靠性时呈现出完美的互补状态。

筛选库与训练集的相似度分布对比图中,不确定度曲线发生严重交叠无法分辨差异,陌生度曲线在筛选库上呈现出极度显著的右移偏移。

试管里的真实收获

团队针对两种具备临床价值的激酶目标开展了实地盲测,试图从18万个候选化合物中挖掘具有抑制作用的先导新药。细胞周期蛋白依赖性激酶1(CDK1)的数据从未参与过前期的任何研究,充当了极其严苛的独立测试用例。

综合考量预测活性、不确定度以及陌生度,团队精挑细选了60个候选分子投入真实生物活性测试。为了彻底逼出模型的极限,入选分子被强制要求大幅度偏离原有训练集,相似度最高不得跨越边界。

活体细胞层面的实验数据令人振奋,在10µM的单次浓度筛选中,研究人员捕获了多个初始命中物。通过严密的剂量反应曲线层层推进,最终确认有7个化合物展现出了低微摩尔级别的卓越抑制效力。

7个高潜力化合物与训练分子的相似度最高仅为38%。常规激酶定向筛选的命中率通常在0.1%到5%之间挣扎徘徊,借助全新的指路明灯,针对PIM1和CDK1的寻宝命中率分别攀升至17%和7%。

不同筛选策略捕获的激酶抑制剂活性分布箱型图如上,详细列出了6个最具潜力的PIM1和CDK1化合物核心分子式及其半数抑制浓度数据。

联合建模孕育出的陌生度指标,为机器学习探寻浩瀚化学空间装备了精密的雷达。

计算模型告别了死板比对分子相似性的旧时代,依靠自身的重建错误率就能敏锐洞察外部世界。

全局视角的底层创新融合现有的预测体系,帮助科学家穿越数据分布的断层鸿沟,以更笃定的姿态挖掘前所未见的生命新药。

参考资料:

https://www.nature.com/articles/s42256-026-01216-w

http://www.jsqmd.com/news/766794/

相关文章:

  • Windows平台安卓应用部署革命:APK Installer的轻量化跨平台解决方案
  • 用PySide6和OpenCV打造你的第一个桌面摄像头应用(附完整源码)
  • 2026年至今湖南市场CTPU储罐防腐胶泥供应商全景扫描与核心能力拆解 - 2026年企业推荐榜
  • HoRain云--PHP 变量
  • Navicat无限试用终极指南:macOS平台的完整解决方案
  • 用‘乞丐版’预算复刻Keithley 2450?我的DIY源表实战与元器件避坑指南(含CRHA2510AF200MFKEF替代方案)
  • 企业级Docker存储架构设计(含K8s节点适配):单机TB级持久化方案与IO隔离实践
  • VoXtream2:超低延迟流式TTS与动态语速控制技术解析
  • 保姆级教程:在YOLOv5 v6.0的yaml配置文件中,手把手教你插入CA注意力模块
  • fre:ac音频转换器:专业级开源解决方案的终极指南
  • 2026年4月更新:义乌围棋培训机构深度**与口碑推荐 - 2026年企业推荐榜
  • 全网最强小说下载器:novel-downloader一键收藏100+网站小说
  • 别再死记硬背了!从MOS管沟道宽长比到单元延时,用大白话讲透STA里的RC充放电模型
  • 别再只认识MP4了!高清电视、直播切片背后的TS文件,到底是个啥?
  • 5分钟快速上手:Retrieval-based-Voice-Conversion-WebUI语音转换终极指南
  • 手把手教你为ARM嵌入式环境编译‘带调试信息’的Glibc库,彻底告别GDB堆栈损坏警告
  • 别再乱调重力了!Simulink Simscape钟摆建模,从Revolute Joint到求解器设置的保姆级避坑指南
  • ChanlunX缠论插件:3步实现通达信专业K线分析,新手也能5分钟掌握
  • 从短信链接到应用内页面:uni-app URLScheme实战,打通用户增长的关键一环
  • 告别在线工具!用Python+Skyfield库本地计算卫星轨道与星下点(以高分五号为例)
  • 告别 User Interface:在 Xilinx UltraScale 平台上,为什么我更推荐用 AXI 接口的 DDR4 MIG IP?
  • 通过Taotoken CLI工具一键配置团队开发环境中的大模型密钥
  • B站m4s视频转换完整指南:一键永久保存你的缓存视频
  • 2026年5月,探寻宁波注塑机产业高地:为何华维机械是明智之选? - 2026年企业推荐榜
  • 2026年散酒铺公司实力推荐:平价的散酒铺/国货之光散酒铺/拍照出片的散酒铺/可以闭眼入的散酒铺/排名前十的散酒铺品牌 - 品牌策略师
  • 终极Alienware硬件控制指南:如何用500KB开源工具替代AWCC
  • 蓝牙、WiFi与NFC在Android平台上的性能优化实践
  • 广州泓动数据联系方式是什么?泓动数据官方渠道全公开 - 互联网科技品牌测评
  • TFT Overlay:云顶之弈玩家的智能决策助手,三分钟实现从新手到高手的蜕变
  • 物联网项目踩坑实录:RS485温湿度传感器数据上传,为什么我的TCP服务器收不到数据?