当前位置: 首页 > news >正文

NBE | 薛宇团队突破传统解读瓶颈:人工智能混合框架“蓝猫”为海量组学数据注入“常识”与“机制”灵魂

在生命科学领域,高通量测序技术产生了海量的转录组、蛋白质组、磷酸化蛋白质组等组学数据,描绘着细胞内在的分子全景。然而,如何从这数以TB计的数据中,精准识别出关键的调控因子并理解其背后的生物学机制,一直是科学家们面临的巨大挑战。传统的差异表达、富集分析等方法往往止步于统计显著性,难以深入揭示其生物学功能。这一困境,如今有望被一种融合了前沿人工智能技术的新方法打破。

2025年1月8日,华中科技大学薛宇教授团队在Nature Biomedical Engineering杂志上发表了题为A deep learning and large language hybrid workflow for omics interpretation的研究论文。该研究开发了一种名为“蓝猫(LyMOI)”的革命性混合工作流,它将深度学习的精准预测能力与大语言模型的常识推理能力相结合,首次为大规模组学数据的机制性解读提供了一个高效、智能且具备“生物学家思维”的解决方案。

“蓝猫”:为组学数据装上“AI大脑”

典型的组学数据解读需要科学家们从海量分子中筛选出候选目标分子,并基于大量文献阅读,梳理它们之间的相互作用关系,最终形成一套完整的机制性解释。这是一个耗时耗力的过程。“蓝猫”工作流的创新之处在于,它巧妙地将这一过程自动化、智能化。

该工作流的核心是一个“双核引擎”:

大型图模型:研究团队整合了涵盖562个真核物种、涉及超过109万个蛋白质的近1.88亿个相互作用数据,构建了一个超大规模的知识图谱。随后,利用先进的图卷积网络技术对该图谱进行预训练和逐层微调,使其能够从复杂的分子网络中学习并预测在特定生物情境下起关键作用的调控因子。

大语言模型:研究团队通过创新的“提示词工程”,引导GPT-3.5生成了数万个高质量的生物学知识对。在此基础上,“蓝猫”能够针对大型图模型预测出的关键分子,自动生成“机器思维链”,像一位博学的生物学家一样,推理并阐述这些分子在生物系统中扮演的具体角色和作用机制。

以自噬为例:验证“蓝猫”的强大效能

为了验证“蓝猫”的效能,研究团队以细胞自噬——这一与多种疾病相关的关键细胞过程——作为模型系统。他们收集并处理了1.3 TB的、涵盖人类、小鼠、大鼠和酵母四种生物体的自噬相关多组学数据。结果显示,与传统差异表达分析平均仅能覆盖4.1%的已知自噬调控基因相比,“蓝猫”的预测将这一比例显著提升至30.9%,极大地提升了组学数据挖掘的生物学相关性。通过“蓝猫”的指导,研究团队成功在酵母中发现Gin4、Elm1、Rvs167和Ste50共4个蛋白激酶是新的潜在自噬调控因子,并揭示其调控自噬的分子机制。

从虚拟到现实:发现抗癌治疗新靶点与新策略

更具转化医学价值的是,“蓝猫”成功地将目光投向了癌症治疗。它推理出两种人类癌蛋白——CTSL和FAM98A,是抗肿瘤药物双硫仑(DSF)触发保护性自噬所必需的关键因子。后续的细胞实验证实,沉默这两个基因能有效减弱DSF介导的自噬,并抑制癌细胞的增殖。最令人振奋的发现来自于动物实验:将DSF与Z-FY-CHO(一种先前用于预防SARS-CoV-2感染的CTSL特异性抑制剂)联合使用,在体内实验中表现出远超预期的肿瘤生长抑制效果。这为DSF的临床应用,以及针对CTSL的癌症联合疗法,开辟了全新的道路。

综上所述,薛宇教授团队开发的“蓝猫”工作流,不仅是一个强大的组学数据解读工具,更代表了一种AI与人类专家协同探索生命奥秘的新范式。它通过赋予机器“常识”与“推理”能力,加速了我们从海量数据到生物学机制,再到潜在治疗策略的转化进程,有望为未来生物医学研究带来颠覆性的变革。

图1. 实验流程。首先,通过零样本提示词策略驱动大语言模型解读了四种真核生物的全基因组基因与自噬的潜在关联。随后,将大语言模型产生的合成数据集与THANATOS收录的自噬调控因子数据集相结合,作为标签数据用于大型图模型的训练。该图模型基于涵盖562种真核生物的109万余个蛋白质及其1.9亿条相互作用或互作同源物构建而成。接着,通过对收集的1.3 TB自噬相关多组学数据进行归一化处理和特征编码,成功构建了“蓝猫(LyMOI)”的深度学习预测模块。该模块分别在营养饥饿诱导的酵母自噬模型和双硫仑诱导的哺乳动物自噬模型中完成预测验证。思维链提示词策略驱动大语言模型推理分子调控关系构成了“蓝猫”的推理模块。最后,利用“蓝猫”的推理模块系统阐释了不同自噬诱导条件下的分子调控机制。

华中科技大学唐大超、张弛、张玮之为该论文的共同第一作者,薛宇教授和彭迪副教授为该论文的通讯作者。四川大学贾大教授、复旦大学杨力教授、北京理工大学刘滨教授、澳门大学沈汉明教授、华中科技大学同济医学院陈刚教授、孙朝阳教授、武汉大学崔逸仙教授、华中科技大学张珞颖教授等也为课题提供了大力支持。

原文链接:https://www.nature.com/articles/s41551-025-01576-5

制版人: 十一

最全1000+植物核基因组数据库IMP (点击图片直达)

高颜值免费 SCI 在线绘图(点击图片直达)


往期精品(点击图片直达文字对应教程)

LinuxPython

R绘图NGS基础GEO高级

生信自学生信书籍系列教程心得体会

转录组经典宏基因组蛋白质组单细胞系列测序发展史

免费在线画图色彩搭配图形排版图形解读

ChIP-seqTCGAGSEAWGCNA

海哥组学傻瓜系列文章写作

CytoscapeExcelPPT

机器学习

公众号投稿联系:陈同 (chentong_biology@163.com)

http://www.jsqmd.com/news/381261/

相关文章:

  • 省心了! 降AI率工具 千笔·专业降AIGC智能体 VS WPS AI,研究生专属首选
  • IDEA + Groovy 脚本一键生成实体类:用法、原理与进阶实战
  • 本科生收藏!千笔ai写作,口碑爆棚的AI论文工具
  • Microbial Biotechnology | 贾保磊/陈焕-根际微生物群落在塑造作物理想株型中的作用
  • 干货来了:自考必备的降AIGC工具 —— 千笔·专业降AIGC智能体
  • 真的太省时间了!AI论文软件 千笔AI VS 灵感风暴AI
  • 2026年HIS系统推荐:智慧医疗趋势权威评测,涵盖临床与管理场景核心痛点分析 - 十大品牌推荐
  • 英语却在疯狂堆词汇,总量破百万
  • 程序员修炼之道笔记一
  • 购物卡换现金?超实用永辉卡回收指南 - 团团收购物卡回收
  • 科研党收藏!AI论文网站 千笔写作工具 VS 万方智搜AI,专科生写论文更省心!
  • 2026年热门的不锈钢护墙/不锈钢烤漆哪家专业工厂直供推荐 - 品牌宣传支持者
  • 永辉超市购物卡最优回收渠道推荐! - 团团收购物卡回收
  • 2026年HIS系统推荐:基于医院场景与成本痛点深度评测并附排名 - 十大品牌推荐
  • 哪家HIS系统厂商更可靠?2026年HIS系统推荐与评价,解决服务与稳定性痛点 - 十大品牌推荐
  • 本体论与智能运维
  • 2026年HIS系统推荐:多维度实测评价,针对系统稳定性与合规性核心痛点 - 十大品牌推荐
  • 2026年2月最新:这两款降AI工具我用了一学期,真心推荐
  • 2026年HIS系统推荐:智慧医疗趋势下的功能排名,涵盖临床与管理核心场景 - 十大品牌推荐
  • Qwen3-ForcedAligner-0.6B企业级应用:智能客服对话分析系统
  • 4块钱以内的降AI工具,哪个最靠谱?实测3款给你看
  • 2026年四川GPU服务器哪家靠谱?实力强劲 服务有保障 适配多行业需求 - 深度智识库
  • 图片旋转判断实战:一键解决照片倒置问题
  • 咸鱼流出299元全新英特尔11代拆机准系统笔记本,自带15.6寸1080P高清大屏,膜都未撕,还值得入手及使用吗?
  • Spark大数据处理:技术、应用与性能优化【1.3】
  • 2月饲料精选推荐榜:高效配方助力养殖业发展,专利饲料/母羊料/三七乳猪料/预混合饲料/开口料,饲料生产厂家口碑推荐 - 品牌推荐师
  • GPU租用兴起,正成为算力获取新主流
  • 保姆级教程:用Qwen3-TTS-Tokenizer-12Hz实现音频高保真重建
  • 一文讲透|降AIGC工具 千笔·专业降AI率智能体 VS WPS AI 专科生专属神器
  • 2026年知名的海绵吸盘/半导体行业晶圆专用无痕吸盘源头厂家推荐帮我推荐几家 - 品牌宣传支持者