10亿美元融资!参数量高达49亿
Xaira首款虚拟细胞模型创现有规模之最,面向复杂生物学
依托可扩展的单细胞数据集训练的模型,是临床转化的重要基石
#人工智能 #药物研发 #药理学 #单细胞RNA测序 #T细胞 #基因泰克 #葛兰素史克 #强生
生物学:显微镜下的细胞分裂
图源:urfinguss/iStock/Getty Images Plus
获得10亿美元融资的AI药物研发企业Xaira Therapeutics,近期发布业界迄今参数量最大的虚拟细胞模型,用于预判细胞在全新生物环境下受基因扰动的应答特征。研发团队提出,精准预测转录组层面的扰动效应,可高效赋能靶点发现、药物作用机制解析、患者分层、毒性预测等多项转化研究。
该模型命名为X-Cell,参数量高达49亿,是全球首个在虚拟细胞领域验证缩放定律的模型。49亿参数×2560万细胞!因果扰动预测试验结果显示,基因扰动的预测效果遵循幂律缩放规律,幂指数与大语言模型匹配。
Marc Tessier-Lavigne博士
Xaira CEO
性能层面,X-Cell可0样本预测T细胞抑制类基因扰动,对训练集未收录的药用研究体系具备良好泛化能力,包含诱导多能干细胞来源黑素前体细胞、多供体原代人T细胞。相关研究以预印本形式刊发于bioRxiv,尚未完成同行评议。
Xaira于2024年成立,由斯坦福大学前校长、基因泰克首席科学官Marc Tessier-Lavigne(博士)担任CEO。公司高管星光熠熠,包括诺贝尔奖得主David Baker(博士)、Carolyn Bertozzi(博士)、美国FDA前局长Scott Gottlieb(医学博士),以及强生公司前首席执行官Alex Gorsky。
扩散演变
多数虚拟细胞模型基于观测型单细胞RNA测序表达数据集构建,但药物处理等外界刺激的细胞应答预测,需大规模基因扰动测序数据,此类公开数据储备稀缺。
为完成 X-Cell 训练,Xaira初创阶段搭建业界体量顶尖的全基因组CRISPRi Perturb-seq数据集X-Atlas/Pisces。该数据集由去年6月上线的X-Atlas/Orion拓展而来,覆盖7组筛选实验、16种生物背景,合计2,560万个细胞。这份适配AI运算、生物场景丰富的独家数据集,支撑X-Cell实现数10亿级参数量构建。
X-Cell首次借助交叉注意力机制,系统性整合已发表文献中的生物学先验信息,涵盖特定基因注释、蛋白互作、细胞形态等内容。
架构上,Xaira初代虚拟细胞选用扩散语言模型,通过不断用扰动后基因表达值替换对照组表达数值,迭代优化预测结果;该架构区别于上一代单细胞多组学模型(如Xaira生物医药AI高级副总裁Bo Wang博士研发的scGPT)采用的自回归架构。
Wang以写作类比:自回归模型如同从左至右逐字输入文本,单处出错即会造成整段内容失效。
Bo Wang博士
Xaira SVP兼生物医药AI负责人
与之不同,扩散语言模型类似文稿修改:以「我喜欢咖啡」作为初始基底,依次迭代优化为「我喜欢低因咖啡」、「我喜欢精细研磨的低因咖啡」,每轮迭代均优化输出结果,使其贴合真实数据分布。
「更精密,预测性能更优异,语言领域的专家也认可其推理能力优势。」 Wang在接受GEN Edge采访时介绍该扩散方案。
工程学科
「检验技术价值最直观的标准,是依托模型研发新药、惠及病患。」Tessier-Lavigne在专访中表示。
他提出,新药研发与生俱来的试错属性,导致研发周期冗长、临床淘汰率居高不下:从靶点确认到药物获批平均耗时13年,9成候选化合物折戟临床试验。Xaira的使命是搭建平台与自研管线,将经验化的新药研发转型为标准化工程学科。
除虚拟细胞研发外,Xaira布局分子设计板块,依托2024年诺贝尔化学奖得主Baker的蛋白设计技术开发新型抗体,靶向胞外结合区域稀少、跨膜次数多的难成药膜蛋白;该类靶点临床价值明确,但长期缺少可落地的靶向药物。
去年11月,由Xaira联合创始人、Baker实验室博士后Nathaniel Bennett博士、Joseph Watson博士牵头的研究刊登于Nature,实现从头合成全长抗体,可在原子精度下结合指定抗原表位。同期3家企业Nabla Bio、Chai Discovery、Absci也在全新抗体创制领域取得同等进展。
尽管Xaira甚少披露分子管线细节,Tessier-Lavigne称企业自成立起便重点布局该方向,后续数月将陆续公开研发进展。
对细胞研究满怀热忱
可适配陌生生物场景的泛化型虚拟细胞虽夯实基础生物学研究,但距离精准预判患者临床预后仍存技术鸿沟。
Noetik首席执行官医学博士Ron Alfa提出,由单细胞实验逐层搭建组织乃至人体仿真模型难度极高,基于组织特征分词建模是更贴合临床转化的研发路径。
「我们深耕细胞研究领域,」Alfa于上周圣何塞英伟达GTC大会上发言,「训练高阶 AI 模型,核心在于依托底层生物数据生成标准化特征单元。」
Noetik立足人体样本,依托患者来源肿瘤多模态数据集搭建癌症预后预测模型,该技术促成企业与葛兰素史克(GSK)签订5年授权协议,GSK可使用其非小细胞肺癌、结直肠癌基础模型。
Tessier-Lavigne将X-Cell视作企业长线研发的开端,项目将循序渐进、分步落地。
「任何实验室或企业都需要平衡终极模型研发与短期科研产出。」大规模Perturb-seq数据集的搭建,能够助力解析全基因组中调控生理功能的基因调控网络。
Wang表示,Xaira现阶段聚焦细胞虚拟建模,后续将拓展类器官、模式动物乃至人体层级仿真;人体临床数据获取成本高、周期长,可规模化细胞模型能够产出科研假说,为人体层级AI模型的验证提供支撑。
研发团队计划继续扩充数据类型,新增调控信号通路的化学小分子扰动数据、蛋白质组数据。今年1月,Biohub、Arc研究所、Tahoe Therapeutics官宣联合搭建开源大型化学扰动数据集,数据集上线时间尚未公示。
「AI的优势是搭建统一底层框架,持续汇入新数据后,可依托迁移学习实现多维度互通,这正是我们的研发愿景。」 Tessier-Lavigne说道。
单细胞测序仅能捕获复杂生命信息的局部片段,各类组学数据不存在竞争关系,而是互补增益;每次技术迭代都会提升模型解析分辨率,持续推动行业搭建完整、可精准预测的全维度生物学仿真体系。
详细总结
思维导图
内容汇总
参考
Xaira’s First Virtual Cell Model Is Largest To-Date, Toward Complex Biology
https://www.genengnews.com/topics/artificial-intelligence/xairas-first-virtual-cell-model-is-largest-to-date-toward-complex-biology/
注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。
