当前位置：首页 > news >正文

10亿美元融资！参数量高达49亿

news 2026/7/27 22:48:00

Xaira首款虚拟细胞模型创现有规模之最，面向复杂生物学

依托可扩展的单细胞数据集训练的模型，是临床转化的重要基石

#人工智能 #药物研发 #药理学 #单细胞RNA测序 #T细胞 #基因泰克 #葛兰素史克 #强生

生物学：显微镜下的细胞分裂

图源：urfinguss/iStock/Getty Images Plus

获得10亿美元融资的AI药物研发企业Xaira Therapeutics，近期发布业界迄今参数量最大的虚拟细胞模型，用于预判细胞在全新生物环境下受基因扰动的应答特征。研发团队提出，精准预测转录组层面的扰动效应，可高效赋能靶点发现、药物作用机制解析、患者分层、毒性预测等多项转化研究。

该模型命名为X-Cell，参数量高达49亿，是全球首个在虚拟细胞领域验证缩放定律的模型。49亿参数×2560万细胞！因果扰动预测试验结果显示，基因扰动的预测效果遵循幂律缩放规律，幂指数与大语言模型匹配。

Marc Tessier-Lavigne博士

Xaira CEO

性能层面，X-Cell可０样本预测T细胞抑制类基因扰动，对训练集未收录的药用研究体系具备良好泛化能力，包含诱导多能干细胞来源黑素前体细胞、多供体原代人T细胞。相关研究以预印本形式刊发于bioRxiv，尚未完成同行评议。

Xaira于2024年成立，由斯坦福大学前校长、基因泰克首席科学官Marc Tessier-Lavigne（博士）担任CEO。公司高管星光熠熠，包括诺贝尔奖得主David Baker（博士）、Carolyn Bertozzi（博士）、美国FDA前局长Scott Gottlieb（医学博士），以及强生公司前首席执行官Alex Gorsky。

扩散演变

多数虚拟细胞模型基于观测型单细胞RNA测序表达数据集构建，但药物处理等外界刺激的细胞应答预测，需大规模基因扰动测序数据，此类公开数据储备稀缺。

为完成 X-Cell 训练，Xaira初创阶段搭建业界体量顶尖的全基因组CRISPRi Perturb-seq数据集X-Atlas/Pisces。该数据集由去年6月上线的X-Atlas/Orion拓展而来，覆盖7组筛选实验、16种生物背景，合计2,560万个细胞。这份适配AI运算、生物场景丰富的独家数据集，支撑X-Cell实现数10亿级参数量构建。

X-Cell首次借助交叉注意力机制，系统性整合已发表文献中的生物学先验信息，涵盖特定基因注释、蛋白互作、细胞形态等内容。

架构上，Xaira初代虚拟细胞选用扩散语言模型，通过不断用扰动后基因表达值替换对照组表达数值，迭代优化预测结果；该架构区别于上一代单细胞多组学模型（如Xaira生物医药AI高级副总裁Bo Wang博士研发的scGPT）采用的自回归架构。

Wang以写作类比：自回归模型如同从左至右逐字输入文本，单处出错即会造成整段内容失效。

Bo Wang博士

Xaira SVP兼生物医药AI负责人

与之不同，扩散语言模型类似文稿修改：以「我喜欢咖啡」作为初始基底，依次迭代优化为「我喜欢低因咖啡」、「我喜欢精细研磨的低因咖啡」，每轮迭代均优化输出结果，使其贴合真实数据分布。

「更精密，预测性能更优异，语言领域的专家也认可其推理能力优势。」 Wang在接受GEN Edge采访时介绍该扩散方案。

工程学科

「检验技术价值最直观的标准，是依托模型研发新药、惠及病患。」Tessier-Lavigne在专访中表示。

他提出，新药研发与生俱来的试错属性，导致研发周期冗长、临床淘汰率居高不下：从靶点确认到药物获批平均耗时13年，９成候选化合物折戟临床试验。Xaira的使命是搭建平台与自研管线，将经验化的新药研发转型为标准化工程学科。

除虚拟细胞研发外，Xaira布局分子设计板块，依托2024年诺贝尔化学奖得主Baker的蛋白设计技术开发新型抗体，靶向胞外结合区域稀少、跨膜次数多的难成药膜蛋白；该类靶点临床价值明确，但长期缺少可落地的靶向药物。

去年11月，由Xaira联合创始人、Baker实验室博士后Nathaniel Bennett博士、Joseph Watson博士牵头的研究刊登于Nature，实现从头合成全长抗体，可在原子精度下结合指定抗原表位。同期３家企业Nabla Bio、Chai Discovery、Absci也在全新抗体创制领域取得同等进展。

尽管Xaira甚少披露分子管线细节，Tessier-Lavigne称企业自成立起便重点布局该方向，后续数月将陆续公开研发进展。