当前位置: 首页 > news >正文

Nicheformer 基础模型

Nicheformer 基础模型通过以下方式实现单细胞(解离)与空间多组学数据的整合输入、架构处理及结果输出:

一、 多组学数据的输入方式

Nicheformer 采用了一种基于基因排序(Gene-rank)的统一分词策略,将不同背景的数据转化为标准化的序列输入 :

  • 数据预处理与归一化

    • 所有细胞首先被归一化至每细胞 10,000 个计数 。
    • 技术校正:为了消除不同检测技术间的偏差,模型计算了各类技术特异性的非零基因表达均值向量 。解离型数据共享一个均值向量,而空间数据则根据技术(如 MERFISH、Xenium 等)分别计算 。
  • 基因排序分词(Tokenizer)

    • 计算每个细胞中基因表达相对于对应技术均值水平的偏差 。
    • 基因按表达量由高到低降序排列,仅保留表达的基因,形成有序的基因 token 序列 。
  • 上下文标记(Contextual Tokens)

    • 在基因序列前端添加三个特定的元数据标记:检测方法(Assay)物种(Organism)检测模态(Modality,即解离或空间)
    • 这些标记使模型能够显式学习并区分不同组学来源的背景特征 。

二、 模型架构的交互与处理机制

Nicheformer 核心基于 Transformer 编码器单元,其处理逻辑如下:

  • 架构参数:模型包含 12 层 Transformer 编码器,每层配备 16 个注意力头,生成 512 维的嵌入表示 。

  • 位置编码:使用可学习的位置嵌入来记录标记在排序序列中的位置信息 。

  • 注意力机制(Self-Attention)

    • 模型通过自注意力机制捕获单个细胞内基因表达模式间的复杂互作关系 。
    • 层级化分工:早期层注意力分布较广;中层对特定基因表现出显著聚焦,捕获生物学关系;末层则始终聚焦于元数据上下文标记 。
  • 跨模态学习:通过在涵盖 1.1 亿细胞的 SpatialCorpus-110M 数据集(包含 5300 万空间分辨细胞和 5700 万解离细胞)上进行预训练,模型得以习得单细胞与空间基因组的联合表征 。


三、 模型输出内容

模型的输出根据应用场景(线性探针或微调)而有所不同:

  • Nicheformer 嵌入(Embedding)

    • 这是最基础的输出。通过聚合(均值池化)Transformer 最后一层的基因 token 输出生成 512 维的低维向量表征 。
    • 注意:在生成最终嵌入时需排除元数据上下文标记,以防止高范数的模态信息主导表征,从而实现有效的跨模态标签迁移 。
  • 下游任务预测结果

    • 空间标签预测:预测细胞的类型、所属组织区域及特定的微环境(Niche)标签 。
    • 空间组成预测:预测给定半径内的邻域细胞密度及各种细胞类型的占比(组成) 。
    • 标签迁移:可预测解离型单细胞(scRNA-seq)在空间背景下的缺失信息,为其注入空间上下文 。
http://www.jsqmd.com/news/346889/

相关文章:

  • 完整教程:仓颉语言 LinkedList 链表实现深度解析
  • 同花顺 app 设置技巧
  • Kotlin编程语言入门与常见问题
  • 三角形正反面之谜:三个点如何决定朝向?
  • 【MySQL 数据库】MySQL 数据库核心概念详解:库、表、字段、主键与关系型模型一文读懂
  • DNA 免疫抗体制备服务:构象保真的挑战性抗原抗体制备创新方案
  • NoSQL数据库在传感器大数据存储中的选型指南
  • 空间转录组
  • P1901 发射站
  • Node.js 24.13.0 (LTS)
  • 云计算与物联网融合:推动智慧城市的未来发展 - 指南
  • 树上背包+换根DP
  • 企业AI能力评估与供应商选择:AI应用架构师教你如何用评估结果筛选合作方
  • 智能数字资产登记系统数据存储架构:AI应用架构师的选型指南
  • 知识图谱在AI原生应用中的核心作用解析
  • 解离单细胞 (scRNA-seq),都被解离了,那是怎么测出单细胞Gene的表达量的
  • leetcode 909. Snakes and Ladders 蛇梯棋-耗时100
  • 大整数哈希
  • 海伯森点光谱应用案例之--医用胶囊盖体弧度检测
  • Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration-CVPR2024
  • 32岁程序员猝死:让我想起了我曾经的加班经历,庆幸自己还活着
  • 详解 MySQL 数据库索引实现机制 - B 树和 B + 树
  • 2026.2.5
  • AI应用架构师教你:企业知识库AI助手的日志分析架构
  • 《深度洞察:AI应用架构师谈人机协作对未来工作的深远意义》
  • 数据不出门,也能一起“卷模型”——聊聊隐私保护下的联邦学习:原理与工程实践
  • 图论专题
  • Neo4j Cypher查询语言:大数据分析的利器
  • 2026年创意巴士广告厂家最新推荐:双层巴士广告/应援巴士广告/应援车广告/快闪巴士/创意大巴车广告/创意车体广告/选择指南 - 优质品牌商家
  • 【 2025 年终总结】被推着走的一年,需要停下来思考