当前位置：首页 > news >正文

seq2cells 框架的模型输入、处理流程及输出细节

news 2026/7/7 8:02:42

seq2cells 框架的模型输入、处理流程及输出细节如下：

一、模型输入

模型的输入主要由以基因为中心的基因组序列信息组成：

DNA 序列：围绕给定基因的 转录起始位点 (TSS) 对齐的长度为 196,608 bp （约 \(200\text{ kb}\) ）的 DNA 序列。
编码方式：该序列被转化为 one-hot 编码 矩阵，作为模型的原始输入。
样本范围：研究使用了 Gencode V41 中所有 19,986 个 蛋白质编码基因的规范 TSS 。

二、处理流程与架构交互

模型通过两个核心模块的串联处理输入数据：

Seq2Emb 模块（序列到嵌入）：
- 使用预训练的 Enformer 模型主干作为特征提取器。
- 输入 \(196,608\text{ bp}\) 的序列，通过卷积和 Transformer 块进行特征聚合。
- 该模块输出中心 \(896\) 个序列窗口（每个窗口 \(128\text{ bp}\) ）的 3,072 维 序列嵌入。
- 关键交互：模型仅提取与 TSS 重叠的那个序列嵌入，将其定义为该基因的 “基因嵌入” (Gene Embedding) 。
Emb2Cell 模块（嵌入到细胞）：
- 这是一个专门训练的多层感知器 (MLP) 。
- 它将 \(3,072\text{ 维}\) 的基因嵌入映射到一个 瓶颈层 （维度通常为 \(1,000\) 或 \(2,000\) ），然后经过 Dropout 和 ReLU 激活处理。
- 最后通过线性层和 Softplus 激活函数 映射到最终的细胞表达空间。

三、模型输出

模型的输出是该基因在特定单细胞数据集中的 单细胞分辨率基因表达量 。

具体形式：为数据集中的每个细胞预测一个连续的输出值。
数据属性：预测值对应于经过标准化、 \(\log(x+1)\) 转换及批次校正后的单细胞计数。

训练损失函数

模型在训练时使用基于余弦相似度的损失函数，以平衡跨基因和跨细胞的相关性：

\[loss = 1 - cos\_sim_{genes}(\hat{p} - \bar{\hat{p}}, t - \bar{t}, \epsilon) + 1 - cos\_sim_{cells}(\hat{p} - \bar{\hat{p}}, t - \bar{t}, \epsilon) \]

其中 \(p\) 代表预测值， \(t\) 代表观察到的目标值， \(\epsilon\) 为防止除以零的极小值 \(1 \times 10^{-8}\) 。

您是否需要我为您详细对比该模型在 HSC、T 细胞发育和 T 细胞激活这三个数据集上的具体参数差异？

查看全文

http://www.jsqmd.com/news/339777/