当前位置: 首页 > news >正文

Lucaone paper abstract

你好!很高兴为你解读 LucaOne 这个非常有野心的生物基础模型。它打破了以往核酸(DNA/RNA)和蛋白质模型“各管各的”局面,尝试用一种通用的“生物语言”来统一理解生命系统的核心。

根据你提供的资料,我将从架构、编码和训练三个核心维度为你拆解:


1. 模型架构:改进的 Transformer 编码器

LucaOne 的底层是一个拥有 18 亿参数Transformer-Encoder(类似于 BERT 的架构),但为了适应生物序列的特殊性,它做了几项关键改进:

  • 参数规模:包含 20 层 Transformer 块,嵌入维度为 2,560,40 个注意力头。
  • 预层归一化(Pre-layer Normalization):将层归一化放在残差连接之前,这使得深层网络的训练更加稳定。
  • 旋转位置嵌入(RoPE):取代了传统的绝对位置编码。这让模型具备了外推能力,能够处理比训练时更长的序列。
  • 双模态统一:通过引入 标记类型编码(Token Type Embedding) 来区分分子类型(核酸设为 0,蛋白质设为 1),从而在一个模型里处理两类本质不同的数据。

2. 数据编码:统一词汇表与数值化

生物序列是由字母组成的(如 DNA 的 A/T/C/G,蛋白的 20 种氨基酸),LucaOne 的难点在于如何处理字母重叠(比如 'A' 既是腺嘌呤也是丙氨酸)。

  • 词汇表(Vocabulary):共有 39 个标记(Tokens)

  • 核酸:为了去重,用数字 '1', '2', '3', '4', '5' 分别代表 A, T, C, G, N。

  • 蛋白质:使用标准的氨基酸单字母,并包含特殊的硒半胱氨酸(U)和吡咯赖氨酸(O)。

  • 特殊标记:包含常见的 [CLS](序列起始)、[SEP](序列结束)、[MASK](掩码)等。

  • 输入表示:最终输入到模型的是三个向量的加和:Token Embedding + Position Embedding + Token Type Embedding


3. 具体训练:半监督学习与多任务驱动

LucaOne 不仅仅是简单的“完形填空”,它采用了自监督半监督结合的策略,训练极其重度(8 张 A100 跑了 120 天)。

训练数据

  • 规模:来自约 17 万个物种的庞大数据集。
  • 来源:核酸来自 RefSeq;蛋白质来自 UniProt、UniRef50 和 ColabFoldDB;甚至整合了来自 PDB 的蛋白质三级结构坐标。

十项预训练任务

模型同时学习四个层级的信息:

  1. 词元级(Token-level):基因和蛋白质的随机掩码预测(类似 BERT 的 MLM)。
  2. 片段级(Fragment-level):识别基因组区域类型(如 CDS、内含子、tRNA)和蛋白质的功能域、结构域。
  3. 序列级(Sequence-level):预测物种的层级分类(Taxonomy)和蛋白质关键词。
  4. 结构级(Structure-level):预测蛋白质中 原子的空间坐标(利用少量有结构的数据学习空间构象)。

核心亮点:涌现的“中心法则”理解
最令人惊喜的是,尽管训练时没有给模型“配对”数据(即没有显式告诉它这段 DNA 翻译成这段蛋白),但由于在同一个语义空间训练,模型自动学到了 DNA-蛋白质的翻译关系。这种对分子生物学“中心法则”的内在理解是该模型最强大的地方。


总结

LucaOne 的成功证明了统一表征的威力:它在处理 DNA-RNA-蛋白质的异源任务(如 ncRNA-蛋白质相互作用)时,比单独训练的专用模型表现更好。

http://www.jsqmd.com/news/313889/

相关文章:

  • 2026最新厦门装修公司十大品牌推荐:靠谱选择实测解析
  • 美国本土一体化物流服务专家——IM GLOBAL LLC官方网址与联系方式
  • 2026年1月最新整理:厦门家装十大品牌,装修公司挑选攻略
  • 2026年1月厦门装修参考:最新家装十大品牌精选推荐
  • 为什么自己写的论文AIGC率那么高?
  • 深度学习篇---Yolov8n网络结构
  • 深度学习篇---YOLOv8n网络参数详细解析
  • 救命神器8个AI论文写作软件,本科生轻松搞定毕业论文!
  • 0128充满[特殊字符]的一天
  • 厦门装修找哪家?2026年1月最新十大品牌全解析
  • 微信小程序开发的价格一览表!列出明细
  • AI写毕业论文工具评测:9款一键极速生成神器,轻松搞定超长篇幅论文!
  • 2026年停车场道闸厂家权威推荐榜单,基于技术实力的深度测评
  • 瑞克
  • 深圳地区的小程序开发公司有哪些?这里帮你总结测评
  • 微信小程序的搭建教程:用对工具平台,几天就能上线!
  • AI伦理设计的未来趋势:AI应用架构师必须关注的5个方向(预测)
  • SpringMVC框架和Spring框架
  • 在上海的小程序开发公司怎么选:实用挑选指南帮你避坑
  • 【微电网】【创新点】基于非支配排序的蜣螂优化算法NSDBO求解微电网多目标优化调度研究附Matlab代码
  • 【无功功率控制】连接到无限电网的小型风电场的无功功率控制附Simulink仿真
  • 路由全局守卫
  • 【游戏推荐】全球鱼友俱乐部:放置好时光 (Tiny Aquarium Social Fishkeeping)免安装中文版
  • 【Python踩坑全记录】-pip install xxx 命令安装的 ,在电脑的哪个盘?
  • 当噪声成为护盾:安全通信中二项分布随机噪声的概率分析与统计特性
  • 【无人机】无人机在时变风下跟随策略的路径模拟附Matlab代码
  • 从概念到落地:企业AI架构评估体系的8个实施阶段
  • 【无人机】【基于多段杜宾斯Dubins路径的协同路径规划】复杂威胁环境下的多无人机协同路径规划研究附Matlab代码
  • 广东地区的小程序开发公司大盘点:TOP5实力品牌帮你精准选择
  • 【无人机】密集城市环境中无人机空对地对地 (U2G) 路径损耗研究附Matlab代码