当前位置: 首页 > news >正文

上海AI Lab:多模态生物基础模型BioMatrix

📖标题:BioMatrix: Towards a Comprehensive Biological Foundation Model Spanning the Modality Matrix of Sequences, Structures, and Language
🌐来源:arXiv, 2606.22138

🛎️文章简介
🔸研究问题:如何在单一架构中原生整合分子/蛋白质的序列、结构和自然语言三种模态,实现跨模态跨实体的统一生物智能?
🔸主要贡献:论文提出BioMatrix,在单一decoder-only架构中原生整合分子序列、分子结构、蛋白质序列、蛋白质结构和自然语言五种模态的多模态生物基础模型,在80个任务中的77个达到SOTA或竞争力水平。

📝重点思路
🔸统一多模态分词方案:将分子序列(SMILES和SELFIES)、分子三维结构(基于MolStrucTok的分支解耦解码器+向量量化)、蛋白质序列(氨基酸token)、蛋白质结构(GCP-VQVAE结构编码器+向量量化)和自然语言映射到共享离散token空间,所有模态在统一下一token预测目标下消费和生成,无需外部编码器或适配器。
🔸大规模持续预训练:基于Qwen3(1.7B和4B)构建,使用3044亿token的预训练语料,涵盖通用文本(105.3B)、分子数据(73.7B)、蛋白质数据(77.4B)和跨实体交互数据(48.0B),包括交错生物医学文本和分子-蛋白质/蛋白质-蛋白质相互作用数据。
🔸指令微调统一框架:将80个下游任务分为6大类(分子1D/3D任务、蛋白质1D/3D任务、交互任务),通过统一指令格式和多样化提示词进行微调,使通常架构不同的任务(如描述生成、文本条件设计、折叠、逆折叠等)成为同一下一token目标下的不同条件生成模式。
🔸嵌入初始化策略:对无自然语言对应的新增token(如SELFIES原子token、VQ码本索引),使用原始token字符串自身作为描述进行嵌入初始化,无需额外训练或辅助模型。

🔎分析总结
🔸SMILES与SELFIES互补而非可替代:SELFIES在需要结构有效性的任务(无条件生成、分子优化)中占优,SMILES在需要表面结构锚定的任务(定制分子生成、逆合成)中更强,两者在属性预测等任务中表现相当。
🔸参数扩展效果异质性:从1.7B扩展到4B在知识密集型任务(分子名称转换、文本生成、知识挖掘)上带来显著提升,但在已饱和任务(无条件生成、属性预测)上增益有限,少数小数据任务甚至出现反扩展现象。
🔸原生多模态优势集中体现在跨模态和跨实体任务:在单模态单实体任务上与专用模型持平,但在属性条件构象生成、文本分子生成、序列-结构协同生成、结构约束亲和力预测等跨模态/跨实体任务上显著超越专用基线。
🔸分词是精细3D几何的瓶颈:在分布级或骨架拓扑级任务上匹配或超越扩散模型,但在逐原子几何精度上仍有差距,主要源于有限码本的量化误差和自回归坐标重建,而非语言模型学习能力不足。
🔸蛋白质残基对齐分词使折叠和逆折叠成为严格对称对偶:通过保持氨基酸token与结构token的一对一对应,无需专门架构设计即可在逆折叠上达到SOTA氨基酸恢复率。

💡个人观点
论文实现了分子和蛋白质在序列、结构、语言三种模态上的原生统一建模。

http://www.jsqmd.com/news/1091629/

相关文章:

  • Redis常用命令大全:从入门到精通
  • Rust的std--mem--MaybeUninit:延迟初始化的安全抽象
  • 【STL】iostream 编程:输入/输出替换选项
  • 卫星合成孔径雷达技术解析 穿透云雨雾霾实现全天时对地探测
  • STM32CubeMX中的CAN配置参数的解释
  • 为什么92%的ChatGPT Plus订阅在第3个月自动降级?国内用户必须知道的OpenAI账户健康度监测协议(含自动续费预警脚本开源)
  • 如何在Windows上快速搭建AirPlay 2投屏服务器:完整开源解决方案
  • Spring Boot 过滤器链执行顺序
  • ⚡SimpleDAO 企业实战教程(06) mergeParams 多组条件合并
  • GPT 低价订阅真的划算吗?长期用户先看这几个风险
  • 百考通帮你去AI化保留原创灵魂
  • 基于Delaunay三角剖分与排斥算法的Fillinger智能填充技术深度解析
  • 学习的意义是什么?
  • DLSS Swapper终极指南:一键智能管理游戏图形技术,彻底释放显卡性能
  • java se Java SE基础不牢?Eclipse这工具能让你从菜鸟飞成老鸟
  • 软件追踪管理中的分布式跟踪
  • ncmdump终极指南:一键解锁网易云音乐NCM加密格式,重获音乐自由
  • 想要“无感知复用“?架构里必须有闲置计时器和会话保持机制
  • 2026年番禺成人如何选择优质口才培训机构
  • 告别命令行:用MongoDB Compass图形化工具轻松玩转数据增删改查与迁移
  • 微服务架构下的HTTP请求头“大小写”丢失排查之旅
  • 理解 Agent 中的 Slash Command:从概念到自定义命令实践
  • 开放集成体系:即时通讯成为效率引擎
  • 如何快速掌握时间序列预测:iTransformer终极解决方案指南
  • 苹果设备激活锁终极解决方案:applera1n图形化工具完整指南
  • 在 Django 中落地领域驱动设计 (DDD) 与 Service 层抽离
  • 零基础非技术员工怕学不会AI?从日常办公任务自动化开始构建个人工作流的实战指南
  • 从报文交换到纳秒对齐:深入解析gPTP的硬件级时间同步机制
  • [MAF预定义ChatClient中间件-03]CachingChatClient——利用缓存省钱省时间
  • 服务治理实践