当前位置: 首页 > news >正文

10亿+蛋白质、3000万核苷酸,全球最大生物向量库

摘要

同源搜索在计算生物学中具有核心作用,可用于识别生物序列间的进化关系与功能相似性。然而,包括BLAST、Foldseek和MMseqs2在内的现有同源搜索方法,难以高效、精准地处理超大规模生物数据库。本研究提出高效检索增强搜索工具ERAST,可在迄今规模最大的向量数据库中处理约10亿条生物序列。ERAST融合大语言模型与向量数据库技术,实现高效且精准的同源生物序列搜索,通过整合检索前、检索中与检索后优化阶段提升搜索质量,同时支持核苷酸与蛋白质序列。凭借先进索引技术、细粒度分段与元数据整合,ERAST精度更优,速度约为Foldseek的50倍、TM-align的5万倍,可在毫秒级完成数10亿生物序列的精准搜索。

hebinghb@gmail.com

huajunsir@zju.edu.cn

qiang.zhang.cs@zju.edu.cn

jianhua.yao@gmail.com

#同源检测 #生物序列 #向量数据库 #蛋白质语言模型 #长序列建模 #检索增强 #高通量搜索

结果

10亿级生物序列向量数据库构建

1  ERAST总体框架

a,向量数据库包含4大组件:编码模型、EHSM、存储模块与索引模块。采用2种编码模型将序列转换为嵌入向量;为提升同源蛋白检索质量,研发EHSM打分模型(含编码器与分类头),预测查询蛋白与候选序列的同源关系,输出数值标签作为重排序逻辑值。存储模块将向量数据库分段,以Arrow格式存储元数据;索引模块结合倒排文件乘积量化(IVFPQ)与层次可导航小世界(HNSW)算法

http://www.jsqmd.com/news/817254/

相关文章:

  • 从开源技能图谱到爬虫工程化:构建个人技术体系与实战指南
  • MotiClaw:本地AI智能体统一控制平面部署与运维指南
  • 内存计算芯片架构优化与神经网络加速实践
  • 突破K8s网络瓶颈:Cilium与传统CNI插件性能基准测试全景分析
  • iOS数据存储终极指南:CoreData与Realm性能优化10个技巧
  • 2026佛山春节团年饭预订,商务海鲜宴请必看攻略 - GrowthUME
  • 全栈开发实战:基于Next.js与SQLite构建个人收入追踪系统
  • 【NotebookLM视频转文字黄金标准】:基于237小时教育/会议/访谈视频测试的ASR校准模型与人工后编译SOP
  • 别再只调白平衡了!手把手教你用CCM矩阵精准校正相机色彩(附24色卡RGB参考)
  • Babel Handbook终极指南:掌握JavaScript转译的完整教程 [特殊字符]
  • nDreamBerd代码片段管理:复用优质代码的终极指南
  • 别再纠结CCD和CMOS了!工业相机选型,这4个实战场景帮你一次搞懂
  • NotebookLM动态图表总崩溃?谷歌内部文档未公开的4种兼容性修复方案
  • 程序员VS项目经理:为什么负责“写代码”的反而挣得少?
  • 别再手动调增益了!手把手教你用RFSoC的AGC功能搞定动态信号(附Vivado 2023.1工程配置)
  • Unix 命令 mkdir 详细介绍
  • 细长手腕支架加工:两端φ11轴孔相距130mm,同轴差一点手腕就偏转 - 莱图加精密零件加工
  • 脑机接口实战:用SSVEPNet搞定短时脑电信号分类,附完整代码与数据集
  • Windows本地开发,如何用Zookeeper 3.6.2为你的Spring Cloud微服务搭建注册中心?
  • SuperMap GIS 三维性能跃迁:从硬件选型到显卡驱动的深度调优指南
  • 企业微信打卡数据拉取太慢?我用SQL Server存储过程优化了15秒加载到3秒
  • 小白必看!OpenClaw 完整版汉化配置实操步骤
  • 陷门矩阵技术:高效安全的云端线性代数计算方案
  • 芯片老化板制作,尺寸接口与工位数量的秘密
  • 如何找到靠谱的PMP培训?5个标准筛掉90%的不合格机构
  • Midjourney Pro订阅后必须立即配置的4项安全策略(含会话隔离等级、生成日志留存周期与团队权限熔断机制)
  • Nginx Server Configs负载均衡配置:分布式系统优化的终极指南
  • 告别AI失忆:用Agentic Code框架打造稳定高效的AI编程协作
  • poi-tl循环表格踩坑实录:从EasyExcel读取到Word渲染,完整避坑指南
  • 告别默认主题!手把手教你配置5款高颜值oh-my-zsh主题(附效果图与一键切换命令)