当前位置：首页 > news >正文

10亿+蛋白质、3000万核苷酸，全球最大生物向量库

news 2026/7/14 16:26:00

摘要

同源搜索在计算生物学中具有核心作用，可用于识别生物序列间的进化关系与功能相似性。然而，包括BLAST、Foldseek和MMseqs2在内的现有同源搜索方法，难以高效、精准地处理超大规模生物数据库。本研究提出高效检索增强搜索工具ERAST，可在迄今规模最大的向量数据库中处理约10亿条生物序列。ERAST融合大语言模型与向量数据库技术，实现高效且精准的同源生物序列搜索，通过整合检索前、检索中与检索后优化阶段提升搜索质量，同时支持核苷酸与蛋白质序列。凭借先进索引技术、细粒度分段与元数据整合，ERAST精度更优，速度约为Foldseek的50倍、TM-align的5万倍，可在毫秒级完成数10亿生物序列的精准搜索。

hebinghb@gmail.com

huajunsir@zju.edu.cn

qiang.zhang.cs@zju.edu.cn

jianhua.yao@gmail.com

#同源检测 #生物序列 #向量数据库 #蛋白质语言模型 #长序列建模 #检索增强 #高通量搜索

结果

10亿级生物序列向量数据库构建

图1 ERAST总体框架

a，向量数据库包含4大组件：编码模型、EHSM、存储模块与索引模块。采用2种编码模型将序列转换为嵌入向量；为提升同源蛋白检索质量，研发EHSM打分模型（含编码器与分类头），预测查询蛋白与候选序列的同源关系，输出数值标签作为重排序逻辑值。存储模块将向量数据库分段，以Arrow格式存储元数据；索引模块结合倒排文件乘积量化（IVFPQ）与层次可导航小世界（HNSW）算法

http://www.jsqmd.com/news/817254/

相关文章：

从开源技能图谱到爬虫工程化：构建个人技术体系与实战指南

MotiClaw：本地AI智能体统一控制平面部署与运维指南

内存计算芯片架构优化与神经网络加速实践

突破K8s网络瓶颈：Cilium与传统CNI插件性能基准测试全景分析

iOS数据存储终极指南：CoreData与Realm性能优化10个技巧

2026佛山春节团年饭预订，商务海鲜宴请必看攻略 - GrowthUME

全栈开发实战：基于Next.js与SQLite构建个人收入追踪系统

【NotebookLM视频转文字黄金标准】：基于237小时教育/会议/访谈视频测试的ASR校准模型与人工后编译SOP

别再只调白平衡了！手把手教你用CCM矩阵精准校正相机色彩（附24色卡RGB参考）

Babel Handbook终极指南：掌握JavaScript转译的完整教程 [特殊字符]

nDreamBerd代码片段管理：复用优质代码的终极指南

别再纠结CCD和CMOS了！工业相机选型，这4个实战场景帮你一次搞懂

NotebookLM动态图表总崩溃？谷歌内部文档未公开的4种兼容性修复方案

程序员VS项目经理：为什么负责“写代码”的反而挣得少？

别再手动调增益了！手把手教你用RFSoC的AGC功能搞定动态信号（附Vivado 2023.1工程配置）

Unix 命令 mkdir 详细介绍

细长手腕支架加工：两端φ11轴孔相距130mm，同轴差一点手腕就偏转 - 莱图加精密零件加工

脑机接口实战：用SSVEPNet搞定短时脑电信号分类，附完整代码与数据集

Windows本地开发，如何用Zookeeper 3.6.2为你的Spring Cloud微服务搭建注册中心？

SuperMap GIS 三维性能跃迁：从硬件选型到显卡驱动的深度调优指南

企业微信打卡数据拉取太慢？我用SQL Server存储过程优化了15秒加载到3秒

小白必看！OpenClaw 完整版汉化配置实操步骤

陷门矩阵技术：高效安全的云端线性代数计算方案

芯片老化板制作，尺寸接口与工位数量的秘密

如何找到靠谱的PMP培训？5个标准筛掉90%的不合格机构

Midjourney Pro订阅后必须立即配置的4项安全策略（含会话隔离等级、生成日志留存周期与团队权限熔断机制）

Nginx Server Configs负载均衡配置：分布式系统优化的终极指南

告别AI失忆：用Agentic Code框架打造稳定高效的AI编程协作

poi-tl循环表格踩坑实录：从EasyExcel读取到Word渲染，完整避坑指南

告别默认主题！手把手教你配置5款高颜值oh-my-zsh主题（附效果图与一键切换命令）