10亿+蛋白质、3000万核苷酸,全球最大生物向量库
摘要
同源搜索在计算生物学中具有核心作用,可用于识别生物序列间的进化关系与功能相似性。然而,包括BLAST、Foldseek和MMseqs2在内的现有同源搜索方法,难以高效、精准地处理超大规模生物数据库。本研究提出高效检索增强搜索工具ERAST,可在迄今规模最大的向量数据库中处理约10亿条生物序列。ERAST融合大语言模型与向量数据库技术,实现高效且精准的同源生物序列搜索,通过整合检索前、检索中与检索后优化阶段提升搜索质量,同时支持核苷酸与蛋白质序列。凭借先进索引技术、细粒度分段与元数据整合,ERAST精度更优,速度约为Foldseek的50倍、TM-align的5万倍,可在毫秒级完成数10亿生物序列的精准搜索。
hebinghb@gmail.com
huajunsir@zju.edu.cn
qiang.zhang.cs@zju.edu.cn
jianhua.yao@gmail.com
#同源检测 #生物序列 #向量数据库 #蛋白质语言模型 #长序列建模 #检索增强 #高通量搜索
结果
10亿级生物序列向量数据库构建
图1 ERAST总体框架
a,向量数据库包含4大组件:编码模型、EHSM、存储模块与索引模块。采用2种编码模型将序列转换为嵌入向量;为提升同源蛋白检索质量,研发EHSM打分模型(含编码器与分类头),预测查询蛋白与候选序列的同源关系,输出数值标签作为重排序逻辑值。存储模块将向量数据库分段,以Arrow格式存储元数据;索引模块结合倒排文件乘积量化(IVFPQ)与层次可导航小世界(HNSW)算法
