当前位置：首页 > news >正文

从SSD到CXL：聊聊那些让十亿向量搜索跑得更快的‘近’存储黑科技

news 2026/6/24 21:05:23

从SSD到CXL：十亿级向量搜索的存储硬件革命

当ChatGPT在1秒内回答你的问题时，背后是数千亿参数的大模型在运行；而当它需要检索外部知识时，支撑这一过程的十亿级向量数据库，则依赖存储硬件的突破性创新。传统基于DRAM的向量搜索方案在应对超大规模数据集时，不仅面临内存墙限制，单机成本更是高达数百万美元。本文将揭示存储硬件演进如何重塑向量搜索的技术版图。

1. 存储墙困境与硬件演进路线

2019年微软Bing搜索引擎团队面临一个棘手难题：处理1000亿个768维向量的相似性搜索，需要超过200TB内存空间，按当时DRAM价格计算硬件成本超过300万美元。这个典型案例揭示了向量搜索领域的根本矛盾：算法复杂度与硬件限制的激烈碰撞。

存储层级革命的三大阶段：

全内存时代（2015-2018）：FAISS、HNSW等算法依赖DRAM，受限于单机512GB内存上限
混合存储时代（2019-2022）：DiskANN、SPANN引入SSD作为扩展存储，内存需求降至1/4
近数据处理时代（2023-）：CXL内存池与SmartSSD将计算推近数据，实现TB级容量下的μs级延迟

典型硬件性能对比：

硬件类型	容量上限	访问延迟	带宽	成本/TB
DRAM	2TB	100ns	50GB/s	$20,000
NVMe SSD	100TB	100μs	7GB/s	$500
CXL内存池	10TB	500ns	15GB/s	$5,000
SmartSSD	32TB	50μs	3GB/s	$1,200

关键洞察：存储硬件的异构化趋势要求算法重新设计数据布局和访问模式，单纯将内存算法移植到存储设备会导致性能下降10-100倍

2. SSD优化关键技术解析

传统SSD作为被动存储设备时，向量搜索的I/O效率通常不足5%。通过以下创新可将有效数据吞吐提升20倍：

2.1 图结构重布局技术

DiskANN++提出的同构映射算法将随机图结构转化为闪存友好布局：

def isomorphic_mapping(graph): virtual_pages = [] for node in graph.nodes: if node not in visited: page = [node] + get_neighbors(node, N=32) virtual_pages.append(page) sorted_pages = sort_by_heat(virtual_pages) physical_layout = bin_packing(sorted_pages) return physical_layout

该算法实现效果：

页面利用率从16%提升至89%
单次I/O有效数据量从512B增加到3.8KB
搜索路径长度缩短40%

2.2 异步I/O流水线

PipeANN创新的搜索算法将传统同步模式改造为异步流水线：

请求阶段：批量提交候选节点I/O请求
计算阶段：在等待I/O时并行处理已加载节点
预取阶段：根据访问模式预测下一跳节点

实测在SIFT1B数据集上：

延迟从14ms降至4.2ms
SSD带宽利用率从18%提升至63%
吞吐量提高3.1倍

3. CXL内存池的颠覆性创新

CXL协议通过内存语义的设备互连，使向量搜索进入"内存即服务"时代。阿里云采用CXL-ANNS方案后，其电商推荐系统的内存成本降低70%，同时保持99%的召回率。

3.1 三级缓存体系

本地DRAM缓存：存储热点入口点（<1%数据）
CXL内存池：保存完整图结构和压缩向量（30%数据）
SSD存储：存放全精度原始向量（100%数据）

缓存策略对比：

策略	命中率	内存占用	实现复杂度
LRU	62%	100%	低
查询感知预取	88%	120%	中
CXL-ANNS分区	94%	30%	高

3.2 近内存计算优化

CXL设备端计算实现两个关键加速：

距离计算卸载：避免原始向量传输，节省90%带宽

// CXL设备端kernel __attribute__((target("cxl"))) void distance_calc(float* query, cxl_ptr<float> vectors, int n) { #pragma cxl parallel for for(int i=0; i<n; i++) { vectors[i].dist = euclid_dist(query, vectors[i]); } }