XSKY 发布:下一代大模型推理 KV Cache 加速解决方案
过去一年,AI Agent、AI 编程等应用快速落地,推动大模型推理从“单轮问答”转向“长链路、多步骤、持续交互”的新阶段。在这个过程中,影响推理效率的核心瓶颈已经悄然转移——不再是模型参数规模,也不再是 GPU 峰值算力,而是一个在推理过程中不断膨胀、却容易被忽视的中间数据:KV Cache。
XSKY 于北京正式发布 KV Cache 推理加速解决方案,本次发布会从 KV Cache 技术原理与容量困境出发,剖析行业现有优化路径,详解基于 MeshFusion 存储引擎推出的双生态加速方案,并通过两组真实测试数据验证其在时延、吞吐、降本上的显著成效。
KV Cache:挑战迭起,探索存储最优解法
1、KV Cache 利弊共生,显存资源日渐紧缺
大模型分为训练、推理两大阶段,训练侧重参数迭代更新,推理依靠定型参数生成内容。单次推理可拆分为 Prefill(预填充)与 Decode(解码)两个阶段:Prefill 一次性处理输入文本并行计算,生成初始 KV 缓存;Decode 逐 Token 自回归生成,依托 KV Cache 复用历史计算结果,大幅减少重复运算。
但“以存代算”的代价是缓存持续占用 GPU HBM 显存。以 H20 运行 32B 参数 DeepSeek-R1 为例,模型权重占用 64GB 显存,剔除运行开销后,仅剩余 22GB 空间留给 KV Cache,折算仅能容纳 88K 左右 Token 缓存。短请求场景尚可支撑,高并发 + 超长上下文落地时,显存迅速打满,集群吞吐量断崖下滑,也就是行业普遍遇到的 AI 推理内存墙。随着大模型进入百万上下文时代,超长上下文窗口成为刚需,仅凭原生显存承载 KV Cache 的模式难以为继。
2、多路线协同优化,KV Cache 卸载提供高效解法
针对 KV Cache 带来的容量挑战,行业已形成多维度优化体系,不同技术路线各有侧重、相辅相成。
从模型层面来看,MQA、GQA、Sparse Attention 等架构设计,可从源头减少 KV Cache 数据生成;FP8、INT4 等量化压缩技术,能够缩减单 Token 缓存体积;Sliding Window、Attention Sink 等裁剪策略,则通过筛选上下文内容缓解存储压力。
在推理运行环节,PagedAttention、连续批处理等显存管理技术,有效提升了高带宽内存的利用率。业务侧也可借助 RAG、文本摘要等方式精简输入内容,从源头降低缓存负载。
以上优化手段分别从模型设计、运行时调度、应用逻辑等角度缓解 KV Cache 压力,但都有一个共同前提:KV Cache 仍然被限制在 GPU HBM 之内。真正具有突破性潜力的方向是 KV Cache 卸载——将显存中放不下的 KV Cache 外溢到更大容量的存储层级。
然而传统分层存储在 KV Cache 卸载场景下存在两难困境。本地 SSD(通常称为 G3 层)延迟较低、成本可控,但无法全局共享,容易形成数据孤岛。网络存储(G4 层)可以实现容量池化和跨节点共享,但网络延迟和调度复杂度高,对于 KV Cache 这种延迟敏感、并发密集的数据负载,很难达到理想效果。
这就引出一个核心问题:能否同时获得本地 SSD 的性能优势和网络存储的共享能力?
MeshFusion:面向Token工厂的KV Cache推理加速方案
XSKY 提出的基于 MeshFusion 的 KV Cache 推理加速解决方案,正是为了回答上述问题。MeshFusion 并非传统通用存储,而是面向推理场景、围绕 KV Cache 数据特征自研的专用扩展系统,兼顾 G3 本地盘共享与 G4 高速访问,兼容英伟达、昇腾双栈算力生态,依托四大核心设计构建方案壁垒。
四大核心设计,释放存储潜能
▶极简轻量化架构
系统资源开销极低,最大程度节省服务器 CPU、内存资源留给模型运算。架构自上而下对接双栈算力与主流推理框架(vLLM/SGLang等)。底层聚合全节点 NVMe SSD,构建统一共享存储池。
▶智能网络引擎 FlexPath
自研多路径技术,用户无需依赖复杂的网络堆叠,即可获得高带宽、低延迟和高可靠的数据通道,降低整体组网成本。
▶原生 KV Cache Chunk 接口
摒弃传统 POSIX 文件协议带来的转换损耗,存储与推理引擎采用统一 Chunk 数据粒度,IO 链路最短,从底层压低读写时延。
▶主动保护 SSD 寿命
基于星飞 SEA 架构实现全局 Chunk 粒度调度,通过均衡分配、Append-only 写入、主动大块 TRIM 与 User-space 驱动四层能力,将 SSD 寿命从被动消耗转为主动治理,避免局部热点磨损,显著延长存储介质生命周期。
三种部署形态,覆盖多元场景
▶ 算力服务器融合部署(激活本地 SSD)
直接部署在现有 GPU/NPU 服务器内,盘活服务器自带闲置 NVMe 盘,依托高速 RDMA 组成集群共享 KV Cache 存储池,破除本地 SSD 孤岛。无需新增独立存储服务器,改造投入低,适合已有算力集群低成本实施。
▶ DPU+JBOF 部署(英伟达 CMX 架构)
XSKY MeshFusion 是国内首个实现 NVIDIA CMX 架构的 KV Cache 存储方案,可部署在 NVIDIA BlueField DPU 中,KV Cache 数据路径绕过主机 CPU 与内存,直达 GPU 显存。搭配 JBOF 全闪硬件构建大容量高速共享存储池,依托 Spectrum 高速网络,匹配推理所需的高带宽与低延迟,适配中大型规模化推理 Token 工厂。
▶ 独立集群部署(超大型训推一体项目)
独立搭建存储集群,可横向扩容至 PB 级,同时承载训练数据集与推理 KV Cache,为企业 AI 基础设施提供统一底座。同时面向国产算力平台,推出兼容华为昇腾 NPU 的专属推理加速方案,一站式满足企业训推一体化全链路存储需求。
实测数据验证:双算力平台落地,性能提升量化可见
XSKY 分别在英伟达 H20、华为昇腾两套环境开展长上下文压测,以 TTFT 首 Token 时延、TPS 吞吐为核心衡量指标,数据直观体现方案落地价值。
1、英伟达 DPU+JBOF 实测
硬件配置:
存储侧配置 4 张 BlueField-3 DPU,每张 DPU 为 16 核、48GB 内存,DPU 网卡为 200GE 双口,共 4 张;数据盘为 24 块 7.68TB NVMe SSD。
计算侧配置 8 张 NVIDIA H20(每张 141GB 显存),CPU 为 2 颗 Intel 8558P,内存为 64GB 模组共 32条,网络为 4 张 400GE RoCE v2 网卡。
模型与负载:
采用 DeepSeek-R1 模型,推理引擎为 vLLM。
测试覆盖不同上下文长度:8K、32K、64K 和 100K Token,并设置不同并发数模拟真实推理服务中的长上下文访问压力。
测试结果:
与未开启 KV Cache 卸载的基线相比,MeshFusion 方案下:
TTFT(首 Token 延迟)分别降低 91%、96%、96% 和 94%。
TPS(吞吐量,每秒 Token 数)分别提升 13 倍、23.7 倍、28.4 倍和 16.7 倍。
TTFT 是用户感知最直接的指标之一,大幅下降意味着长上下文场景下的交互体验显著改善。而吞吐量在 KV Cache 压力持续增大时仍保持数量级提升,说明 MeshFusion 能够有效将 KV Cache 卸载到 G3.5 共享存储池,在 HBM 容量受限时让推理服务继续保持低延迟和高吞吐。
2、华为昇腾 + PD 分离实
硬件配置:
算力集群:4 台 8 卡华为昇腾 910C 服务器,每节点配置 7 块 3.84TB 本地 NVMe SSD,采用 MeshFusion 在计算节点融合部署的方式。
网络:双端口 200G 高速存储网络,结合华为灵衢高速网络。
模型与负载:
采用智谱 GLM-4.7 模型,推理引擎适配昇腾后端。
测试上下文长度:32K、64K、128K Token,采用 Prefill 与 Decode 分离(PD 分离)架构。
测试结果:
与未开启 KV Cache 卸载的基线相比,MeshFusion方案下:
TTFT 分别降低 86%、89%、92%。
TPS 分别提升 271%、344%、422%。
备注:卸载到内存的场景,由于内存容量同样无法承载上述规模下的 KV Cache 数据,导致性能与“不卸载”接近。
综合来看,加速幅度呈现出明显的规模效应,并且随着上下文长度增加,加速效果愈发明显。这验证了MeshFusion 的架构设计具备跨算力平台的普适性,能够为国产 AI 推理基础设施提供高弹性、低时延的 KV Cache 扩展能力。
落地商业价值 :多维降本增效,成为推理基建优选
从商业化落地视角来看,XSKY 下一代大模型推理 KV Cache 加速解决方案能够从性能、硬件成本、能耗开销三个维度为 AI 企业创造实在收益。
▶性能收益
集群推理并发能力可整体提升 200% 以上,TTFT 首 Token 延迟最高降幅可达 95%,原本受显存限制无法上线的超长上下文业务得以顺利落地。
▶成本收益
依托存量服务器本地 SSD 组建共享缓存池,减少高端 GPU 额外采购数量,整体基建 TCO 下降 30%-50%。
▶能耗收益
优化 GPU 无效空载与高频调度损耗,整机集群能耗降低 40%-60%。
AI 内存墙是制约大模型商业化规模化的关键阻碍,跳出硬件与算法优化的固有思路,从存储侧扩容 KV Cache,是产业发展的必然方向。XSKY MeshFusion 推理加速解决方案依托原生推理存储架构、灵活部署方案、算力生态适配,用实测数据验证了 KV Cache 池化卸载的落地价值。未来 XSKY 将持续迭代产品,优化缓存调度与跨节点访问效率,持续帮助各类 AI 企业低成本突破推理瓶颈,加速大模型商业化落地进程。
