当前位置：首页 > news >正文

XSKY 发布：下一代大模型推理 KV Cache 加速解决方案

news 2026/7/30 2:12:17

过去一年，AI Agent、AI 编程等应用快速落地，推动大模型推理从“单轮问答”转向“长链路、多步骤、持续交互”的新阶段。在这个过程中，影响推理效率的核心瓶颈已经悄然转移——不再是模型参数规模，也不再是 GPU 峰值算力，而是一个在推理过程中不断膨胀、却容易被忽视的中间数据：KV Cache。

XSKY 于北京正式发布 KV Cache 推理加速解决方案，本次发布会从 KV Cache 技术原理与容量困境出发，剖析行业现有优化路径，详解基于 MeshFusion 存储引擎推出的双生态加速方案，并通过两组真实测试数据验证其在时延、吞吐、降本上的显著成效。

KV Cache：挑战迭起，探索存储最优解法

1、KV Cache 利弊共生，显存资源日渐紧缺

大模型分为训练、推理两大阶段，训练侧重参数迭代更新，推理依靠定型参数生成内容。单次推理可拆分为 Prefill（预填充）与 Decode（解码）两个阶段：Prefill 一次性处理输入文本并行计算，生成初始 KV 缓存；Decode 逐 Token 自回归生成，依托 KV Cache 复用历史计算结果，大幅减少重复运算。

但“以存代算”的代价是缓存持续占用 GPU HBM 显存。以 H20 运行 32B 参数 DeepSeek-R1 为例，模型权重占用 64GB 显存，剔除运行开销后，仅剩余 22GB 空间留给 KV Cache，折算仅能容纳 88K 左右 Token 缓存。短请求场景尚可支撑，高并发 + 超长上下文落地时，显存迅速打满，集群吞吐量断崖下滑，也就是行业普遍遇到的 AI 推理内存墙。随着大模型进入百万上下文时代，超长上下文窗口成为刚需，仅凭原生显存承载 KV Cache 的模式难以为继。

2、多路线协同优化，KV Cache 卸载提供高效解法

针对 KV Cache 带来的容量挑战，行业已形成多维度优化体系，不同技术路线各有侧重、相辅相成。

从模型层面来看，MQA、GQA、Sparse Attention 等架构设计，可从源头减少 KV Cache 数据生成；FP8、INT4 等量化压缩技术，能够缩减单 Token 缓存体积；Sliding Window、Attention Sink 等裁剪策略，则通过筛选上下文内容缓解存储压力。

在推理运行环节，PagedAttention、连续批处理等显存管理技术，有效提升了高带宽内存的利用率。业务侧也可借助 RAG、文本摘要等方式精简输入内容，从源头降低缓存负载。

以上优化手段分别从模型设计、运行时调度、应用逻辑等角度缓解 KV Cache 压力，但都有一个共同前提：KV Cache 仍然被限制在 GPU HBM 之内。真正具有突破性潜力的方向是 KV Cache 卸载——将显存中放不下的 KV Cache 外溢到更大容量的存储层级。

然而传统分层存储在 KV Cache 卸载场景下存在两难困境。本地 SSD（通常称为 G3 层）延迟较低、成本可控，但无法全局共享，容易形成数据孤岛。网络存储（G4 层）可以实现容量池化和跨节点共享，但网络延迟和调度复杂度高，对于 KV Cache 这种延迟敏感、并发密集的数据负载，很难达到理想效果。

这就引出一个核心问题：能否同时获得本地 SSD 的性能优势和网络存储的共享能力？

MeshFusion：面向Token工厂的KV Cache推理加速方案

XSKY 提出的基于 MeshFusion 的 KV Cache 推理加速解决方案，正是为了回答上述问题。MeshFusion 并非传统通用存储，而是面向推理场景、围绕 KV Cache 数据特征自研的专用扩展系统，兼顾 G3 本地盘共享与 G4 高速访问，兼容英伟达、昇腾双栈算力生态，依托四大核心设计构建方案壁垒。

四大核心设计，释放存储潜能

▶极简轻量化架构

系统资源开销极低，最大程度节省服务器 CPU、内存资源留给模型运算。架构自上而下对接双栈算力与主流推理框架（vLLM/SGLang等）。底层聚合全节点 NVMe SSD，构建统一共享存储池。

▶智能网络引擎 FlexPath

自研多路径技术，用户无需依赖复杂的网络堆叠，即可获得高带宽、低延迟和高可靠的数据通道，降低整体组网成本。

▶原生 KV Cache Chunk 接口

摒弃传统 POSIX 文件协议带来的转换损耗，存储与推理引擎采用统一 Chunk 数据粒度，IO 链路最短，从底层压低读写时延。

▶主动保护 SSD 寿命

基于星飞 SEA 架构实现全局 Chunk 粒度调度，通过均衡分配、Append-only 写入、主动大块 TRIM 与 User-space 驱动四层能力，将 SSD 寿命从被动消耗转为主动治理，避免局部热点磨损，显著延长存储介质生命周期。

三种部署形态，覆盖多元场景

▶ 算力服务器融合部署（激活本地 SSD）

直接部署在现有 GPU/NPU 服务器内，盘活服务器自带闲置 NVMe 盘，依托高速 RDMA 组成集群共享 KV Cache 存储池，破除本地 SSD 孤岛。无需新增独立存储服务器，改造投入低，适合已有算力集群低成本实施。

▶ DPU+JBOF 部署（英伟达 CMX 架构）

XSKY MeshFusion 是国内首个实现 NVIDIA CMX 架构的 KV Cache 存储方案，可部署在 NVIDIA BlueField DPU 中，KV Cache 数据路径绕过主机 CPU 与内存，直达 GPU 显存。搭配 JBOF 全闪硬件构建大容量高速共享存储池，依托 Spectrum 高速网络，匹配推理所需的高带宽与低延迟，适配中大型规模化推理 Token 工厂。

▶ 独立集群部署（超大型训推一体项目）

独立搭建存储集群，可横向扩容至 PB 级，同时承载训练数据集与推理 KV Cache，为企业 AI 基础设施提供统一底座。同时面向国产算力平台，推出兼容华为昇腾 NPU 的专属推理加速方案，一站式满足企业训推一体化全链路存储需求。

实测数据验证：双算力平台落地，性能提升量化可见

XSKY 分别在英伟达 H20、华为昇腾两套环境开展长上下文压测，以 TTFT 首 Token 时延、TPS 吞吐为核心衡量指标，数据直观体现方案落地价值。

1、英伟达 DPU+JBOF 实测

硬件配置：

存储侧配置 4 张 BlueField-3 DPU，每张 DPU 为 16 核、48GB 内存，DPU 网卡为 200GE 双口，共 4 张；数据盘为 24 块 7.68TB NVMe SSD。
计算侧配置 8 张 NVIDIA H20（每张 141GB 显存），CPU 为 2 颗 Intel 8558P，内存为 64GB 模组共 32条，网络为 4 张 400GE RoCE v2 网卡。

模型与负载：

采用 DeepSeek-R1 模型，推理引擎为 vLLM。
测试覆盖不同上下文长度：8K、32K、64K 和 100K Token，并设置不同并发数模拟真实推理服务中的长上下文访问压力。

测试结果：

与未开启 KV Cache 卸载的基线相比，MeshFusion 方案下：

TTFT（首 Token 延迟）分别降低 91%、96%、96% 和 94%。
TPS（吞吐量，每秒 Token 数）分别提升 13 倍、23.7 倍、28.4 倍和 16.7 倍。

TTFT 是用户感知最直接的指标之一，大幅下降意味着长上下文场景下的交互体验显著改善。而吞吐量在 KV Cache 压力持续增大时仍保持数量级提升，说明 MeshFusion 能够有效将 KV Cache 卸载到 G3.5 共享存储池，在 HBM 容量受限时让推理服务继续保持低延迟和高吞吐。

2、华为昇腾 + PD 分离实

硬件配置：

算力集群：4 台 8 卡华为昇腾 910C 服务器，每节点配置 7 块 3.84TB 本地 NVMe SSD，采用 MeshFusion 在计算节点融合部署的方式。
网络：双端口 200G 高速存储网络，结合华为灵衢高速网络。

模型与负载：

采用智谱 GLM-4.7 模型，推理引擎适配昇腾后端。
测试上下文长度：32K、64K、128K Token，采用 Prefill 与 Decode 分离（PD 分离）架构。

测试结果：

与未开启 KV Cache 卸载的基线相比，MeshFusion方案下：

TTFT 分别降低 86%、89%、92%。
TPS 分别提升 271%、344%、422%。

备注：卸载到内存的场景，由于内存容量同样无法承载上述规模下的 KV Cache 数据，导致性能与“不卸载”接近。

综合来看，加速幅度呈现出明显的规模效应，并且随着上下文长度增加，加速效果愈发明显。这验证了MeshFusion 的架构设计具备跨算力平台的普适性，能够为国产 AI 推理基础设施提供高弹性、低时延的 KV Cache 扩展能力。

落地商业价值：多维降本增效，成为推理基建优选

从商业化落地视角来看，XSKY 下一代大模型推理 KV Cache 加速解决方案能够从性能、硬件成本、能耗开销三个维度为 AI 企业创造实在收益。

▶性能收益

集群推理并发能力可整体提升 200% 以上，TTFT 首 Token 延迟最高降幅可达 95%，原本受显存限制无法上线的超长上下文业务得以顺利落地。

▶成本收益

依托存量服务器本地 SSD 组建共享缓存池，减少高端 GPU 额外采购数量，整体基建 TCO 下降 30%-50%。

▶能耗收益

优化 GPU 无效空载与高频调度损耗，整机集群能耗降低 40%-60%。

AI 内存墙是制约大模型商业化规模化的关键阻碍，跳出硬件与算法优化的固有思路，从存储侧扩容 KV Cache，是产业发展的必然方向。XSKY MeshFusion 推理加速解决方案依托原生推理存储架构、灵活部署方案、算力生态适配，用实测数据验证了 KV Cache 池化卸载的落地价值。未来 XSKY 将持续迭代产品，优化缓存调度与跨节点访问效率，持续帮助各类 AI 企业低成本突破推理瓶颈，加速大模型商业化落地进程。

查看全文

http://www.jsqmd.com/news/994040/