当前位置: 首页 > news >正文

XSKY 发布:下一代大模型推理 KV Cache 加速解决方案

过去一年,AI Agent、AI 编程等应用快速落地,推动大模型推理从“单轮问答”转向“长链路、多步骤、持续交互”的新阶段。在这个过程中,影响推理效率的核心瓶颈已经悄然转移——不再是模型参数规模,也不再是 GPU 峰值算力,而是一个在推理过程中不断膨胀、却容易被忽视的中间数据:KV Cache

XSKY 于北京正式发布 KV Cache 推理加速解决方案,本次发布会从 KV Cache 技术原理与容量困境出发,剖析行业现有优化路径,详解基于 MeshFusion 存储引擎推出的双生态加速方案,并通过两组真实测试数据验证其在时延、吞吐、降本上的显著成效。

KV Cache:挑战迭起,探索存储最优解法

1、KV Cache 利弊共生,显存资源日渐紧缺

大模型分为训练、推理两大阶段,训练侧重参数迭代更新,推理依靠定型参数生成内容。单次推理可拆分为 Prefill(预填充)与 Decode(解码)两个阶段:Prefill 一次性处理输入文本并行计算,生成初始 KV 缓存;Decode 逐 Token 自回归生成,依托 KV Cache 复用历史计算结果,大幅减少重复运算。

但“以存代算”的代价是缓存持续占用 GPU HBM 显存。以 H20 运行 32B 参数 DeepSeek-R1 为例,模型权重占用 64GB 显存,剔除运行开销后,仅剩余 22GB 空间留给 KV Cache,折算仅能容纳 88K 左右 Token 缓存。短请求场景尚可支撑,高并发 + 超长上下文落地时,显存迅速打满,集群吞吐量断崖下滑,也就是行业普遍遇到的 AI 推理内存墙。随着大模型进入百万上下文时代,超长上下文窗口成为刚需,仅凭原生显存承载 KV Cache 的模式难以为继。

2、多路线协同优化,KV Cache 卸载提供高效解法

针对 KV Cache 带来的容量挑战,行业已形成多维度优化体系,不同技术路线各有侧重、相辅相成。

从模型层面来看,MQA、GQA、Sparse Attention 等架构设计,可从源头减少 KV Cache 数据生成;FP8、INT4 等量化压缩技术,能够缩减单 Token 缓存体积;Sliding Window、Attention Sink 等裁剪策略,则通过筛选上下文内容缓解存储压力。

在推理运行环节,PagedAttention、连续批处理等显存管理技术,有效提升了高带宽内存的利用率。业务侧也可借助 RAG、文本摘要等方式精简输入内容,从源头降低缓存负载。

以上优化手段分别从模型设计、运行时调度、应用逻辑等角度缓解 KV Cache 压力,但都有一个共同前提:KV Cache 仍然被限制在 GPU HBM 之内。真正具有突破性潜力的方向是 KV Cache 卸载——将显存中放不下的 KV Cache 外溢到更大容量的存储层级

然而传统分层存储在 KV Cache 卸载场景下存在两难困境。本地 SSD(通常称为 G3 层)延迟较低、成本可控,但无法全局共享,容易形成数据孤岛。网络存储(G4 层)可以实现容量池化和跨节点共享,但网络延迟和调度复杂度高,对于 KV Cache 这种延迟敏感、并发密集的数据负载,很难达到理想效果。

这就引出一个核心问题:能否同时获得本地 SSD 的性能优势和网络存储的共享能力?

MeshFusion:面向Token工厂的KV Cache推理加速方案

XSKY 提出的基于 MeshFusion 的 KV Cache 推理加速解决方案,正是为了回答上述问题。MeshFusion 并非传统通用存储,而是面向推理场景、围绕 KV Cache 数据特征自研的专用扩展系统,兼顾 G3 本地盘共享与 G4 高速访问,兼容英伟达、昇腾双栈算力生态,依托四大核心设计构建方案壁垒。

四大核心设计,释放存储潜能

极简轻量化架构

系统资源开销极低,最大程度节省服务器 CPU、内存资源留给模型运算。架构自上而下对接双栈算力与主流推理框架(vLLM/SGLang等)。底层聚合全节点 NVMe SSD,构建统一共享存储池。

智能网络引擎 FlexPath

自研多路径技术,用户无需依赖复杂的网络堆叠,即可获得高带宽、低延迟和高可靠的数据通道,降低整体组网成本。

原生 KV Cache Chunk 接口

摒弃传统 POSIX 文件协议带来的转换损耗,存储与推理引擎采用统一 Chunk 数据粒度,IO 链路最短,从底层压低读写时延。

主动保护 SSD 寿命

基于星飞 SEA 架构实现全局 Chunk 粒度调度,通过均衡分配、Append-only 写入、主动大块 TRIM 与 User-space 驱动四层能力,将 SSD 寿命从被动消耗转为主动治理,避免局部热点磨损,显著延长存储介质生命周期。

三种部署形态,覆盖多元场景

▶ 算力服务器融合部署(激活本地 SSD)

直接部署在现有 GPU/NPU 服务器内,盘活服务器自带闲置 NVMe 盘,依托高速 RDMA 组成集群共享 KV Cache 存储池,破除本地 SSD 孤岛。无需新增独立存储服务器,改造投入低,适合已有算力集群低成本实施。

▶ DPU+JBOF 部署(英伟达 CMX 架构)

XSKY MeshFusion 是国内首个实现 NVIDIA CMX 架构的 KV Cache 存储方案,可部署在 NVIDIA BlueField DPU 中,KV Cache 数据路径绕过主机 CPU 与内存,直达 GPU 显存。搭配 JBOF 全闪硬件构建大容量高速共享存储池,依托 Spectrum 高速网络,匹配推理所需的高带宽与低延迟,适配中大型规模化推理 Token 工厂。

▶ 独立集群部署(超大型训推一体项目)

独立搭建存储集群,可横向扩容至 PB 级,同时承载训练数据集与推理 KV Cache,为企业 AI 基础设施提供统一底座。同时面向国产算力平台,推出兼容华为昇腾 NPU 的专属推理加速方案,一站式满足企业训推一体化全链路存储需求。

实测数据验证:双算力平台落地,性能提升量化可见

XSKY 分别在英伟达 H20、华为昇腾两套环境开展长上下文压测,以 TTFT 首 Token 时延、TPS 吞吐为核心衡量指标,数据直观体现方案落地价值。

1、英伟达 DPU+JBOF 实测

硬件配置

  • 存储侧配置 4 张 BlueField-3 DPU,每张 DPU 为 16 核、48GB 内存,DPU 网卡为 200GE 双口,共 4 张;数据盘为 24 块 7.68TB NVMe SSD。

  • 计算侧配置 8 张 NVIDIA H20(每张 141GB 显存),CPU 为 2 颗 Intel 8558P,内存为 64GB 模组共 32条,网络为 4 张 400GE RoCE v2 网卡。

模型与负载

  • 采用 DeepSeek-R1 模型,推理引擎为 vLLM。

  • 测试覆盖不同上下文长度:8K、32K、64K 和 100K Token,并设置不同并发数模拟真实推理服务中的长上下文访问压力。

测试结果

与未开启 KV Cache 卸载的基线相比,MeshFusion 方案下:

  • TTFT(首 Token 延迟)分别降低 91%、96%、96% 和 94%

  • TPS(吞吐量,每秒 Token 数)分别提升 13 倍、23.7 倍、28.4 倍和 16.7 倍

TTFT 是用户感知最直接的指标之一,大幅下降意味着长上下文场景下的交互体验显著改善。而吞吐量在 KV Cache 压力持续增大时仍保持数量级提升,说明 MeshFusion 能够有效将 KV Cache 卸载到 G3.5 共享存储池,在 HBM 容量受限时让推理服务继续保持低延迟和高吞吐。

2、华为昇腾 + PD 分离实

硬件配置:

  • 算力集群:4 台 8 卡华为昇腾 910C 服务器,每节点配置 7 块 3.84TB 本地 NVMe SSD,采用 MeshFusion 在计算节点融合部署的方式。

  • 网络:双端口 200G 高速存储网络,结合华为灵衢高速网络。

模型与负载:

  • 采用智谱 GLM-4.7 模型,推理引擎适配昇腾后端。

  • 测试上下文长度:32K、64K、128K Token,采用 Prefill 与 Decode 分离(PD 分离)架构。

测试结果:

与未开启 KV Cache 卸载的基线相比,MeshFusion方案下:

  • TTFT 分别降低 86%、89%、92%

  • TPS 分别提升 271%、344%、422%

备注:卸载到内存的场景,由于内存容量同样无法承载上述规模下的 KV Cache 数据,导致性能与“不卸载”接近。

综合来看,加速幅度呈现出明显的规模效应,并且随着上下文长度增加,加速效果愈发明显。这验证了MeshFusion 的架构设计具备跨算力平台的普适性,能够为国产 AI 推理基础设施提供高弹性、低时延的 KV Cache 扩展能力。

落地商业价值 :多维降本增效,成为推理基建优选

从商业化落地视角来看,XSKY 下一代大模型推理 KV Cache 加速解决方案能够从性能、硬件成本、能耗开销三个维度为 AI 企业创造实在收益。

性能收益

集群推理并发能力可整体提升 200% 以上,TTFT 首 Token 延迟最高降幅可达 95%,原本受显存限制无法上线的超长上下文业务得以顺利落地。

成本收益

依托存量服务器本地 SSD 组建共享缓存池,减少高端 GPU 额外采购数量,整体基建 TCO 下降 30%-50%。

能耗收益

优化 GPU 无效空载与高频调度损耗,整机集群能耗降低 40%-60%。

AI 内存墙是制约大模型商业化规模化的关键阻碍,跳出硬件与算法优化的固有思路,从存储侧扩容 KV Cache,是产业发展的必然方向。XSKY MeshFusion 推理加速解决方案依托原生推理存储架构、灵活部署方案、算力生态适配,用实测数据验证了 KV Cache 池化卸载的落地价值。未来 XSKY 将持续迭代产品,优化缓存调度与跨节点访问效率,持续帮助各类 AI 企业低成本突破推理瓶颈,加速大模型商业化落地进程。

http://www.jsqmd.com/news/994040/

相关文章:

  • 别再用pow了!手把手教你用二分法搞定C/C++中的立方根计算(含负数处理)
  • 5分钟打造专业级音乐播放器:foobar2000终极美化方案深度解析
  • 卫生间漏水到楼下怎么查找漏水点?2026洛阳24小时上门维修电话TOP7机构推荐,免费勘察+精准定位,专业师傅处理屋顶墙体洗手间暗管漏水 - 一休咨询
  • P89LPC93x1系列MCU:高集成度80C51内核的嵌入式系统设计实战
  • MATLAB实战:手把手教你仿真三种天线阵列的波束形成(附完整代码)
  • 如何用Mona Sans可变字体打造极致网页排版体验
  • 革命性智能黑苹果配置工具:如何用OpCore-Simplify在15分钟内完成专业级EFI配置
  • 从会议室预订到快递配送:贪心算法在真实业务场景中的落地指南
  • 2026青岛钻石回收行业实测,靠谱变现渠道整理 - 奢侈品回收测评
  • 【LuckFox Pico】SPI LCD驱动移植实战:基于FBTFT适配ST7735与GC9306
  • 空间数据到底该用什么库存?PostGIS、MySQL空间扩展、国产数据库选型全指南
  • P89LPC912/913/914双时钟80C51内核解析与低功耗设计实战
  • Cocos2d-x粒子特效调试工具(Windows版):实时调参+导出适配配置
  • 别再只调包了!手把手教你用PyTorch的GRUCell从零搭建一个循环网络
  • 从KF到ESKF:五大滤波算法核心思想与工程选型指南
  • 3个理由让你立即爱上IINA:macOS上最聪明的视频播放器
  • 终极指南:3分钟为Windows 11 24H2 LTSC企业版恢复微软商店
  • 2026年全屋定制供应商推荐排行榜:电视柜、餐边柜、鞋柜、阳台柜、书柜、酒柜、储物柜等多类型定制厂家! - 信息热点
  • 逸模 VS CAD+SU 系列(一):效果图,打破壁垒实现图模同源同步
  • Linux终端常用命令
  • BibiGPT终极指南:5种高效批量处理音视频内容的专业方案
  • KMS_VL_ALL_AIO:实战深度解析Windows与Office智能激活方案
  • Node.js 开发环境完整部署指南(精简优化版)
  • 高效构建智能AI代理的实战解决方案:DeerFlow 2.0深度指南
  • 模块化设计与接口契约
  • 题解:学而思编程 逆序对
  • P8xC591 CAN控制器寄存器详解与驱动开发实战
  • 告别手动抬杆!用Java调用海康威视HCNetSDK实现道闸远程开关(附完整代码)
  • MPC8323E处理器接口电气特性与PCB布局实战指南
  • AI Agent 系统设计:工具调用的容错机制与回退策略