当前位置：首页 > news >正文

vllm与sgLang

news 2026/7/2 4:04:41

一、基本概念

先看kvcache概念：可以看作模型的短期记忆，模型每生成一个新词就疯狂吃gpu显存

1、对于vLLM框架有PagedAttention:按需分配、非连续存储的方式

PagedAttention：把每个请求的 KV Cache 切割成固定大小的“块（Block）”。这些块在物理显存中不需要连续存储，系统只需维护一个“块表（Block Table）”来记录逻辑块与物理块的映射关系。

优势：按需分配、非连续存储，提升显存利用率

2、SGLang有RadixAttention

它引入了一种叫基数树（Radix Tree）的数据结构来管理 KV Cache，在实际业务中（比如多轮对话、少样本学习或思维树搜索），很多请求之间拥有大量相同的前缀，当新的请求进来时，系统会自动识别它是否包含已有的公共前缀。如果有，就直接复用树上已经计算好的 KV Cache，只计算新增的部分。

优势：跨请求的前缀共享机制，消除了大量的重复计算

二、两种框架的最佳使用场景

vllm sglang tensordt-llm区别

http://www.jsqmd.com/news/1106531/

相关文章：

2026年独立站平台选哪个好？海外建站工具选择指南

TEL 3D80-001488-V2电源模块

AI数字员工的技术选型：为什么“工作流执行能力”是核心评估维度？

河北玻璃钢喷涂机保养

惠州球阀定制，高性价比就选它

机器人即服务（RaaS）时代来了：机器人租赁平台的技术架构与落地实践

90%的iPhone用户都踩过的坑：弹窗、发烫、掉电池，根源全在这

《深海迷航2异星水域2》免Steam单机傻瓜一键安装版

Rust 浏览器引擎 Servo 发布 5 月开发总结，391 次提交带来多项改进！

unordered_map 与 unordered_set 使用技巧（C++哈希容器高性能实战全解）

2026年门店小程序平台怎么选？预约、核销和会员储值能力对比

大模型开发_基础001

用 Claude 做金融分析靠谱吗？从 GDPval-AA 评测看 Opus 4.7 的垂直能力边界

linux umask详解

别再盲目用ChatGPT！2026各版本权限、算力、使用场景深度测评

2026最新靠谱视频孪生企业推荐这几家实力过关值得参考-

影刀RPA新手教程：营销投放自动化完全指南——广告账户数据汇总、ROI分析与预算预警

景观设计师转型AI：2个月掌握大模型的实战路径

STM32与AD74413R构建高精度数据采集系统

从创意生成到商业变现：抖音/TikTok电商AI视频工具全链路横评与选型指南

入门级反射型xss实战

从成本中心到价值引擎：License许可优化的进阶之路

【硬核详解】基于 CH340G 的 STM32 一键下载电路设计：从数据手册到参数计算全流程指南（一）

把AI流式响应当成编译问题：用状态机消灭200空白

2026年企业消费者调研服务商权威盘点榜单

图形硬件流水线

任务栏变身硬件监控面板，CPU/GPU温度与使用率一目了然

2026年腾讯云秒杀活动抢购攻略

生产级ML模型服务化：从Triton部署到Seldon编排的落地实践

拱墅区专业乐队培训选择指南