当前位置: 首页 > news >正文

vllm与sgLang

一、基本概念

先看kvcache概念:可以看作模型的短期记忆,模型每生成一个新词就疯狂吃gpu显存

1、对于vLLM框架有PagedAttention:按需分配、非连续存储的方式

PagedAttention:把每个请求的 KV Cache 切割成固定大小的“块(Block)”。这些块在物理显存中不需要连续存储,系统只需维护一个“块表(Block Table)”来记录逻辑块与物理块的映射关系。

优势:按需分配、非连续存储,提升显存利用率

2、SGLang有RadixAttention

它引入了一种叫基数树(Radix Tree)的数据结构来管理 KV Cache,在实际业务中(比如多轮对话、少样本学习或思维树搜索),很多请求之间拥有大量相同的前缀,当新的请求进来时,系统会自动识别它是否包含已有的公共前缀。如果有,就直接复用树上已经计算好的 KV Cache,只计算新增的部分。

优势:跨请求的前缀共享机制,消除了大量的重复计算

二、两种框架的最佳使用场景

vllm sglang tensordt-llm区别

http://www.jsqmd.com/news/1106531/

相关文章:

  • 2026年独立站平台选哪个好?海外建站工具选择指南
  • TEL 3D80-001488-V2电源模块
  • AI数字员工的技术选型:为什么“工作流执行能力”是核心评估维度?
  • 河北玻璃钢喷涂机保养
  • 惠州球阀定制,高性价比就选它
  • 机器人即服务(RaaS)时代来了:机器人租赁平台的技术架构与落地实践
  • 90%的iPhone用户都踩过的坑:弹窗、发烫、掉电池,根源全在这
  • 《深海迷航2异星水域2》免Steam单机傻瓜一键安装版
  • Rust 浏览器引擎 Servo 发布 5 月开发总结,391 次提交带来多项改进!
  • unordered_map 与 unordered_set 使用技巧(C++哈希容器高性能实战全解)
  • 2026年门店小程序平台怎么选?预约、核销和会员储值能力对比
  • 大模型开发_基础001
  • 用 Claude 做金融分析靠谱吗?从 GDPval-AA 评测看 Opus 4.7 的垂直能力边界
  • linux umask详解
  • 别再盲目用ChatGPT!2026各版本权限、算力、使用场景深度测评
  • 2026最新靠谱视频孪生企业推荐 这几家实力过关值得参考-
  • 影刀RPA新手教程:营销投放自动化完全指南——广告账户数据汇总、ROI分析与预算预警
  • 景观设计师转型AI:2个月掌握大模型的实战路径
  • STM32与AD74413R构建高精度数据采集系统
  • 从创意生成到商业变现:抖音/TikTok电商AI视频工具全链路横评与选型指南
  • 入门级反射型xss实战
  • 从成本中心到价值引擎:License许可优化的进阶之路
  • 【硬核详解】基于 CH340G 的 STM32 一键下载电路设计:从数据手册到参数计算全流程指南(一)
  • 把AI流式响应当成编译问题:用状态机消灭200空白
  • 2026年企业消费者调研服务商权威盘点榜单
  • 图形硬件流水线
  • 任务栏变身硬件监控面板,CPU/GPU温度与使用率一目了然
  • 2026年腾讯云秒杀活动抢购攻略
  • 生产级ML模型服务化:从Triton部署到Seldon编排的落地实践
  • 拱墅区专业乐队培训选择指南