当前位置: 首页 > news >正文

vLLM--如何创建物理块

物理块的核心本质

物理块不是物理上独立的显存碎片,而是在一块连续显存上,通过张量 reshape 操作划分出的逻辑单元。

  • 整个过程没有任何数据拷贝或移动
  • 只是改变了 GPU 对同一块显存的 "解释方式"
  • 所有物理块在物理内存上仍然是连续的

物理块创建 4 步流程

  1. 计算每层显存大小:根据可用 KV 显存,算出每个注意力层需要的连续显存总量
  2. 申请连续大张量:为每个层申请一个一维连续张量(保证内存连续性)
  3. 逻辑切分物理块:将一维张量 reshape 为[num_blocks, 2, num_kv_heads, block_size, head_size]形状
  4. 注册到 BlockPool:为每个块创建元数据对象,加入空闲块链表统一管理

核心计算公式

单个物理块大小 = 2 × block_size × num_kv_heads × head_size × dtype_bytes 每个层块数 = 总可用KV显存 ÷ 单个物理块大小 ÷ 模型层数 每个层总显存 = 每个层块数 × 单个物理块大小
  • 乘以 2:同时存储 K 和 V 两个矩阵
  • dtype_bytes:FP16=2,INT8=1,INT4=0.5
http://www.jsqmd.com/news/885429/

相关文章:

  • 如何让AI推荐你的网站?独立站 SEO + GEO 全攻略
  • 掌握AI教材写作:低查重AI工具,让教材编写不再难!
  • 从零开始的web前端开发10
  • 2026 镇江・杭州(全区域服务)本地人必选彩钢瓦金属屋面防水防腐公司避坑指南 TOP5 推荐 - 本地便民网
  • 2026年5月巨量本地推代理推荐:TOP5排名专业评测本地获客性价比高价格
  • QMCDecode:突破QQ音乐加密限制,轻松解锁音乐自由的终极方案
  • OpenAPI驱动的AI测试用例生成器:可嵌入CI的结构化接口测试工具
  • Unity资源逆向实战:AssetStudio底层原理与五大卡点排障
  • 【优】B+树,Mysql优化 慢查询 执行计划 优化表结构 避免死锁 大量插入数据大数据后果
  • 通用物联网开发板设计:基于ESP8266的硬件集成与开发实践
  • 美国海派专线的运输时效受哪些因素影响? - 恒盛通物流
  • AI掘金头条新闻系统 (Toutiao News)-用户注册-生成Token
  • 中小企业本地化RAG一体机实测:从“文档杂乱”到“5秒溯源”,一个开箱即用的工程方案
  • Google 官方回应:GEO 不会取代 SEO,AI 搜索时代真正重要的是“内容理解力”
  • AI教材生成大揭秘:低查重工具实测,快速完成教材编写任务!
  • M1 Mac 装 Ollama,我被 Docker 骗了三次
  • 零基础怎么学Agent?这个工程师考试内容拆给你看
  • 成都摩托驾考技术全解析 专业驾校判定指南 - 奔跑123
  • ctf show web 入门171
  • 基于Cynthion逆向USB协议,为DP100电源开发Linux控制软件
  • 陕西西安月嫂怎么选?五大机构深度测评,孕产家庭省心避坑指南 - 深度智识库
  • 强化学习PPO算法优化与T-PPO框架实践
  • 告别呆板动画!Godot 4 AnimationPlayer保姆级教程:单图、逐帧、骨骼动画全搞定
  • Unity InputSystem避坑指南:手机触摸屏多点触控冲突?教你用屏幕分区完美解决移动与视角控制
  • 成都摩托驾培专业度判定指南 实操技术全解析 - 奔跑123
  • 2025-2026年国内巨量本地推代理推荐:TOP5榜单评测本地推成本控制市场份额价格
  • 安卓HTTPS抓包实战:绕过SSL Pinning与Fiddler证书配置全解
  • 成都学车靠谱判定指南:西华驾校核心维度解析 - 奔跑123
  • 告别漫长等待:UE5.2.1 Windows打包效率优化与插件问题排查指南
  • 【仅限首批200位架构师获取】DeepSeek v3.2设计模式补丁包:含4个已验证的Pattern-Override补丁