当前位置: 首页 > news >正文

大模型推理引擎vLLM(15): Scheduler / Worker整体介绍

文章目录

  • 1 V1 motivation
  • 2 How to push out a refactor
  • 3 Schedule
    • 3.1 设计思想
    • 3.2 代码文件位置
  • 4 General architecture
    • 4.1 separate process
    • 4.2 Schedule & worker in separate process
  • 5 Worker
    • 5.1 Persistent baching
    • 5.2 Piecewise cudagraph
  • 6 atten kernel
  • 参考文献

该博客为看视频时的简单笔记,感兴趣的可以直接去看原视频:[EP06] vllm最新v1,代码仙人指路

1 V1 motivation

2 How to push out a refactor

3 Schedule

3.1 设计思想

他的设计思想就是,相比上次的request,这次的request我们需要拓展多少个token,利用这个思想就可以做所有的处理,





3.2 代码文件位置

vllm/vllm/v1/core/sched

4 General architecture

4.1 separate process

把该放在不同process的东西放在了不同的process里面。

4.2 Schedule & worker in separate process


5 Worker

5.1 Persistent baching

5.2 Piecewise cudagraph

6 atten kernel

参考文献

[EP06] vllm最新v1,代码仙人指路

http://www.jsqmd.com/news/405833/

相关文章:

  • 大模型推理引擎vLLM(13): 什么是MOE混合专家模型
  • 大模型推理引擎vLLM(14): 什么是MLA多头潜在注意力
  • 2026.2.23:AgentScope框架实战<一>:安装并使用agentscope
  • 【节点】[Matrix2x2节点]原理解析与实际应用
  • JDK下载,安装与配置
  • flex与bison学习之识别计算器的记号
  • flex与bison学习之简易计算器
  • flex与bison学习之一个简单的flex词法分析器
  • 2026年谷歌独立站多语种建站公司/服务商深度评测推荐:五强对比与中立对比助决策 - 深圳昊客网络
  • OpenClaw:2026年爆红的本地优先 AI 智能体引擎全解析
  • CrafterCMS 认证RCE漏洞利用 - Groovy沙箱逃逸 (CVE-2025-6384)
  • flex与bison学习之英式英语转换为美式英语
  • sql注入之文件读写
  • 从入门到实战:构建企业级交通实时路况监控系统的Python爬虫架构指南
  • DenseFramelet-DFD:基于密集框架小波变换和自适应阈值降噪的机械故障诊断方法(MATLAB)
  • 探索导弹六自由度运动模型及其MATLAB/Simulink实现
  • 总结了近期考MOS认证学员问的比较的问题
  • 题解:CF1210F2 Marek and Matching (hard version)
  • CF1322B
  • 2026年3月百度推广竞价广告开户代运营公司/服务商深度评测:深圳昊客网络 引领榜单 - 深圳昊客网络
  • 根脉与花开:AI元人文——中华文化思想在智能时代的原创性理论发展
  • AI Agent 框架探秘:拆解 OpenHands(7)--- Agent
  • 视频孪生之上:镜像视界矩阵视频融合驱动三维智慧交通升级——以重庆万州复杂立体交通场景为样本的统一空间坐标体系与跨摄像连续表达工程实践
  • 视频孪生之上 · 空间主权构建:镜像视界矩阵视频融合打造三维连续表达控制体系——基于统一坐标矩阵与动态修正机制的空间级主动感知与连续表达平台
  • 状压dp临行枚举类问题
  • 新的开始
  • CF1313D
  • 【Linux】进程地址空间的内核空间
  • [特殊字符] 基于YOLOv5/v8/v10的商超货架商品陈列面占比分析系统【完整源码+数据集】
  • JAVA WEB学习6