当前位置：首页 > news >正文

vllm单机多卡（无Ray）部署架构

news 2026/7/7 22:36:12

部署架构图
- 1️⃣ 前提条件
- 2️⃣ 多实例部署逻辑
- 3️⃣ 注意事项

在单 GPU 服务器上，如果单个 Qwen14B 模型实例需要 2 张 GPU，那么必须启动 4 个独立模型服务，每个服务绑定 2 张 GPU 并监听独立端口。这样才能充分利用 8 张 GPU 的算力，同时保证每个实例的 KV Cache 和 batch 独立管理。

部署架构图


================ 8 GPU 服务器 =================
| GPU0 | GPU1 | GPU2 | GPU3 | GPU4 | GPU5 | GPU6 | GPU7 |
====================================================部署 4 个模型实例，每个实例占用 2 张 GPU：┌─────────────┐    ┌─────────────┐    ┌─────────────┐    ┌─────────────┐
│ model_1     │    │ model_2     │    │ model_3     │    │ model_4     │
│ GPU0 + GPU1 │    │ GPU2 + GPU3 │    │ GPU4 + GPU5 │    │ GPU6 + GPU7 │
│ Port: 8000  │    │ Port: 8001  │    │ Port: 8002  │    │ Port: 8003  │
└─────────────┘    └─────────────┘    └─────────────┘    └─────────────┘说明：
- 每个模型实例独立维护 KV Cache 和 batch。
- 上层请求通过不同端口访问对应实例。
- 没有 Ray 时，每个实例完全隔离。

1️⃣ 前提条件

服务器：8 张 GPU（48G L40S）
模型：Qwen 14B 原生大模型
模型显存需求：2 张 48G GPU 才能完整加载一个实例
没有 Ray / 异构调度

2️⃣ 多实例部署逻辑

每个模型实例绑定 GPU

模型占用 2 张 GPU → 每个实例只能用 2 张
服务器总 GPU 8 张 → 最多部署 4 个模型实例

不同端口暴露服务

每个模型实例对应 一个独立端口
每个端口监听请求 → 分配到该实例管理的 2 张 GPU
这样每个实例维护自己的 KV Cache 和 batch

示意

模型实例	GPU 绑定	服务端口
model_1	GPU0 + GPU1	8000
model_2	GPU2 + GPU3	8001
model_3	GPU4 + GPU5	8002
model_4	GPU6 + GPU7	8003

上层业务调用不同端口，就对应不同 GPU 资源，互不干扰。

3️⃣ 注意事项

KV Cache：每个实例独立，无法跨实例共享（没有 Ray 时）
负载均衡：上层业务或网关需要根据请求量分配到不同端口
Batch / Sequence 长度：每个实例独立管理

http://www.jsqmd.com/news/293234/

相关文章：

基于spring的地产企业工程项目管理系统[spring]-计算机毕业设计源码+LW文档

基于spring的大学生兼职网[spring]-计算机毕业设计源码+LW文档

基于spring的创新团队管理平台[spring]-计算机毕业设计源码+LW文档

志趣网 item_get - 获取公司详情接口对接全攻略：从入门到精通

教育领域新玩法：用Live Avatar制作AI讲师课程

用YOLOv9官方镜像做毕业设计，简单又出彩

IQuest-Coder-V1 vs PolyCoder：小团队开发适配性对比

Unsloth能否用于生产？企业级部署稳定性实战评估

异构GPU架构（英伟达+华为升腾等）

深入解析：零基础学AI大模型之Milvus索引实战

告别手动剪辑！FSMN-VAD帮你自动切分语音片段

Qwen3-Embedding-0.6B推荐部署：开箱即用镜像提升开发效率

NewBie-image-Exp0.1出现OOM？显存不足问题的三种解决方案实战

IndexTTS-2模型权重获取：Apache 2.0许可合规使用指南

MinerU技术架构解析：magic-pdf与mineru协作机制

Llama3语音扩展 vs Speech Seaco Paraformer：中文识别能力对比

STM32CubeMX教程：STM32F4系列时钟配置深度剖析

成都恒利泰HT-LFCN-2000+替代LFCN-2000+

开发职场周报生成器，导入本周工作事项，完成进度，待办事项，按公司模板自动排版，填充数据，生成规范周报，支持一键导出word。

脱发治疗中医机构如何选择，天津市道医口碑与实力兼具

2026年客房布草生产商排名，南通夏沐纺织优势显著推荐

2026年全国排名靠前的吸干机一站式供应商

2026年靠谱的吸干机厂家排名，杭州超滤因卓越技术位居前列

2026全网雅思英语培训机构综合深度测评Top榜：高分提分靠谱方案权威推荐

2026线上雅思网课哪个好？综合测评TOP排名榜推荐：全维度测评5家靠谱机构

CTF Misc模块系列分享（五）：收官总结！解题框架+避坑指南，轻松上分

2026年浙江无尘室装修推荐，百级标准打造，车间净化/净化车间/净化工程/无尘室/无尘车间，无尘室施工流程哪家权威

运维转行不迷茫：3大主流方向+分阶段学习路线

CTF Misc模块系列分享（四）：进阶实战！数据恢复+流量分析拿下进阶分

全国雅思培训教育机构深度测评TOP5｜2026权威排行榜（附高分配套方案）