当前位置：首页 > news >正文

vLLM-v0.17.1模型服务容器化：基于Docker与Kubernetes的部署实践

news 2026/7/23 0:13:58

vLLM-v0.17.1模型服务容器化：基于Docker与Kubernetes的部署实践

1. 引言

最近在部署大模型推理服务时，发现vLLM框架因其高效的内存管理和推理优化备受关注。但如何将vLLM-v0.17.1模型服务打包成可移植的容器，并在Kubernetes集群中实现弹性伸缩，对很多开发者来说仍是个挑战。

本文将手把手带你完成从Docker镜像构建到Kubernetes集群部署的全流程。通过多阶段构建减小镜像体积，配置自动扩缩容策略，最终实现一个高可用的vLLM推理服务。整个过程不需要复杂的运维经验，跟着步骤操作就能完成。

2. 环境准备

2.1 基础环境要求

在开始之前，请确保你的开发环境满足以下条件：

一台装有Linux系统的机器（推荐Ubuntu 20.04+）
已安装Docker 20.10+
已安装kubectl并配置好Kubernetes集群访问权限
拥有NVIDIA GPU的节点（至少16GB显存）
已安装NVIDIA Container Toolkit

2.2 获取vLLM模型权重

首先需要下载vLLM支持的模型权重文件。以Llama2-7B为例：

# 创建模型存储目录 mkdir -p models/llama2-7b cd models/llama2-7b # 下载模型权重（需提前获取下载权限） wget https://example.com/llama2-7b/model-00001-of-00002.safetensors wget https://example.com/llama2-7b/model-00002-of-00002.safetensors

3. 构建Docker镜像

3.1 编写多阶段Dockerfile

为了减小最终镜像体积，我们采用多阶段构建方式：

# 第一阶段：构建环境 FROM nvidia/cuda:12.1.1-base as builder WORKDIR /app RUN apt-get update && apt-get install -y \ python3-pip \ git \ && rm -rf /var/lib/apt/lists/* # 安装vLLM及其依赖 RUN pip install torch==2.1.0 --extra-index-url https://download.pytorch.org/whl/cu121 RUN pip install vllm==0.17.1 # 第二阶段：运行时环境 FROM nvidia/cuda:12.1.1-runtime WORKDIR /app COPY --from=builder /usr/local/lib/python3.10/dist-packages /usr/local/lib/python3.10/dist-packages COPY --from=builder /usr/local/bin /usr/local/bin # 复制模型权重 COPY models /app/models # 暴露服务端口 EXPOSE 8000 # 启动命令 CMD ["python", "-m", "vllm.entrypoints.api_server", \ "--model", "/app/models/llama2-7b", \ "--host", "0.0.0.0", \ "--port", "8000"]

3.2 构建并测试镜像

执行以下命令构建镜像：

docker build -t vllm-service:0.17.1 .

构建完成后，可以本地测试运行：

docker run --gpus all -p 8000:8000 vllm-service:0.17.1

访问http://localhost:8000/docs应该能看到Swagger API文档界面。

4. Kubernetes部署

4.1 创建持久化存储

首先为模型权重创建PersistentVolume和PersistentVolumeClaim：

# vllm-pv.yaml apiVersion: v1 kind: PersistentVolume metadata: name: vllm-model-pv spec: capacity: storage: 50Gi accessModes: - ReadOnlyMany persistentVolumeReclaimPolicy: Retain storageClassName: manual hostPath: path: "/mnt/data/vllm-models"

# vllm-pvc.yaml apiVersion: v1 kind: PersistentVolumeClaim metadata: name: vllm-model-pvc spec: accessModes: - ReadOnlyMany resources: requests: storage: 50Gi storageClassName: manual

应用配置：

kubectl apply -f vllm-pv.yaml kubectl apply -f vllm-pvc.yaml

4.2 部署vLLM服务

创建Deployment和Service资源：

# vllm-deployment.yaml apiVersion: apps/v1 kind: Deployment metadata: name: vllm-deployment spec: replicas: 1 selector: matchLabels: app: vllm template: metadata: labels: app: vllm spec: containers: - name: vllm image: vllm-service:0.17.1 resources: limits: nvidia.com/gpu: 1 ports: - containerPort: 8000 volumeMounts: - name: model-storage mountPath: /app/models readOnly: true volumes: - name: model-storage persistentVolumeClaim: claimName: vllm-model-pvc

# vllm-service.yaml apiVersion: v1 kind: Service metadata: name: vllm-service spec: selector: app: vllm ports: - protocol: TCP port: 8000 targetPort: 8000 type: LoadBalancer

部署服务：

kubectl apply -f vllm-deployment.yaml kubectl apply -f vllm-service.yaml

4.3 配置自动扩缩容

创建Horizontal Pod Autoscaler根据GPU利用率自动调整副本数：

# vllm-hpa.yaml apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: vllm-hpa spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: vllm-deployment minReplicas: 1 maxReplicas: 5 metrics: - type: Resource resource: name: nvidia.com/gpu target: type: Utilization averageUtilization: 70

应用HPA配置：

kubectl apply -f vllm-hpa.yaml

5. 验证与测试

5.1 检查服务状态

查看Pod运行状态：

kubectl get pods -l app=vllm

获取Service外部访问地址：

kubectl get svc vllm-service

5.2 发送测试请求

使用curl测试API服务：

curl -X POST http://<EXTERNAL-IP>:8000/generate \ -H "Content-Type: application/json" \ -d '{ "prompt": "介绍一下vLLM框架", "max_tokens": 100 }'

5.3 监控自动扩缩容

观察HPA工作情况：

kubectl get hpa vllm-hpa -w

6. 总结

通过这套方案，我们成功将vLLM-v0.17.1模型服务容器化并部署到Kubernetes集群中。实际使用下来，多阶段构建的镜像体积比常规方式小了约40%，HPA也能很好地根据负载自动调整实例数量。特别是在流量高峰时段，系统能够自动扩容保证服务稳定性。

部署过程中有几个小技巧值得注意：一是模型权重最好使用ReadOnlyMany模式的持久化存储，多个Pod可以共享同一份模型数据；二是HPA的GPU利用率阈值需要根据实际场景调整，太高会导致响应延迟，太低又会浪费资源。

如果你需要部署其他版本的vLLM或不同的大模型，基本流程是类似的，只需要调整Dockerfile中的版本号和模型路径即可。对于生产环境，建议再加上监控和日志收集的配置，这样能更好地掌握服务运行状态。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

查看全文

http://www.jsqmd.com/news/584817/

Nginx高性能配置与优化实战，分布式排行榜系统设计方案。

Omni-Vision Sanctuary 与前端交互：Web端实时视频流AI分析界面开发

RVC效果测评：AI翻唱对比原声，听听哪个更逼真

伏羲天气预报代码实例：Python命令行调用fuxi.py实现自定义步数预报

Windows下OpenClaw安装避坑：Qwen3.5-9B镜像对接全记录

OpenCode集成指南：如何与GitHub Action结合，自动化处理Issue和PR

DeOldify多模态扩展潜力：结合OCR识别文字区域后针对性上色方案

Hunyuan-MT-7B开源镜像部署教程：像素语言Portal在A10/A100显卡上的算力优化实践

网络协议原理可视化：Qwen3.5-2B图解TCP三次握手与HTTP/2帧结构

BERT文本分割-中文-通用领域实战教程：Gradio前端一键部署

Fish Speech 1.5应用场景：制作多语言有声书和视频配音全流程

BGE-Large-Zh惊艳效果展示：紫色UI热力图+高精度匹配结果真实截图

nlp_structbert_sentence-similarity_chinese-large 快速入门：3步完成首次API调用

OpenClaw社交媒体管理：Qwen3-14B定时发布小红书文案

LFM2.5-1.2B-Thinking-GGUF惊艳效果：32K上下文下长文档关键信息抽取准确率实测

文字也有情绪？像素心智情绪解码器带你探索隐藏在文本中的情感密码

超越目视解译：用ENVI的GLCM纹理特征提升林地/农田分类精度实战

06 指令编写技巧2：指定代码规范、语言版本与运行环境

CHORD-X深度研究报告生成终端LaTeX排版集成：生成可直接编译的学术报告

AgentCPM与数据库联动：MySQL存储研报结果与历史查询优化

Qwen3.5-2B在WSL2中的开发环境配置指南

春联生成模型版本管理与协作开发：Git工作流实践

告别面阵相机：用线扫相机+LED光源，搞定高反光曲面缺陷检测（附2.5D成像效果对比）

OpenAvatarChat数字人项目实战：lite-avatar形象库150+角色快速配置与效果验证

深度学习项目训练环境作品集：10类常见图像分类任务的统一训练模板与结果汇总

DeepChat行业应用：生物医药文献摘要→靶点关系提取→实验设计建议

OpenClaw性能调优：降低Kimi-VL-A3B-Thinking任务Token消耗

OpenClaw+SecGPT-14B：构建无需编程的内网资产管理系统

拆解EtherCAT从站芯片ET1100：手把手教你理解ESC内部结构与PDI接口实战

手把手教你用NLI-DistilRoBERTa-Base：快速搭建自然语言推理服务