当前位置：首页 > news >正文

Docker部署vLLM部署流程

news 2026/7/22 7:24:09

Docker部署vLLM部署流程

#安装vllm，用于模型推理 pip install vllm #安装modelscope，用于下载大模型文件 pip install modelscope # 创建模型保存目录 mkdir -p ~/llm_models mkdir -p ~/llm_models/Qwen2.5-VL # 下载模型 modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --cache_dir ~/llm_models/Qwen2.5-VL

# 拉取VLLM官方镜像 sudo docker pull vllm/vllm-openai:latest

sudo docker run -d --name qwen-vl-model --gpus all --shm-size 1g -p 8001:8001 \ #不带-d可以直接显示报错 -v ~/llm_models:/models \ vllm/vllm-openai:latest \ --model /models/Qwen2.5-VL/Qwen/Qwen2___5-VL-7B-Instruct \ #这里的model是docker容器中的model路径，后面的路径就是与宿主机的路径相同 --tensor-parallel-size 1 \ --trust-remote-code \ --port 8001

# 基本的生成请求 curl http://xx.xxx.xxx.xx:8003/generate \ -X POST \ -H "Content-Type: application/json" \ -d '{ "prompt": "你好，请介绍一下自己", "temperature": 0.7, "top_p": 0.9, "max_tokens": 100 }'

#!/usr/bin/env python3 from openai import OpenAI import time def test_vllm(): client = OpenAI( api_key="fake-key", base_url="http://xx.xxx.xxx.xx:8000/v1" ) # 测试用例 tests = [ "你好，请说出你哪个版本", "请用JSON格式返回：姓名张三，年龄30岁", "计算 25 + 37", "写一首短诗" ] print("测试VLLM服务...") for i, prompt in enumerate(tests, 1): print(f"\n测试{i}: {prompt}") try: start = time.time() response = client.chat.completions.create( model="/models", # 正确的模型名 messages=[{"role": "user", "content": prompt}], max_tokens=100 ) result = response.choices[0].message.content elapsed = time.time() - start print(f" {elapsed:.2f}s: {result[:80]}...") except Exception as e: print(f" 失败: {e}") if __name__ == "__main__": test_vllm()

# 完整示例 sudo docker run -d \ --name my-vllm \ # 容器名称 --gpus all \ # 使用所有GPU，--gpus '"device=0,1"' --shm-size 2g \ # 共享内存2GB -p 8000:8000 \ # 端口映射 -v ~/llm_models:/models \ # 模型目录挂载 vllm/vllm-openai:latest \ --model /models/Qwen/Qwen2-7B \ # 具体模型路径 --served-model-name qwen-7b \ # 对外暴露的模型名 --host 0.0.0.0 \ # 监听所有网络接口 --port 8000 \ # 服务端口 --tensor-parallel-size 2 \ # 2GPU并行 --max-model-len 4096 \ # 最大序列长度 --gpu-memory-utilization 0.8 \ # GPU显存利用率80% --trust-remote-code # 信任自定义代码

查看全文

http://www.jsqmd.com/news/577911/