当前位置：首页 > news >正文

VLLM高效推理环境搭建实战

news 2026/7/7 23:54:25

1. 为什么选择VLLM进行推理加速

最近在部署大语言模型时，我发现很多开发者都在为推理速度发愁。传统方法跑一个7B参数的模型，生成100个token可能要等上好几秒，这在生产环境简直没法用。经过多次尝试，我发现VLLM确实是个不错的解决方案。

VLLM的核心优势在于它的连续批处理（Continuous Batching）技术。简单来说，就像餐厅的流水线作业：传统推理是一个客人点完菜才开始做下一个客人的，而VLLM能让厨师同时处理多个客人的订单。我实测下来，同样的A100显卡，用原生Transformers推理Llama2-7B的速度是28 token/s，而VLLM能达到78 token/s，提升近3倍。

另一个让我惊喜的是它的内存管理。传统方法加载7B模型需要14GB显存，而VLLM的PagedAttention技术只需要8GB。这就像给你的显存装上了虚拟内存系统，可以更高效地利用资源。我在笔记本的RTX 4090上都能流畅跑13B模型，这在以前根本不敢想。

2. 环境准备与依赖安装

2.1 硬件与系统要求

建议使用Ubuntu 22.04 LTS系统，这是我测试最稳定的环境。显卡方面，至少需要支持CUDA 12.4的NVIDIA显卡（30系以上最佳）。我有次在CUDA 11.8环境折腾了半天都跑不起来，升级到12.4后问题全解决了。

内存建议32GB以上，特别是要跑大模型时。我有次用16GB内存跑13B模型，直接触发了OOM（内存溢出）。另外SSD硬盘也是必须的，模型加载速度能快很多。

2.2 基础环境配置

先更新系统组件：

sudo apt update && sudo apt upgrade -y sudo apt install -y git-lfs curl wget python3-pip

安装CUDA 12.4（关键步骤）：

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /" sudo apt-get update sudo apt-get -y install cuda-12-4

配置环境变量（加到~/.bashrc末尾）：

export PATH=/usr/local/cuda-12.4/bin${PATH:+:${PATH}} export LD_LIBRARY_PATH=/usr/local/cuda-12.4/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

3. Docker环境部署实战

3.1 安装NVIDIA容器工具包

这是让Docker支持GPU的关键：

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt-get update sudo apt-get install -y nvidia-container-toolkit

配置Docker运行时：

sudo tee /etc/docker/daemon.json <<EOF { "runtimes": { "nvidia": { "path": "nvidia-container-runtime", "runtimeArgs": [] } } } EOF sudo systemctl restart docker

验证安装：

docker run --rm --gpus all nvidia/cuda:12.4.1-base-ubuntu22.04 nvidia-smi

应该能看到显卡信息输出。

3.2 拉取并运行VLLM镜像

我推荐使用阿里云的预构建镜像，省去自己编译的麻烦：

docker pull egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.5.4-pytorch2.4.0-cuda12.4.1-ubuntu22.04

启动容器（假设使用GPU 0和1）：

docker run -d -t --net=host --gpus '"device=0,1"' \ --ipc=host \ --name vllm-container \ -v /path/to/your/models:/root/.cache/modelscope \ egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.5.4-pytorch2.4.0-cuda12.4.1-ubuntu22.04

这里有个坑要注意：--ipc=host参数必须加，否则多GPU并行时会报错。我有次忘了加这个参数，调试了整整一天。

4. 模型测试与性能调优

4.1 下载并测试Llama2模型

进入容器：

docker exec -it vllm-container bash

下载模型（建议提前申请Meta的模型使用权限）：

git-lfs clone https://www.modelscope.cn/shakechen/Llama-2-7b-hf.git

简单测试脚本（保存为test.py）：

from vllm import LLM, SamplingParams llm = LLM(model="/root/.cache/modelscope/Llama-2-7b-hf") sampling_params = SamplingParams(temperature=0.8, top_p=0.95) outputs = llm.generate(["AI的未来发展会怎样？"], sampling_params) for output in outputs: print(output.outputs[0].text)

4.2 生产环境部署建议

对于正式服务，建议使用OpenAI兼容API模式：

vllm serve /root/.cache/modelscope/Llama-2-7b-hf \ --device cuda \ --dtype auto \ --tensor-parallel-size 2

测试API：

curl -X POST http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "/root/.cache/modelscope/Llama-2-7b-hf", "messages": [ {"role": "user", "content": "用Python写个快速排序算法"} ] }'

性能调优参数建议：