当前位置：首页 > news >正文

在Windows 11上构建本地大模型API服务：基于vLLM的高效推理部署实践

news 2026/4/25 7:43:28

1. 为什么选择vLLM在Windows 11上部署大模型？

最近两年大模型技术发展迅猛，但很多开发者面临一个现实问题：如何在个人电脑上高效运行这些"庞然大物"？我在实际项目中尝试过多种方案，最终发现vLLM确实是个不错的选择。这个由伯克利大学LMSYS组织开源的推理框架，最大的特点就是内存利用率高和吞吐量大，特别适合我们这些想在本地搭建API服务的开发者。

vLLM的核心优势在于它采用了创新的PagedAttention算法。简单来说，这就像给你的显存装上了"分页管理系统"，让大模型推理时的内存使用更加高效。实测下来，相比传统的HuggingFace Transformers，vLLM的吞吐量能提升24倍之多。对于个人开发者或小团队而言，这意味着可以用更少的硬件资源获得更好的性能表现。

在Windows 11上部署vLLM有几个特别吸引人的地方：

开发测试更方便：不用依赖云端服务，本地就能快速迭代
数据隐私有保障：所有推理都在本地完成，敏感数据不出本地
成本更低：省去了云服务费用，长期使用更划算

我最初尝试在Win11上直接安装vLLM时踩过不少坑，后来发现通过WSL2或Docker方式部署会更稳定。下面我就详细分享下具体操作步骤和注意事项。

2. 环境准备与安装

2.1 硬件与系统要求

在开始之前，先确认你的设备满足这些基本要求：

显卡：NVIDIA显卡（建议RTX 3060及以上），至少8GB显存
系统：Windows 11 22H2或更新版本
内存：建议32GB以上
存储：至少50GB可用空间（模型文件通常很大）

我自己的开发机配置是RTX 3090 + 64GB内存，跑7B参数的模型相当流畅。如果你的配置稍低，可以考虑量化版的小模型。

2.2 安装WSL2和Docker

由于vLLM原生支持Linux环境，我们需要先在Win11上配置Linux子系统：

# 以管理员身份打开PowerShell wsl --install wsl --set-default-version 2

安装完成后，建议从Microsoft Store下载Ubuntu 20.04 LTS。接着安装Docker Desktop for Windows，记得在设置中启用WSL2后端支持。

注意：首次启动Docker后，建议在设置>Resources>WSL Integration中启用你安装的Linux发行版。

2.3 准备CUDA环境

vLLM需要CUDA 11.8支持，我们可以直接使用NVIDIA官方镜像：

docker pull nvcr.io/nvidia/cuda:11.8.0-cudnn8-devel-ubuntu20.04

创建容器时，记得映射模型目录和API端口：

docker run --gpus=all -it --name vllm -p 8010:8000 -v D:\llm-model:/llm-model nvcr.io/nvidia/cuda:11.8.0-cudnn8-devel-ubuntu20.04

进入容器后，先更新系统并安装基础工具：

apt-get update -yq --fix-missing DEBIAN_FRONTEND=noninteractive apt-get install -yq --no-install-recommends pkg-config wget cmake curl git vim

3. 安装与配置vLLM

3.1 设置Python环境

我推荐使用Miniconda管理Python环境：

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh sh Miniconda3-latest-Linux-x86_64.sh -b -u -p ~/miniconda3 ~/miniconda3/bin/conda init source ~/.bashrc

创建专门的vLLM运行环境：

conda create -n vllm python=3.10 conda activate vllm

3.2 安装依赖库

为了加快下载速度，建议先换源：

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

然后安装PyTorch和其他依赖：

pip install torch==2.1.2+cu118 torchvision==0.16.2+cu118 torchaudio==2.1.2 xformers==0.0.23.post1+cu118 --extra-index-url https://download.pytorch.org/whl/cu118 pip install transformers requests gradio==4.14.0

最后安装vLLM本体：

export VLLM_VERSION=0.4.0 export PYTHON_VERSION=310 pip install https://github.com/vllm-project/vllm/releases/download/v${VLLM_VERSION}/vllm-${VLLM_VERSION}+cu118-cp${PYTHON_VERSION}-cp${PYTHON_VERSION}-manylinux1_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118

提示：如果安装过程中出现兼容性问题，可以尝试指定稍早版本的vLLM，比如0.3.2版本通常比较稳定。

4. 启动API服务与模型加载

4.1 下载模型文件

你可以从HuggingFace下载所需的大模型，比如百川2-7B：

git lfs install git clone https://huggingface.co/baichuan-inc/Baichuan2-7B-Chat /llm-model/Baichuan2-7B-Chat

如果网络连接不稳定，可以考虑先下载到Windows本地，再通过映射目录的方式提供给容器使用。

4.2 启动API服务

vLLM提供了与OpenAI兼容的API接口，启动命令很简单：

python -m vllm.entrypoints.openai.api_server --model /llm-model/Baichuan2-7B-Chat --served-model-name Baichuan2-7B-Chat --trust-remote-code

如果需要指定特定GPU或端口，可以这样调整：

CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 10086 --model /llm-model/Baichuan2-7B-Chat --served-model-name Baichuan2-7B-Chat --trust-remote-code

启动成功后，你应该能看到类似这样的输出：

INFO 07-10 15:30:21 api_server.py:140] args: Namespace(host='0.0.0.0', port=10086, ...) INFO 07-10 15:30:21 engine.py:131] Initializing an LLM engine with config: model='/llm-model/Baichuan2-7B-Chat', tokenizer='/llm-model/Baichuan2-7B-Chat', ...

4.3 验证服务状态

打开另一个终端，用curl测试API是否正常工作：

curl http://localhost:10086/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "Baichuan2-7B-Chat", "prompt": "请用中文回答：人工智能是指", "max_tokens": 50, "temperature": 0.7 }'

正常情况应该会返回类似这样的JSON响应：

{ "id": "cmpl-3b9a7f8a", "object": "text_completion", "created": 1689345678, "model": "Baichuan2-7B-Chat", "choices": [ { "text": "人工智能是指由人造系统所表现出来的智能行为...", "index": 0, "logprobs": null, "finish_reason": "length" } ], "usage": { "prompt_tokens": 10, "completion_tokens": 50, "total_tokens": 60 } }

5. 性能优化与常见问题

5.1 监控GPU使用情况

随时关注显存和计算资源使用情况很重要：

watch -n 1 nvidia-smi

在vLLM中，有几个关键参数可以调整性能：

--max-num-seqs: 控制并行处理的最大请求数（默认256）
--block-size: 注意力块大小（默认16）
--gpu-memory-utilization: GPU内存利用率（默认0.9）

5.2 常见错误排查

我在部署过程中遇到过几个典型问题：

CUDA内存不足：
- 解决方案：尝试减小--gpu-memory-utilization值（如0.8）
- 或者使用更小的模型/量化版本
模型加载失败：
- 确保--trust-remote-code参数已添加
- 检查模型路径是否正确
API响应慢：
- 增加--max-num-batched-tokens值（如2048）
- 考虑升级硬件配置

5.3 进阶配置

对于生产环境使用，建议启用连续批处理：

python -m vllm.entrypoints.openai.api_server \ --model /llm-model/Baichuan2-7B-Chat \ --max-num-batched-tokens 2048 \ --enforce-eager \ --enable-prefix-caching

如果需要在外部网络访问API，记得配置适当的防火墙规则和安全措施。

查看全文

http://www.jsqmd.com/news/696822/