当前位置：首页 > news >正文

【大模型推理】vllm 源码安装

news 2026/7/4 23:47:14

vLLM 源码安装指南

前置要求

操作系统: Linux
Python: 3.10 - 3.13
GPU: NVIDIA GPU，计算能力 7.0 或更高 (如 V100, T4, RTX20xx, A100, L4, H100 等)

安装方法

方法一：Python-only 构建（仅修改 Python 代码，无需编译）

如果你只需要修改 Python 代码，可以使用预编译的 wheel，速度最快：

cd/home/admin/workspace/aop_lab/app_source/code/public/vllmVLLM_USE_PRECOMPILED=1pipinstall--editable.

方法二：完整构建（包含 C++/CUDA 编译）

如果需要修改 C++ 或 CUDA 代码，需要完整编译：

cd/home/admin/workspace/aop_lab/app_source/code/public/vllm pipinstall-e.

加速编译技巧：安装ccache可以大幅加速后续编译：

# 安装 ccachepipinstallccache# 或 apt install ccache# 然后编译CCACHE_NOHASHDIR="true"pipinstall--no-build-isolation-e.

限制编译并行数（防止内存不足）：

exportMAX_JOBS=4pipinstall-e.

方法三：使用已有的 PyTorch 安装

如果你已经安装了特定版本的 PyTorch：

cd/home/admin/workspace/aop_lab/app_source/code/public/vllm python use_existing_torch.py pipinstall-rrequirements/build.txt pipinstall--no-build-isolation-e.

注意事项

CUDA Toolkit: 确保安装了完整的 CUDA Toolkit，并设置环境变量：
```
exportCUDA_HOME=/usr/local/cudaexportPATH="${CUDA_HOME}/bin:$PATH"
```
验证 CUDA 安装：
```
nvcc--version
```
编译时间: 完整构建可能需要几分钟到十几分钟，取决于机器性能。

HuggingFace 镜像配置（国内用户）

由于国内网络访问 HuggingFace 可能较慢，建议配置镜像：

exportHF_ENDPOINT=https://hf-mirror.com

安装验证

验证安装版本

python3-c"import vllm; print(f'vLLM 版本: {vllm.__version__}')"

验证核心模块

python3-c" from vllm import LLM, SamplingParams import vllm.engine import vllm.model_executor print('所有核心模块加载成功！') "

推理测试

fromvllmimportLLM,SamplingParams# 加载模型llm=LLM(model='facebook/opt-125m',trust_remote_code=True)# 设置采样参数sampling_params=SamplingParams(temperature=0.7,top_p=0.95,max_tokens=20)# 执行推理outputs=llm.generate(['Hello, my name is'],sampling_params)# 打印结果foroutputinoutputs:prompt=output.prompt generated_text=output.outputs[0].textprint(f'提示:{prompt}')print(f'生成:{generated_text}')

测试结果

项目	结果
版本	`0.16.1rc1.dev52+g6467b635b`
模型加载	✅ 成功
推理执行	✅ 成功
模型内存占用	0.24 GiB
KV 缓存	84.37 GiB 可用
推理速度	输入 47.16 toks/s, 输出 157.17 toks/s