当前位置: 首页 > news >正文

【大模型推理】vllm 源码安装

vLLM 源码安装指南

前置要求

  • 操作系统: Linux
  • Python: 3.10 - 3.13
  • GPU: NVIDIA GPU,计算能力 7.0 或更高 (如 V100, T4, RTX20xx, A100, L4, H100 等)

安装方法

方法一:Python-only 构建(仅修改 Python 代码,无需编译)

如果你只需要修改 Python 代码,可以使用预编译的 wheel,速度最快:

cd/home/admin/workspace/aop_lab/app_source/code/public/vllmVLLM_USE_PRECOMPILED=1pipinstall--editable.

方法二:完整构建(包含 C++/CUDA 编译)

如果需要修改 C++ 或 CUDA 代码,需要完整编译:

cd/home/admin/workspace/aop_lab/app_source/code/public/vllm pipinstall-e.

加速编译技巧:安装ccache可以大幅加速后续编译:

# 安装 ccachepipinstallccache# 或 apt install ccache# 然后编译CCACHE_NOHASHDIR="true"pipinstall--no-build-isolation-e.

限制编译并行数(防止内存不足):

exportMAX_JOBS=4pipinstall-e.

方法三:使用已有的 PyTorch 安装

如果你已经安装了特定版本的 PyTorch:

cd/home/admin/workspace/aop_lab/app_source/code/public/vllm python use_existing_torch.py pipinstall-rrequirements/build.txt pipinstall--no-build-isolation-e.

注意事项

  1. CUDA Toolkit: 确保安装了完整的 CUDA Toolkit,并设置环境变量:

    exportCUDA_HOME=/usr/local/cudaexportPATH="${CUDA_HOME}/bin:$PATH"
  2. 验证 CUDA 安装

    nvcc--version
  3. 编译时间: 完整构建可能需要几分钟到十几分钟,取决于机器性能。


HuggingFace 镜像配置(国内用户)

由于国内网络访问 HuggingFace 可能较慢,建议配置镜像:

exportHF_ENDPOINT=https://hf-mirror.com

安装验证

验证安装版本

python3-c"import vllm; print(f'vLLM 版本: {vllm.__version__}')"

验证核心模块

python3-c" from vllm import LLM, SamplingParams import vllm.engine import vllm.model_executor print('所有核心模块加载成功!') "

推理测试

fromvllmimportLLM,SamplingParams# 加载模型llm=LLM(model='facebook/opt-125m',trust_remote_code=True)# 设置采样参数sampling_params=SamplingParams(temperature=0.7,top_p=0.95,max_tokens=20)# 执行推理outputs=llm.generate(['Hello, my name is'],sampling_params)# 打印结果foroutputinoutputs:prompt=output.prompt generated_text=output.outputs[0].textprint(f'提示:{prompt}')print(f'生成:{generated_text}')

测试结果

项目结果
版本0.16.1rc1.dev52+g6467b635b
模型加载✅ 成功
推理执行✅ 成功
模型内存占用0.24 GiB
KV 缓存84.37 GiB 可用
推理速度输入 47.16 toks/s, 输出 157.17 toks/s

参考文档

  • vLLM 官方文档
  • GPU 安装指南
  • 从源码构建
http://www.jsqmd.com/news/470544/

相关文章:

  • 无声的侦察:内网发现与拓oping测绘实战,在不触发流量告警的前提下识别核心资产
  • 瑞祥商联卡如何回收最划算?必知的实用渠道推荐 - 团团收购物卡回收
  • RAG技术全解析:如何让大模型告别幻觉,实现精准问答?
  • leetcode-hot100-子串:560和为 K 的子数组-239滑动窗口最大值-76最小覆盖子串
  • 半夜两点被猫主子踩醒的铲屎官们,应该都幻想过有个自动投喂机吧?今天咱们用51单片机做个丐版自动喂食器,别看电路简单,该有的功能一样不少
  • 想在温州学美发?2026可靠培训机构排行来了,市场美发培训蒂梵化妆培训学校满足多元需求 - 品牌推荐师
  • 国产根系分析仪品牌盘点:2026年实力厂家与产品布局 - 品牌推荐大师
  • EKF+在线辨识dq轴电感+SIMULINK+SVPWM+PMSM 适用于spmsm和ipmsm
  • 2026婴儿床行业报告:品牌质量排行榜单,从甲醛含量到护脊硬度,五大国产品质之选
  • dify中导入excel进知识库应该怎么选
  • 质粒转染实验流程 中科世康生物
  • FreeRtos——20、任务栈大小确认以及栈溢出与检测
  • COMSOL压电横波检测裂纹:楔块为亚克力塑料,PZT-5H压电片自发自收检测模型
  • ai驱动的黑盒web扫描器欢迎补充
  • ERP上线前一晚,项目组必做的最后检查清单
  • 黄金短期上涨势头不佳受什么因素影响?
  • 2026年口碑好的网版工厂推荐:丝印网版/印刷网版/钢丝网网版源头工厂推荐 - 行业平台推荐
  • Flume01:大数据日志收集与传输利器
  • 初学算法打卡第一天:入门 DP问题
  • vue表格数据分组后如何同时实现筛选功能
  • 仿muduo库实现高并发服务器---线程池模块Eventloop的实现
  • CCP基本命令—选择标定数据页、获取DAQ列表大小
  • 导入Rsoft接口库
  • 网络通信与 TCP/IP 五层协议模型详解
  • 2026年质量好的异性拉伸件公司推荐:五金拉伸件生产厂家推荐几家 - 行业平台推荐
  • No.103.基于博途的PLC三种模式通行时间可调的复杂路口交通灯程序设计与仿真,带登录系统登...
  • 2026年比较好的食品生产线公司推荐:麦片生产线/糖果生产线/复合薯片生产线值得信赖的生产厂家 - 行业平台推荐
  • java基于springboot的毕业生招聘职位推荐系统设计
  • java关键字之final学习
  • 基于Vue.js的电商前端模板:Vue-Dashboard-Template的设计与实现