当前位置: 首页 > news >正文

Linux 或者 Ubuntu 离线使用 vllm启动大模型

使用vllm启动QWQ-32B的命令

完整的命令如下

python-mvllm.entrypoints.openai.api_server\--model/root/.cache/modelscope/hub/models/Qwen/QwQ-32B\--tensor-parallel-size4\--host0.0.0.0\--port8000\--max-num-batched-tokens2048\--gpu-memory-utilization0.85\--hosted-model-name QwQ-32B

参数详解

1.python -m vllm.entrypoints.openai.api_server
  • 启动的是vLLM 的 OpenAI API 兼容服务器
  • 这个服务器对外提供与 OpenAI API 类似的接口(如/v1/chat/completions
  • 可以用curl、Python SDK 或前端调用,兼容 OpenAI 格式请求

2.--model /root/.cache/modelscope/hub/models/Qwen/QwQ-32B
  • 指定要加载的模型路径
  • 这里是本地存储的QwQ-32B模型,通常是一个 HuggingFace 风格的模型文件夹
  • 支持 GGUF、HuggingFace、以及经过 vLLM 转换后的张量并行模型

3.--tensor-parallel-size 4
  • 表示使用4 块 GPU来进行Tensor Parallelism(张量并行)
  • QwQ-32B 是一个大模型,单卡放不下,所以需要拆分到多个 GPU 上推理
  • 如果你有 4 张卡,这个设置合理;如果只有 1 张卡,就设为--tensor-parallel-size 1

4.--host 0.0.0.0
  • 设置监听地址为所有网络接口
  • 这样可以从外部访问该服务(比如从其他机器通过 IP 访问)
  • 如果只想本机访问,可以改为--host 127.0.0.1

5.--port 8000
  • 设置服务监听的端口号为8000
  • 可以通过浏览器或 API 请求访问:http://localhost:8000http://<ip>:8000

6.--max-num-batched-tokens 2048
  • 控制每次 batch 中最多处理多少个 token(输入 + 输出)
  • 增大这个值可以提高吞吐量,但会占用更多显存
  • 默认值通常是 2560 左右,这里设为 2048 是为了控制显存使用

7.--gpu-memory-utilization 0.85
  • 设置 GPU 显存使用率为 85%
  • 这是为了防止 OOM(Out Of Memory),留出一部分缓冲空间
  • 默认值是0.9,如果你的显存较小,可以适当降低(如 0.7)

8.--hosted-model-name QwQ-32B

它表示:虽然模型实际路径是 /root/.cache/…,但对外暴露的模型名是 QwQ-32B


要让MODEL_NAME = "QwQ-32B"成功调用你的本地模型,你需要在启动 vLLM 服务时加上一个参数::

--hosted-model-name QwQ-32B\# 也就是--host0.0.0.0\--port8000\--model/root/.cache/modelscope/hub/models/Qwen/QwQ-32B\--hosted-model-name QwQ-32B\

它表示:虽然模型实际路径是/root/.cache/...,但对外暴露的模型名是QwQ-32B

示例请求(使用 curl)

可以使用如下命令测试服务是否正常运行:

curlhttp://localhost:8000/v1/chat/completions\-H"Content-Type: application/json"\-d'{ "model": "QwQ-32B", "messages": [{"role": "user", "content": "讲个笑话吧"}] }'

示例请求代码(使用python)

importopenai client=openai.OpenAI(base_url="http://localhost:8000/v1",api_key="EMPTY"# 如果没有启用鉴权,可以为空)completion=client.chat.completions.create(model="QwQ-32B",# ← 这里就能用了!messages=[{"role":"user","content":"你好,请讲个笑话。"}])print(completion.choices[0].message.content)
http://www.jsqmd.com/news/611818/

相关文章:

  • 圣女司幼幽-造相Z-Turbo入门指南:Gradio界面功能详解——正向提示词/采样步数/CFG权重
  • MES上线之后,为什么生产还是一团乱
  • 2026年主流面霜综合评测:六款高端产品实力解析,助你精准选择
  • PaddlePaddle-v3.3镜像测评:开箱即用的深度学习平台,到底有多方便?
  • 京城邮票回收乱象频发!藏家避坑指南:认准丰宝斋,童叟无欺上门服务获盛赞 - 品牌排行榜单
  • 简明教程:实现OpenCLaw轻量级应用服务器部署及Ollama大模型本地化诙
  • 【JAVA基础面经】== 和 equals() 的区别
  • G-Helper开源工具深度评测:轻量级华硕笔记本性能管理解决方案
  • 从0到1搞懂TQM:TQM才是解决质量问题的底层逻辑
  • Qwen3.5-9B-AWQ-4bit集成IDEA开发环境:Java后端智能代码补全插件实战
  • Realistic Vision V5.1本地AI摄影棚:解除安全拦截后的自然表情与微表情生成
  • MedGemma X-Ray快速体验:上传图片提问,AI自动生成影像分析报告
  • OFA模型数据库课程设计案例:构建智能图像检索系统
  • LightOnOCR-2-1B OCR模型解释性:Grad-CAM可视化关键图像区域识别依据
  • Arduino Uno R3面包板点灯保姆级教程:从元器件清单到代码烧录,一次搞定所有常见报错
  • 华为OD机考双机位C卷 - 滑动窗口最大和 (Java)
  • JSP 动作标签:动态包含、请求转发与登录跳转实战
  • Wan2.2-I2V-A14B与目标检测联动:基于YOLOv5结果的动态视频生成
  • CogVideoX-2b实战落地:中小企业低成本视频制作新路径
  • Intv_ai_mk11算法原理浅析:理解其背后的对话生成机制
  • 雯雯的后宫-造相Z-Image-瑜伽女孩效果展示:同一提示词在不同采样器(DPM++/Euler)下的差异对比
  • mysqlworkbench连接不上,非降级解决方法
  • 黑丝空姐-造相Z-Turbo与内网穿透:安全访问公司内部部署的模型服务
  • 小白必看!lite-avatar形象库保姆级教程:一键部署150+数字人
  • Streamlit+SDXL轻量部署:软萌拆拆屋镜像免配置快速上手指南
  • 使元素横向排列的方法
  • 别再手动合并Excel了!用EasyExcel自定义策略搞定复杂报表导出(附完整代码)
  • 零基础部署Phi-4-mini推理模型:5分钟搞定数学解题AI助手
  • 约束域图灵测试:在硬边界中识别语言模拟器与规则理解者
  • 如何轻松实现大润发购物卡回收变现?最全指南教你秒懂 - 团团收购物卡回收