当前位置: 首页 > news >正文

单机单卡部署

目录
  • 使用官方AWQ量化后的模型部署
    • 1️⃣ 问题背景
    • 2️⃣ --model Qwen/Qwen-14B-AWQ
    • 3️⃣ --quantization awq
    • 4️⃣ 总结逻辑
  • BitsAndBytes 量化后部署脚本
    • 1️⃣ 你需要做的修改
      • ✅ 修改点:
    • 2️⃣ 补充说明
    • 3️⃣ 总结

使用官方AWQ量化后的模型部署

export HUGGINGFACE_HUB_TOKEN="你的token"
export CUDA_VISIBLE_DEVICES=0python -m vllm.entrypoints.openai.api_server \--model Qwen/Qwen-14B-AWQ \--dtype float16 \--max-model-len 8192 \--gpu-memory-utilization 0.9 \--quantization awq

明白,你想弄清楚这两个参数 到底是解决什么问题,我来系统讲清楚,并把 vLLM 场景下的逻辑梳理出来。


1️⃣ 问题背景

Qwen-14B 这样的大模型:

  • FP16 权重 → 单卡 24GB 显存可能够,但:

    • KV Cache 在推理时也占用大量显存
    • 多并发 / 长上下文 时显存不足
  • FP32 权重 → 显存几乎肯定不够单卡加载

  • 如果不量化:

    • 推理显存大
    • 并发吞吐低
    • GPU 利用率可能不高

所以要解决的核心问题是:

“如何在单卡或有限显存下高吞吐、长上下文推理大模型”


2️⃣ --model Qwen/Qwen-14B-AWQ

  • 作用:告诉 vLLM 使用 官方 AWQ 量化权重

  • 解决的问题

    1. 显存占用大 → AWQ 权重是 8bit,显存比 FP16 少一半
    2. 推理速度慢 → AWQ 权重经过激活感知优化,GPU kernel 可以高速运算
    3. 精度损失大 → AWQ 专门优化量化误差,精度接近 FP16
  • 简单说:让 vLLM 能在有限显存上高吞吐推理大模型


3️⃣ --quantization awq

  • 作用:告诉 vLLM 加载权重时采用 AWQ 量化解码方式

  • 解决的问题

    1. vLLM 默认加载 FP16/FP32 权重 → 显存占用高

    2. 即使权重是 AWQ 模型,没有这个参数 vLLM 可能不会按 8bit kernel 优化执行

    3. 这个参数保证:

      • KV Cache 量化
      • 前向计算使用低精度 kernel
      • 批量请求连续 batching 高效

核心:解决的是显存占用和推理吞吐效率问题,而不是微调或训练问题。


4️⃣ 总结逻辑

参数 作用 解决问题
--model Qwen/Qwen-14B-AWQ 使用官方 AWQ 量化权重 减少模型显存占用、保证精度、支持大模型加载
--quantization awq 用 AWQ kernel 方式加载权重 KV cache 也量化、推理更快、更省显存、支持高吞吐 batching

一句话理解
这两个参数组合起来,就是为了解决“单卡显存有限,但要高吞吐推理大模型”的问题。

BitsAndBytes 量化后部署脚本

--model Qwen/Qwen-14B-AWQ + --quantization awq 是专门针对官方 AWQ 权重的
如果你自己用 BitsAndBytes 做的 8bit 权重,这个参数就不适用


1️⃣ 你需要做的修改

假设你用 BitsAndBytes 做了 LoRA 微调或单独量化,保存路径在 ./lora_8bit_qwen14b,那么 vLLM 启动命令改成:

export HUGGINGFACE_HUB_TOKEN="你的token"
export CUDA_VISIBLE_DEVICES=0python -m vllm.entrypoints.openai.api_server \--model ./lora_8bit_qwen14b \--dtype float16 \--max-model-len 8192 \--gpu-memory-utilization 0.9

✅ 修改点:

  1. --model改成你本地量化后的模型路径

    • 不再指向官方 AWQ 权重
  2. 移除 --quantization awq

    • 这是 vLLM 只识别官方 AWQ 权重的参数
    • 你自己量化的权重 BitsAndBytes 不需要,也不能用这个参数
  3. dtype=float16 可以保留

    • 因为 BitsAndBytes 8bit 权重也兼容 FP16 计算

2️⃣ 补充说明

  • 连续 batching / KV Cache

    • 官方 AWQ 权重 + --quantization awq 会对 KV Cache 做 8bit 优化
    • 你自己 BitsAndBytes 量化的权重,KV Cache 默认还是 FP16
    • 所以吞吐可能比官方 AWQ 稍低,但仍比原 FP16 显存节省明显
  • Hugging Face Token

    • 如果你的量化模型保存在本地路径(./lora_8bit_qwen14b),并且不是私有 repo,可以不用 HUGGINGFACE_HUB_TOKEN
    • 只有下载官方模型或私有 repo 时才需要
  • LoRA 微调

    • 如果你微调后的模型保存了 LoRA adapter,也可以直接加载,vLLM 会自动处理

3️⃣ 总结

使用 BitsAndBytes 自己量化的模型,启动 vLLM 的核心变化:

  1. --model 指向本地量化路径
  2. 去掉 --quantization awq
  3. 保留其他参数(dtype, max-model-len, gpu-memory-utilization

如果你愿意,我可以帮你写一个 完整 vLLM shell 脚本模板,支持:

  • 本地 BitsAndBytes 8bit 权重
  • LoRA 微调权重加载
  • 后台启动 + 日志
  • GPU 显存占用控制

这样你直接运行就能压测吞吐。

你希望我直接写吗?

http://www.jsqmd.com/news/268492/

相关文章:

  • Redis 性能问题全解析:90% 的人都把活干错了地方
  • 新疆维吾尔族自治区乌鲁木齐英语雅思辅导机构推荐,2026权威出国雅思课程中心学校口碑排行榜 - 老周说教育
  • PW6606 PD Sink受电端快充协议芯片,大幅减少外围元件数量
  • AI开发者必读:Qwen2.5开源模型支持多语言推理的落地实践
  • 2026 年 1 月推荐,中国 AI 智能体获客靠谱老师谁最专业?麟哥不值得优先选?
  • α-MSH (free acid) (Acetyl-ACTH (1-13)) ;Ac-Ser-Tyr-Ser-Met-Glu-His-Phe-Arg-Trp-Gly-Lys-Pro-Val
  • α-MSH (11-13) ;Lys-Pro-Val-NH2
  • α-Helical CRF (9-41) (CRF antagonist) ;H-DLTFHLLREMLEMAKAEQEAEQAALNRLLLEE A-NH₂
  • 厉害了!中科院2区权威顶刊,投稿量激增18000+!
  • ARIMA与SARIMA:时间序列预测的经典基石
  • α-Neoendorphin (1-6) (Leu-Enkephalin-Arg, Dynorphin A (1-6));Tyr-Gly-Gly-Phe-Leu-Arg
  • 智能水控四大优势,改写多场景用水管理格局:精准计量+智能调控!
  • 小程序毕设选题推荐:基于小程序的高校校友会在线交流管理系统基于springboot+小程序的高校学院校友会系统【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 单片机超市RFID射频安全防盗报警系统+GSM上报设计(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 太阳总辐射传感器:能源、气象领域的关键测量工具
  • 救大命!Legion Go 外接屏变竖屏?两步快速恢复横屏显示!
  • 联想百应账号注销指南:小程序 + PC 端分步操作,这些注意事项必看!
  • 基于MATLAB的球轴承拟静力学计算实现
  • 小程序毕设项目推荐-基于nodejs+微信小程序的垃圾分类管理、垃圾知识管理垃圾分类和回收系统【附源码+文档,调试定制服务】
  • 兽医影像自适应特征选择误诊率直降
  • 联想设备相机异常?台式 / 笔记本 / ThinkPad 通用排查指南来了!
  • 只投影竖直条纹的话,在双目中可以利用极线约束来求解全局相位
  • 手搓HTML模板引擎:比Jinja2快3倍的動態頁面生成器
  • 阅读理解【牛客tracker 每日一题】
  • 深度学习框架YOLOV8模型如何训练苹果小目标检测数据集 建立基于YOLOV8深度学习框架苹果小目标检测系统
  • 小程序毕设项目推荐-基于Java语言开发的微信小程序校友交流与信息管理平台springboot+小程序的高校学院校友会系统【附源码+文档,调试定制服务】
  • 深入解析:一些大模型算法的面试QA
  • STM32单片机车辆刷卡充电充值扣费管理系统135(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • GESP认证C++编程真题解析 | 202403 四级
  • 闲置物美超市卡回收有妙招 - 京顺回收