当前位置: 首页 > news >正文

vLLM模型脚本目录规范

目录
    • 一、通用结论(直接可用)
  • 大模型存放的目录
  • 模型下载目录:这是最重要的点
      • 1️⃣ HuggingFace 默认行为(不推荐长期用)
      • 2️⃣ 正确做法:显式指定模型目录(强烈推荐)
        • 方法一:设置环境变量(最常用)
        • 方法二:直接指定模型路径(vLLM 最推荐)
    • 四、vLLM 部署脚本一般放哪里?
      • 推荐:专门一个 scripts 目录
    • 七、给你一个“最小可执行”实践流程(照着做)

一、通用结论(直接可用)

代码和环境放 HOME,模型和数据放 /data,缓存显式指定,脚本集中管理。
推荐在 /opt/data 下做 vLLM 部署,在用户 HOME 下只放代码与虚拟环境

  • 模型(大文件)/data/models
  • vLLM 服务 / 脚本/opt/vllm~/vllm
  • 虚拟环境 → 与代码同级
  • 日志 / benchmark/data/logs

大模型存放的目录


/data├── models/                     # ⭐ 所有大模型权重(重点)│    ├── Qwen2.5-14B/│    ├── Qwen2.5-7B/│    └── Llama-3-8B/│├── hf/                         # HuggingFace 缓存│    ├── hub/│    └── transformers/│├── logs/│    └── vllm/│         ├── serve/│         └── benchmark/│└── benchmarks/                 # 吞吐/延迟测试结果
/opt└── vllm/├── vllm-env/          # python venv├── scripts/│    ├── serve.sh│    ├── benchmark.sh│    └── env.sh├── config/│    └── qwen14b.yaml└── README.md

如果你没有 /opt 权限(AutoDL 很常见):

/home/your_user/└── vllm/├── vllm-env/├── scripts/└── config/

模型下载目录:这是最重要的点

1️⃣ HuggingFace 默认行为(不推荐长期用)

~/.cache/huggingface/hub/

问题:

  • HOME 爆盘
  • 不好管理
  • 多用户/多实验混乱

2️⃣ 正确做法:显式指定模型目录(强烈推荐)

方法一:设置环境变量(最常用)

export HF_HOME=/data/hf
export TRANSFORMERS_CACHE=/data/hf/transformers
export HF_HUB_CACHE=/data/hf/hub

然后模型会下载到:

/data/hf/hub/models--Qwen--Qwen2.5-14B

方法二:直接指定模型路径(vLLM 最推荐)

vllm serve /data/models/Qwen2.5-14B \--tensor-parallel-size 1

你可以先手动下载:

huggingface-cli download Qwen/Qwen2.5-14B \--local-dir /data/models/Qwen2.5-14B \--local-dir-use-symlinks False

四、vLLM 部署脚本一般放哪里?

推荐:专门一个 scripts 目录

vllm/├── scripts/│    ├── serve_qwen14b.sh│    ├── serve_qwen7b.sh│    ├── benchmark.sh

示例 serve_qwen14b.sh

#!/bin/bashsource ../vllm-env/bin/activateexport CUDA_VISIBLE_DEVICES=0
export HF_HOME=/data/hfvllm serve /data/models/Qwen2.5-14B \--dtype float16 \--max-model-len 8192 \--gpu-memory-utilization 0.9 \--port 8000

七、给你一个“最小可执行”实践流程(照着做)

# 1. 创建目录
mkdir -p /data/models
mkdir -p ~/vllm/scripts# 2. 创建虚拟环境
cd ~/vllm
python3 -m venv vllm-env
source vllm-env/bin/activate
pip install vllm torch# 3. 下载模型
huggingface-cli download Qwen/Qwen2.5-14B \--local-dir /data/models/Qwen2.5-14B \--local-dir-use-symlinks False# 4. 启动
vllm serve /data/models/Qwen2.5-14B

http://www.jsqmd.com/news/267754/

相关文章:

  • 基于51/STM32单片机交流直流电压电流电表功率电量过载抄表无线设计(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 2026年AI搜索优化推荐:基于垂直行业实战排名,涵盖B2B与消费场景获客痛点 - 十大品牌推荐
  • 黄金票据是什么
  • STM32智能PID无刷电机PWM调速正反转设计(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • USB口OVP过压保护芯片
  • STM32单片机心率血氧血压温度检测082X(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 2026年自学网络安全入门教程(非常详细)从零基础入门到精通,看完这一篇就够了
  • 2026年背胶魔术贴厂家最新推荐:切片魔术贴、家居用魔术贴、射出钩魔术贴、纱网魔术贴、背靠背魔术贴、防蚊类魔术贴选择指南 - 优质品牌商家
  • OPC全流程AI agents
  • 基于AI智能化+Web的智能在线考试与自动评分系统的设计与实现(毕业设计源码+论文+精美PPT)
  • STM32单片机车载CAN总线通信系统159(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • OPC全流程AI agents组合参考介绍
  • 基于STM32水位检测PID控制系统APP设计183(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 详解Agent Skills:让AI拥有更多专业能力(什么是Agent Skills?如何创建?如何使用?如何获取?)
  • 基于51单片机智能电表插座交流电压流Proteus仿真资料设计24-392(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 基于AI+数据可视化分析+PHP的智能宠物商城系统的设计与开发(毕业设计源码+论文+精美PPT)
  • 基于51/STM32单片机锂电池蓄电池充电容量过充过压保护无线设计(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 基于AI功能+Vue的青湖社区健康管理系统设计与实现(毕业设计源码+论文+精美PPT)
  • Deepoc具身模型开发板:发动机智能化的技术底座
  • 基于数据可视化分析的汽车养护系统设计与实现(毕业设计源码+论文+精美PPT)
  • 低误差率、高性能、符合审计要求的金融数据库审计和监测最佳实践指南
  • 车辆经济性MATLAB计算程序
  • cy5.5-Maltosyl-Glucose,cy5.5-麦芽糖-葡萄糖,荧光特性
  • Python网页自动化操作全攻略:从入门到实战
  • 基于AI分析+Spring Boot的房产交易系统设计与实现(毕业设计源码+论文+精美PPT)
  • cy5.5-Fructose-6-phosphate,cy5.5-果糖-6-磷酸
  • 基于AI功能+大数据可视化分析+Spark的买菜推荐系统设计与实现(毕业设计源码+论文+精美PPT)
  • linux简版启动,关闭jar命令
  • 基于AI功能+Node.js+微信小程序的大众点评美食系统(程序系统+论文+PPT)
  • HarmonyOS NEXT(鸿蒙)基础知识