当前位置：首页 > news >正文

vLLM模型脚本目录规范

news 2026/3/27 2:21:44

- 一、通用结论（直接可用）
大模型存放的目录
模型下载目录：这是最重要的点
- - 1️⃣ HuggingFace 默认行为（不推荐长期用）
  - 2️⃣ 正确做法：显式指定模型目录（强烈推荐）
    - 方法一：设置环境变量（最常用）
    - 方法二：直接指定模型路径（vLLM 最推荐）
- 四、vLLM 部署脚本一般放哪里？
  - 推荐：专门一个 scripts 目录
- 七、给你一个“最小可执行”实践流程（照着做）

一、通用结论（直接可用）

代码和环境放 HOME，模型和数据放 /data，缓存显式指定，脚本集中管理。
推荐在 /opt 或 /data 下做 vLLM 部署，在用户 HOME 下只放代码与虚拟环境

模型（大文件） → /data/models
vLLM 服务 / 脚本 → /opt/vllm 或 ~/vllm
虚拟环境 → 与代码同级
日志 / benchmark → /data/logs

大模型存放的目录


/data├── models/                     # ⭐ 所有大模型权重（重点）│    ├── Qwen2.5-14B/│    ├── Qwen2.5-7B/│    └── Llama-3-8B/│├── hf/                         # HuggingFace 缓存│    ├── hub/│    └── transformers/│├── logs/│    └── vllm/│         ├── serve/│         └── benchmark/│└── benchmarks/                 # 吞吐/延迟测试结果

/opt└── vllm/├── vllm-env/          # python venv├── scripts/│    ├── serve.sh│    ├── benchmark.sh│    └── env.sh├── config/│    └── qwen14b.yaml└── README.md

如果你没有 /opt 权限（AutoDL 很常见）：

/home/your_user/└── vllm/├── vllm-env/├── scripts/└── config/

模型下载目录：这是最重要的点

1️⃣ HuggingFace 默认行为（不推荐长期用）

~/.cache/huggingface/hub/

问题：

HOME 爆盘
不好管理
多用户/多实验混乱

2️⃣ 正确做法：显式指定模型目录（强烈推荐）

方法一：设置环境变量（最常用）

export HF_HOME=/data/hf
export TRANSFORMERS_CACHE=/data/hf/transformers
export HF_HUB_CACHE=/data/hf/hub

然后模型会下载到：

/data/hf/hub/models--Qwen--Qwen2.5-14B

方法二：直接指定模型路径（vLLM 最推荐）

vllm serve /data/models/Qwen2.5-14B \--tensor-parallel-size 1

你可以先手动下载：

huggingface-cli download Qwen/Qwen2.5-14B \--local-dir /data/models/Qwen2.5-14B \--local-dir-use-symlinks False

四、vLLM 部署脚本一般放哪里？

推荐：专门一个 scripts 目录

vllm/├── scripts/│    ├── serve_qwen14b.sh│    ├── serve_qwen7b.sh│    ├── benchmark.sh

示例 serve_qwen14b.sh：

#!/bin/bashsource ../vllm-env/bin/activateexport CUDA_VISIBLE_DEVICES=0
export HF_HOME=/data/hfvllm serve /data/models/Qwen2.5-14B \--dtype float16 \--max-model-len 8192 \--gpu-memory-utilization 0.9 \--port 8000

七、给你一个“最小可执行”实践流程（照着做）

# 1. 创建目录
mkdir -p /data/models
mkdir -p ~/vllm/scripts# 2. 创建虚拟环境
cd ~/vllm
python3 -m venv vllm-env
source vllm-env/bin/activate
pip install vllm torch# 3. 下载模型
huggingface-cli download Qwen/Qwen2.5-14B \--local-dir /data/models/Qwen2.5-14B \--local-dir-use-symlinks False# 4. 启动
vllm serve /data/models/Qwen2.5-14B

查看全文

http://www.jsqmd.com/news/267754/