在SCnet上部署70b int4的模型
SCNet超算互联网,异构加速卡BW 显存64GB试用,海光的国产CPU(x86)+国产GPU(异构加速卡DPU
SCNet超算互联网,https://www.scnet.cn/home/internet/index.html,国家级别、,面向市场的算力服务
部署70B参数的INT4量化模型需要高性能硬件支持,NT4模型显存占用约为35-40GB。
一、创建模型
由于SCnet上没有关于70b int4的模型,所以我们采用外部模型仓库
现在主流的模型仓库包括hugging face和modelscope(但是hugging face访问外网有限制您可以下载到本地上到集群)所以我们采用modelscope
在模型仓库找到合适模型复制网址Meta-Llama-3.1-70B-Instruct-AWQ-INT4 · 模型库
最后创建模型即可
等待模型创建。。
出现以上界面说明创建成功
二、创建环境
点击“Notebook”,进入创建Notebook页面,选择区域、异构加速卡AI-64GB,开发镜像中的“基础镜像”,在选择列表中选择jupyterlab-pytorch:2.4.1-ubuntu22.04-dtk25.04.1-py3.10-devel 点击创建。
创建完成后,状态显示为”运行中“,自定义修改容器实例名称,点击快捷工具列的”JupyterLab“进入容器
进入容器,根据公告栏提示,将个人数据如模型文件、数据集等放在/root/private_data路径下。
查看基础镜像配置的vllm版本
以上就完成了基础环境的创建。
三、启动模型服务
启动脚本
python3 -m vllm.entrypoints.openai.api_server \ --model /public/home/acbquoy93n/SothisAI/model/ExternalSource/Meta-Llama-3.1-70B-Instruct-AWQ-INT4/main/Meta-Llama-3.1-70B-Instruct-AWQ-INT4 \ --host 0.0.0.0 --port 10304 \ --gpu-memory-utilization 0.8 \ --served-model-name Meta-Llama-3.1-70B-Instruct-AWQ-INT4 \ --dtype float16 \ --tensor-parallel-size 1 \ --max-model-len 5000 \ --trust-remote-code注:--module xxxx/xxx 模型路径 ;
--served-model-name xxx 自定义的模型名称 ;
--port xxx 自定义服务端口号;
--gpu-memory-utilization xxx 指定vllm可使用当前dcu的显存比例;
--dtype xxx 指定模型数据类型 ;
--tensor-parallel-size xxx 设置张量并行的大小,即dcu的数量;
--max-model-len xxx 指定模型能够处理的最大输入长度;
等待模型加载
本地验证。
curl http://127.0.0.1:10304/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "Meta-Llama-3.1-70B-Instruct-AWQ-INT4","messages": [{"role": "user", "content": "请介绍下成都锦城学院,要求500字以内"}]}'注:http://xxxx:port/v1/chat/completions , 其中xxx为localhost;
port 为自定义的端口号;
"model":"xxxxxx" ,为served-model-name 自定义的模型名;
四、将端口映射到公网
测试API调用
注:修改为实际的API
curl https://c-2058440394521022466.zzai2.scnet.cn:xxxx/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "Meta-Llama-3.1-70B-Instruct-AWQ-INT4","messages": [{"role": "user", "content": "请介绍下四川,要求500字以内"}]}'