当前位置：首页 > news >正文

在SCnet上部署70b int4的模型

news 2026/7/15 14:25:18

SCNet超算互联网，异构加速卡BW 显存64GB试用，海光的国产CPU（x86）+国产GPU（异构加速卡DPU

SCNet超算互联网，https://www.scnet.cn/home/internet/index.html，国家级别、，面向市场的算力服务

部署70B参数的INT4量化模型需要高性能硬件支持,NT4模型显存占用约为35-40GB。

一、创建模型

由于SCnet上没有关于70b int4的模型，所以我们采用外部模型仓库

现在主流的模型仓库包括hugging face和modelscope（但是hugging face访问外网有限制您可以下载到本地上到集群）所以我们采用modelscope

在模型仓库找到合适模型复制网址Meta-Llama-3.1-70B-Instruct-AWQ-INT4 · 模型库

最后创建模型即可

等待模型创建。。

出现以上界面说明创建成功

二、创建环境

点击“Notebook”，进入创建Notebook页面，选择区域、异构加速卡AI-64GB，开发镜像中的“基础镜像”，在选择列表中选择jupyterlab-pytorch:2.4.1-ubuntu22.04-dtk25.04.1-py3.10-devel 点击创建。

创建完成后，状态显示为”运行中“，自定义修改容器实例名称，点击快捷工具列的”JupyterLab“进入容器

进入容器，根据公告栏提示，将个人数据如模型文件、数据集等放在/root/private_data路径下。

查看基础镜像配置的vllm版本

以上就完成了基础环境的创建。

三、启动模型服务

启动脚本

python3 -m vllm.entrypoints.openai.api_server \ --model /public/home/acbquoy93n/SothisAI/model/ExternalSource/Meta-Llama-3.1-70B-Instruct-AWQ-INT4/main/Meta-Llama-3.1-70B-Instruct-AWQ-INT4 \ --host 0.0.0.0 --port 10304 \ --gpu-memory-utilization 0.8 \ --served-model-name Meta-Llama-3.1-70B-Instruct-AWQ-INT4 \ --dtype float16 \ --tensor-parallel-size 1 \ --max-model-len 5000 \ --trust-remote-code

注：--module xxxx/xxx 模型路径；
--served-model-name xxx 自定义的模型名称；
--port xxx 自定义服务端口号；
--gpu-memory-utilization xxx 指定vllm可使用当前dcu的显存比例;
--dtype xxx 指定模型数据类型；
--tensor-parallel-size xxx 设置张量并行的大小，即dcu的数量；
--max-model-len xxx 指定模型能够处理的最大输入长度；

等待模型加载

本地验证。

curl http://127.0.0.1:10304/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "Meta-Llama-3.1-70B-Instruct-AWQ-INT4","messages": [{"role": "user", "content": "请介绍下成都锦城学院，要求500字以内"}]}'

注：http://xxxx:port/v1/chat/completions , 其中xxx为localhost；
port 为自定义的端口号；
"model":"xxxxxx" ，为served-model-name 自定义的模型名；

四、将端口映射到公网

测试API调用

注：修改为实际的API

curl https://c-2058440394521022466.zzai2.scnet.cn:xxxx/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "Meta-Llama-3.1-70B-Instruct-AWQ-INT4","messages": [{"role": "user", "content": "请介绍下四川，要求500字以内"}]}'

查看全文

http://www.jsqmd.com/news/883695/