当前位置: 首页 > news >正文

在SCnet上部署70b int4的模型

SCNet超算互联网,异构加速卡BW 显存64GB试用,海光的国产CPU(x86)+国产GPU(异构加速卡DPU

SCNet超算互联网,https://www.scnet.cn/home/internet/index.html,国家级别、,面向市场的算力服务

部署70B参数的INT4量化模型需要高性能硬件支持,NT4模型显存占用约为35-40GB。

一、创建模型

由于SCnet上没有关于70b int4的模型,所以我们采用外部模型仓库

现在主流的模型仓库包括hugging face和modelscope(但是hugging face访问外网有限制您可以下载到本地上到集群)所以我们采用modelscope

在模型仓库找到合适模型复制网址Meta-Llama-3.1-70B-Instruct-AWQ-INT4 · 模型库

最后创建模型即可

等待模型创建。。

出现以上界面说明创建成功

二、创建环境

点击“Notebook”,进入创建Notebook页面,选择区域、异构加速卡AI-64GB,开发镜像中的“基础镜像”,在选择列表中选择jupyterlab-pytorch:2.4.1-ubuntu22.04-dtk25.04.1-py3.10-devel 点击创建。

创建完成后,状态显示为”运行中“,自定义修改容器实例名称,点击快捷工具列的”JupyterLab“进入容器

进入容器,根据公告栏提示,将个人数据如模型文件、数据集等放在/root/private_data路径下。

查看基础镜像配置的vllm版本

以上就完成了基础环境的创建。

三、启动模型服务

启动脚本

python3 -m vllm.entrypoints.openai.api_server \ --model /public/home/acbquoy93n/SothisAI/model/ExternalSource/Meta-Llama-3.1-70B-Instruct-AWQ-INT4/main/Meta-Llama-3.1-70B-Instruct-AWQ-INT4 \ --host 0.0.0.0 --port 10304 \ --gpu-memory-utilization 0.8 \ --served-model-name Meta-Llama-3.1-70B-Instruct-AWQ-INT4 \ --dtype float16 \ --tensor-parallel-size 1 \ --max-model-len 5000 \ --trust-remote-code

注:--module xxxx/xxx 模型路径 ;
--served-model-name xxx 自定义的模型名称 ;
--port xxx 自定义服务端口号;
--gpu-memory-utilization xxx 指定vllm可使用当前dcu的显存比例;
--dtype xxx 指定模型数据类型 ;
--tensor-parallel-size xxx 设置张量并行的大小,即dcu的数量;
--max-model-len xxx 指定模型能够处理的最大输入长度;

等待模型加载

本地验证。

curl http://127.0.0.1:10304/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "Meta-Llama-3.1-70B-Instruct-AWQ-INT4","messages": [{"role": "user", "content": "请介绍下成都锦城学院,要求500字以内"}]}'

注:http://xxxx:port/v1/chat/completions , 其中xxx为localhost;
port 为自定义的端口号;
"model":"xxxxxx" ,为served-model-name 自定义的模型名;

四、将端口映射到公网

测试API调用

注:修改为实际的API

curl https://c-2058440394521022466.zzai2.scnet.cn:xxxx/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "Meta-Llama-3.1-70B-Instruct-AWQ-INT4","messages": [{"role": "user", "content": "请介绍下四川,要求500字以内"}]}'

http://www.jsqmd.com/news/883695/

相关文章:

  • FM广播高精度预加重模块设计:解决传统电路缺陷,提升音质与信噪比
  • 终极3步驱动清理:如何用DriverStore Explorer释放Windows性能
  • 告别短信验证码:在uni-app中集成阿里云一键登录的完整配置与优化心得
  • 为什么你的DeepSeek总生成无效边界值?揭秘LLM测试生成中的3层语义断层与2种对齐方案
  • 分子对接的困境与突围:为什么AutoDock-Vina能成为药物发现的加速引擎?
  • 手把手教你用PE镜像修复麒麟系统磁盘异常(Boot From Harddisk故障保姆级教程)
  • 淮北6月雨季来临,房屋漏水怎么办?卫生间免砸砖防水、外墙、屋面+地下室渗漏。权威防水公司靠谱TOP5推荐(2026年6月本地最新深度调研) - 企业资讯
  • 阜阳6月雨季来临,房屋漏水怎么办?卫生间免砸砖防水、外墙、屋面+地下室渗漏。权威防水公司靠谱TOP5推荐(2026年6月本地最新深度调研) - 企业资讯
  • 衢州6月雨季来临,房屋漏水怎么办?卫生间免砸砖防水、外墙、屋面+地下室渗漏。权威防水公司靠谱TOP5推荐(2026年6月本地最新深度调研) - 企业资讯
  • 如何在Windows系统上完美运行Android应用:WSABuilds终极解决方案指南
  • 3PEAK思瑞浦 TPA6532-SO1R SOP8 运算放大器
  • 现在不学DeepSeek代码审查,3个月后你的CI/CD流水线将全面落后——5大不可逆趋势预警
  • WaveTools终极指南:鸣潮游戏性能优化神器完整教程
  • 2026海外大厂Contractor岗位转正通关指南「蒸汽求职」
  • B站CC字幕下载完整指南:5分钟学会免费获取视频字幕资源
  • 铜陵6月雨季来临,房屋漏水怎么办?卫生间免砸砖防水、外墙、屋面+地下室渗漏。权威防水公司靠谱TOP5推荐(2026年6月本地最新深度调研) - 企业资讯
  • 江苏启东寄快递省钱指南|全网高性价比寄件渠道盘点,日常寄件少花冤枉钱 - 时讯资讯
  • macOS微信防撤回插件WeChatIntercept:消息保护的技术实现与用户体验
  • 别再只配PLAIN了!Offset Explorer连接Kafka时,SASL/SCRAM-SHA-256怎么配更安全?
  • Keil C51工具链中Evatronix芯片缺失问题解决方案
  • sd卡照片删除怎么恢复正常使用教程,只需6个方法,数据就能完美恢复(含完整视频教程)
  • Unity UI Toolkit避坑指南:3D世界UI、动画与Shader特效的替代方案
  • 别再让C盘爆红了!保姆级VMware 17虚拟机安装CentOS 7.6全流程(附磁盘分区避坑指南)
  • 基于GP2Y1010AU0F的PM2.5监测:从光学散射原理到Arduino实践
  • 网盘下载速度提升300%?这款开源插件让你告别限速烦恼
  • 沈阳6月雨季来临,房屋漏水怎么办?卫生间免砸砖防水、外墙、屋面+地下室渗漏。权威防水公司靠谱TOP5推荐(2026年6月本地最新深度调研) - 企业资讯
  • 【DeepSeek代码质量评估权威指南】:20年架构师亲测的5大核心指标与3个致命陷阱
  • 基于单片机与Triac的墙壁开关调光器设计:原理、电路与实现
  • STI-SNN硬件加速器:提升脉冲神经网络边缘计算能效
  • 英澳SDET自动化测试赛道性价比真相「蒸汽求职」