当前位置: 首页 > news >正文

智谱GLM-5 1 day适配华为昇腾(国产),744B模型单机高效推理,全量保姆配置过程

智谱GLM-5 1 day适配华为昇腾(国产),744B模型单机高效推理,全量保姆配置过程

 

在 华为昇腾 Atlas 800T A3 服务器 上完成 智谱 GLM-5(744B)模型单机全量推理部署 的 完整、端到端、可复现的配置流程。本指南覆盖 从裸机驱动安装 模型下载 容器化部署 → API 服务启动 性能验证 全过程,适用于 2026年2月最新环境,严格依据官方文档与社区实践整理。


通过网盘分享的文件:麒麟kylin linux 安装CDH v7.1指南

链接:https://pan.baidu.com/s/1wbRWJUSyElplFgse_NyOwg?pwd=pgxn 提取码:pgxn

通过网盘分享的文件:Hadoop

链接: https://pan.baidu.com/s/1PDj6dySUNHotNABp7d1a0w?pwd=57is 提取码: 57is

 

🧱 一、硬件与系统准备

硬件要求

  • 服务器型号:Atlas 800T A3(8×Ascend 910B NPU)
  • CPU:≥ 64 核(如 Kunpeng 920)
  • 内存:≥ 512 GB DDR4
  • 存储:≥ 2 TB NVMe SSD(建议 RAID 0)
  • 网络:双万兆网卡(用于多节点通信,单机可忽略)

操作系统

  • 推荐 OS:openEuler 22.03 LTS ARM64
    (ISO 下载:https://www.openeuler.org/zh/download/)

⚠️ 禁止使用 CentOS / Ubuntu!昇腾驱动仅官方支持 Euler 系列。


🔧 二、安装 NPU 驱动与 CANN 工具链(首次部署必做)

若已安装 CANN ≥ 8.0.RC1,请跳至第三步。

1. 创建运行用户

bash

groupadd HwHiAiUser

useradd -g HwHiAiUser -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash

2. 下载驱动与固件(以 CANN 8.0.RC2 为例)

从 昇腾社区 获取:

  • Ascend-hdk-atlas800t-a3-npu-driver_8.0.RC2_linux-aarch64.run
  • Ascend-hdk-atlas800t-a3-npu-firmware_8.0.RC2.run
  • Ascend-cann-toolkit_8.0.RC2_linux-aarch64.run

3. 安装驱动(按顺序!)

bash

# 赋权

chmod +x *.run

 

# 安装驱动(指定用户)

./Ascend-hdk-atlas800t-a3-npu-driver_8.0.RC2_linux-aarch64.run \

  --full --install-for-all \

  --install-username=HwHiAiUser --install-usergroup=HwHiAiUser

 

# 安装固件

./Ascend-hdk-atlas800t-a3-npu-firmware_8.0.RC2.run --full

 

# 安装 CANN Toolkit(开发依赖)

./Ascend-cann-toolkit_8.0.RC2_linux-aarch64.run –full

4. 验证安装

bash

reboot  # 必须重启!

 

npu-smi info

# 应输出 8 张 NPU 卡信息(Device ID 0~7)

📦 三、下载 GLM-5 W4A8 量化模型

原始 BF16 模型(1.5TB)无法单机部署,必须使用 W4A8 量化版(约 300GB)。

bash

mkdir -p /root/.cache/glm-5-w4a8

cd /root/.cache/glm-5-w4a8

 

# 下载量化模型(AtomGit AI 提供)

wget https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8/model.tar.gz

 

# 解压

tar -xzf model.tar.gz

 

# 验证结构(应含 config.json, tokenizer, pytorch_model*.bin)

ls -lh

🔗 官方地址:https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8


🐳 四、拉取 vLLM-Ascend 推理镜像

bash

# 使用 DaoCloud 加速镜像

export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:glm5-a3-openeuler

 

docker pull $IMAGE

✅ 镜像特性:

  • 基于openEuler 22.03
  • 预装 CANN8.0.RC2 + torch-npu 2.1.0 + vLLM-Ascend
  • 内置Lightning Indexer / Sparse Flash Attention 融合算子

▶️ 五、启动推理服务(关键脚本)

创建 start_glm5.sh:

Bash

#!/bin/bash

 

IMAGE="m.daocloud.io/quay.io/ascend/vllm-ascend:glm5-a3-openeuler"

MODEL_PATH="/root/.cache/glm-5-w4a8"

 

docker run --rm \

  --name glm5-inference \

  --net=host \

  --shm-size=16g \

  --device /dev/davinci0 \

  --device /dev/davinci1 \

  --device /dev/davinci2 \

  --device /dev/davinci3 \

  --device /dev/davinci4 \

  --device /dev/davinci5 \

  --device /dev/davinci6 \

  --device /dev/davinci7 \

  --device /dev/davinci_manager \

  --device /dev/devmm_svm \

  --device /dev/hisi_hdc \

  -v /usr/local/dcmi:/usr/local/dcmi \

  -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \

  -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \

  -v /etc/ascend_install.info:/etc/ascend_install.info \

  -v /root/.cache:/root/.cache \

  $IMAGE \

  python -m vllm.entrypoints.openai.api_server \

    --model $MODEL_PATH \

    --trust-remote-code \

    --dtype bfloat16 \

    --tensor-parallel-size 8 \

    --max-model-len 200000 \

    --port 8000 \

--disable-log-stats

赋予执行权限并运行:

bash

chmod +x start_glm5.sh

nohup ./start_glm5.sh > glm5.log 2>&1 &

🟢 成功标志:glm5.log 中出现
Uvicorn running on http://0.0.0.0:8000

🧪 六、API 调用与性能验证

1. 基础调用测试

bash

curl http://localhost:8000/v1/chat/completions \

  -H "Content-Type: application/json" \

  -d '{

    "model": "glm-5",

    "messages": [{"role": "user", "content": "你好!"}],

    "max_tokens": 50

  }'

2. 长上下文测试(200K

python

# generate_long.py

import requests

text = "A" * 190000  # 模拟长输入

resp = requests.post("http://localhost:8000/v1/completions", json={

    "prompt": text,

    "max_tokens": 1000

})

print("Status:", resp.status_code)

3. 性能监控

bash

# 实时查看 NPU 利用率

npu-smi dperf -t 1

 

# 查看日志吞吐

tail -f glm5.log | grep "tokens/s"

💡 预期性能(Atlas 800T A3):

  • 首 Token 延迟:< 1.5 秒
  • 解码速度:> 45 tokens/s
  • 显存占用:< 320 GB

🔍 七、故障排查清单

表格

现象

原因

解决方案

npu-smi: command not found

驱动未装或 PATH 错误

检查 /usr/local/bin/npu-smi 是否存在

容器启动失败

设备未挂载全

确保挂载 davinci0~7 +manager + svm + hdc

模型加载卡住

权限不足

chown -R root:root /root/.cache/glm-5-w4a8

OOM(显存溢出)

用了 BF16 模型

确认使用 W4A8 量化版

Token 生成极慢

未启用 MTP/DSA

检查模型是否含 mtp_config.json


📚 官方资源汇总

  • 模型仓库:https://atomgit.com/zai-org/GLM-5
  • 部署示例:https://atomgit.com/zai-org/GLM-5-code/blob/main/example/ascend.md
  • 量化工具:https://atomgit.com/Ascend/msmodelslim
  • 昇腾文档:https://www.hiascend.com/document

总结

通过以上 六步全流程,您已在 单台 Atlas 800T A3 上成功部署 744B 参数的 GLM-5,实现:

  • 200K 超长上下文
  • OpenAI 兼容 API
  • 生产级推理吞吐

这标志着 “国产大模型 + 国产算力” 的全栈自主可控方案已具备 企业级落地能力,为信创、金融、政务等高安全场景提供坚实底座。

 

http://www.jsqmd.com/news/410285/

相关文章:

  • 破解AI营销困局:GEO如何帮企业抢占万亿AI流量? - 速递信息
  • 25G 长距光模块选型指南:从参数到兼容,安科士 SFP-25G-ZR 给出最优解
  • 2026年大型车间保温喷涂厂家推荐:车间保温喷涂/大型车间保温喷涂厂家源头精选 - 品牌推荐官
  • 盘点口碑好的矿用隔爆型干式变压器厂家,选购时该如何选择? - 工业推荐榜
  • 2026年质量好的除尘去味负离子发生器/健康养生级负离子发生器最新TOP厂家排名 - 行业平台推荐
  • 哪款洗发水比较好?2026防脱洗发水十大排名,全球口碑最好的防脱发洗发水推荐 - 博客万
  • 基于多传感器的智能小区安防系统设计与实现(有完整资料)
  • 2026年靠谱的山东隔热条/抗氧化隔热条工厂采购指南如何选(实用) - 行业平台推荐
  • GitHub Copilot Chat和Spec Kit
  • 2026年口碑好的江西高端养老院/养老院日常哪家靠谱 - 行业平台推荐
  • 2026年热门的油缸用镗滚管/不锈钢镗滚管最新TOP厂家排名 - 行业平台推荐
  • 基于物联网的智能家庭健康监护系统与实现(有完整资料)
  • 2026年质量好的杀菌消毒等离子发生器/定制化等离子发生器厂家推荐及采购指南 - 行业平台推荐
  • FD-37; FAEKFKEAVKDYFAKFWDPAAEKLKEAVKDYFAKLWD
  • 写给2026高职大数据专业的你:这5个技术岗位值得死磕
  • 视窗系统的命令行
  • minio-2.使用
  • 2026年靠谱的舒棉绒/阳离子舒棉绒厂家用户好评推荐 - 行业平台推荐
  • 自定义Agent与多模型对接:AI辅助鸿蒙应用开发实践
  • 就这有啥待审核的啊,还有个星星
  • 【开发者实战录】​鸿蒙全链路赋能:看成语教育APP如何实现体验飙升与质量攻坚?
  • NOIP2024D1T4题解
  • 基于Google云服务滥用的新型钓鱼攻击机制与防御策略研究
  • 伪装内部通知钓鱼攻击的机制解析与零信任防御架构
  • 全国喜庭海鲜自助优惠购买
  • 2026年比较好的亚克力浴缸小户型/按摩浴缸优质厂家推荐汇总 - 行业平台推荐
  • 2026年评价高的酒店灯具工程采购/酒店灯具解决方案哪家好销售厂家推荐 - 品牌宣传支持者
  • 基于复杂路由缺陷与邮件防护“空白区”的企业安全基线重构研究
  • 目前最好的重疾险排名出炉:2026年高性价比产品全测评 - 包罗万闻
  • Labview 用DBC文件解析CAN报文以及DBC格式发送CAN,调用的dll有说明文档。 ...