当前位置：首页 > news >正文

国产DCU卡实战：手把手教你用Docker部署通义千问Qwen2.5-7B推理服务

news 2026/6/7 2:32:14

国产DCU卡实战：从零部署通义千问Qwen2.5-7B推理服务

在AI算力国产化浪潮中，海光DCU（Deep Computing Unit）作为国产高性能计算卡的代表，正逐步成为大模型推理部署的新选择。本文将带您完整走通在Hygon C86服务器上，基于Docker和Xinference工具链部署Qwen2.5-7B模型的全流程，涵盖从硬件配置到服务验证的每个关键环节。

1. 环境准备与硬件配置

部署前的环境准备是确保后续流程顺利的基础。对于DCU平台，需要特别注意驱动层与计算框架的兼容性。以下是经过验证的软硬件组合：

硬件配置：
- 计算节点：Hygon C86 7380处理器（32核心）
- 内存容量：1TB DDR4
- DCU加速卡：Z100 32GB HBM2（建议至少2块）

软件栈：

OS: Ubuntu 22.04.1 LTS DCU驱动: rock-5.2.0-5.16.29-V01.13 DTK版本: 23.10.1 Docker版本: 20.10.18+

注意：DTK（Deepcomputing Toolkit）是海光提供的异构计算工具包，部署前需确认其版本与驱动匹配。可通过/opt/hyhal/bin/rocminfo命令验证DCU设备识别状态。

2. Docker环境与定制镜像部署

针对DCU的异构计算特性，我们需要使用特殊配置的Docker容器。以下是关键步骤详解：

2.1 获取预置镜像

从海光镜像仓库拉取已集成VLLM推理引擎的基础镜像：

docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.5.0-dtk24.04.1-ubuntu20.04-py310-zk-v1

2.2 容器启动参数解析

DCU设备需要特定的设备映射和权限配置：

docker run -it --name qwen_serving \ --privileged \ --shm-size=256G \ --device=/dev/kfd \ --device=/dev/dri/ \ --cap-add=SYS_PTRACE \ --security-opt seccomp=unconfined \ --ulimit memlock=-1:-1 \ --ipc=host \ --network host \ --group-add video \ -v /opt/hyhal:/opt/hyhal \ -v /home/env/model:/home/env/model \ 762690254610 /bin/bash

参数说明：

--device=/dev/kfd：映射DCU内核接口设备
memlock=-1:-1：解除内存锁定限制
--group-add video：添加视频设备访问权限

3. Xinference推理引擎配置

Xinference作为轻量级推理服务框架，其与VLLM的组合能充分发挥DCU的计算潜力。

3.1 组件安装

在容器内执行以下命令：

pip install "xinference[vllm]" -i https://pypi.mirrors.ustc.edu.cn/simple

3.2 模型服务启动

使用多卡并行推理配置（假设使用4块DCU）：

XINFERENCE_MODEL_SRC=modelscope xinference-local --host 0.0.0.0 \ xinference launch \ --model-engine vLLM \ --model-name qwen2.5-instruct \ --size-in-billions 7 \ --model-format pytorch \ --gpu-idx 0,1,2,3

关键参数说明：

--model-engine vLLM：指定高性能推理后端
--gpu-idx：指定使用的DCU设备索引
--size-in-billions 7：明确模型规模为7B版本

4. 性能调优与问题排查

在实际部署中，我们总结了以下优化经验：

4.1 计算资源配置建议

参数项	单卡推荐值	多卡(4)推荐值
max_num_seqs	64	256
tensor_parallel	1	4
block_size	16	32

4.2 常见问题解决方案

显存不足报错：
- 检查DCU显存占用：rocm-smi
- 调整--max_model_len参数降低上下文长度

内核调用失败：

export HSA_ENABLE_SDMA=0 export HSA_ENABLE_INTERRUPT=0

模型加载缓慢：
- 使用本地模型缓存：-v /path/to/cache:/root/.cache
- 启用prefetch模式：--enable-prefetch

5. 服务验证与API调用

部署完成后，可通过以下方式验证服务：

5.1 基础功能测试

使用curl测试生成接口：

curl -X POST \ http://localhost:9997/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "qwen2.5-instruct", "prompt": "请用中文解释深度学习", "max_tokens": 256 }'