当前位置：首页 > news >正文

用Docker Compose在昇腾910B上同时部署vLLM和MindIE服务，管理多个模型实例

news 2026/6/4 22:49:44

昇腾910B多模型容器化部署实战：vLLM与MindIE的Docker Compose编排指南

当企业需要在单台昇腾910B服务器上同时运行多个AI模型服务时，如何实现资源隔离和高效管理成为关键挑战。本文将深入探讨如何利用Docker Compose在OpenEuler系统上编排vLLM和MindIE服务，构建生产级的多模型推理环境。

1. 环境准备与基础配置

在开始部署前，我们需要确保昇腾910B服务器的基础环境已正确配置。以下是最小化环境检查清单：

操作系统验证：确认系统为OpenEuler 22.03 LTS aarch64版本

uname -m && cat /etc/*release | grep -E "NAME|VERSION"

NPU驱动状态检查：

npu-smi info

存储配置建议：
- 使用LVM管理NVMe SSD阵列
- 创建专用模型存储卷（建议XFS文件系统）
- 设置/models符号链接指向存储卷

关键配置项说明：

注意：昇腾驱动默认安装路径为/usr/local/Ascend，确保所有容器都能访问该目录。对于多租户场景，建议通过SELinux或AppArmor实施访问控制。

2. Docker Compose架构设计

多模型服务的容器编排需要考虑以下核心要素：

维度	vLLM实例	MindIE实例
NPU分配	卡组隔离（0-3/4-7）	卡组隔离（0-3/4-7）
内存管理	共享内存1GB	独立内存池
端口规划	8000-8003	1025-1027
模型加载	直接挂载模型目录	配置文件指定路径
健康检查	HTTP端点探测	管理端口探测

推荐目录结构：

/multi-model-deploy/ ├── docker-compose.yml ├── vllm/ │ ├── config/ │ └── logs/ └── mindie/ ├── config.json.template ├── entrypoint.sh └── logs/

3. vLLM服务容器化实战

以下是针对Qwen大模型的vLLM服务配置示例：

services: vllm-qwen7b: image: quay.io/ascend/vllm-ascend:v0.10.0rc1-openeuler devices: - "/dev/davinci0" - "/dev/davinci1" environment: - VLLM_USE_MODELSCOPE=True - PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256 volumes: - /models/Qwen-7B:/models/Qwen-7B - /usr/local/Ascend:/usr/local/Ascend:ro command: > serve /models/Qwen-7B --tensor-parallel-size 2 --port 8000 --max-model-len 8192 healthcheck: test: ["CMD", "curl", "-f", "http://localhost:8000/health"] interval: 30s timeout: 10s retries: 3

性能调优建议：

批处理参数：根据显存调整--max-model-len
并行配置：--tensor-parallel-size应与分配的NPU卡数一致
内存优化：设置PYTORCH_NPU_ALLOC_CONF避免内存碎片

提示：对于70B级别大模型，建议分配4卡并设置--enable-expert-parallel

4. MindIE服务容器化实战

MindIE的部署需要更多定制化配置，以下是关键步骤：

准备配置文件模板（config.json.template）：

{ "ServerConfig": { "port": ${MINDIE_PORT}, "ipAddress": "0.0.0.0" }, "BackendConfig": { "npuDeviceIds": [[${NPU_DEVICE_IDS}]], "ModelConfig": [{ "modelName": "${MODEL_NAME}", "modelWeightPath": "${MODEL_WEIGHT_PATH}", "worldSize": ${NPU_DEVICE_COUNT} }] } }

编写entrypoint.sh：

#!/bin/bash envsubst < /config/config.json.template > /conf/config.json exec /usr/local/Ascend/mindie/latest/mindie-service/bin/mindieservice_daemon

Compose服务定义：

mindie-deepseek: image: mindie:2.0.RC1 devices: - "/dev/davinci4" - "/dev/davinci5" environment: - MODEL_NAME=deepseek-r1 - MODEL_WEIGHT_PATH=/models/DeepSeek-R1 - NPU_DEVICE_IDS=4,5 - NPU_DEVICE_COUNT=2 - MINDIE_PORT=1025 volumes: - ./mindie/config.json.template:/config/config.json.template - /models:/models

5. 混合部署的完整编排方案

将vLLM和MindIE服务整合的完整compose文件示例：

version: '3.8' services: vllm-qwen: # ...前述vLLM配置... deploy: resources: reservations: devices: - driver: ascend device_ids: ["0", "1"] capabilities: [gpu] mindie-deepseek: # ...前述MindIE配置... deploy: resources: reservations: devices: - driver: ascend device_ids: ["4", "5"] capabilities: [gpu] networks: npu-net: driver: bridge ipam: config: - subnet: 172.20.0.0/24

关键管理命令：

启动全部服务：docker compose up -d
查看NPU利用率：watch -n 1 npu-smi
动态扩缩容：docker compose scale vllm-qwen=2

6. 生产环境优化策略

性能监控方案：

# Prometheus指标采集配置示例 scrape_configs: - job_name: 'vllm' static_configs: - targets: ['vllm-qwen:8000/metrics'] - job_name: 'mindie' static_configs: - targets: ['mindie-deepseek:1026/metrics']

日志收集建议：