目录
- 项目概述
- 系统架构设计
- 详细实施方案
- 软件栈部署指南
- 性能验收标准
- 运维与保障体系
- 项目进度计划
- 风险管理
1. 项目概述
1.1 项目背景
超节点架构已成为AI基础设施建设的业界共识和主流选择。面对大模型从生成式AI向Agentic AI演进的趋势,MoE架构、百万级序列长度、多Agent调用等新需求对算力基础设施提出了前所未有的挑战。昇腾超节点通过系统级创新,实现超大带宽、超低时延、内存统一编址三大核心能力,成为万亿参数大模型训练与推理的理想底座。
截至2025年9月,昇腾384超节点累计部署量已突破300套,服务20多家客户。
1.2 交付目标
- **超大规模AI算力集群建设,满足大模型训练、高并发推理、多模态AIGC等业务场景需求
- 实现超节点核心技术指标:784GB/s通信带宽、200ns通信时延、48TB统一显存编址
- 构建完整的软件栈生态,支持主流AI框架与模型无缝迁移
- 建立标准化验收体系,确保集群稳定运行与业务连续
1.3 适用场景
| 场景类型 |
典型应用 |
推荐配置 |
| 大模型训练 |
LLM预训练、MoE模型训练、多模态训练 |
384卡超节点起步 |
| 高并发推理 |
在线推理服务、Agent服务、RAG检索 |
64/128卡灵活配置 |
| 强化学习 |
RLHF、后训练、对齐 |
弹性扩缩容架构 |
| 多模态AIGC |
文生图、视频生成、3D生成 |
灵活算力调度 |
2. 系统架构设计
2.1 超节点核心架构
2.1.1 物理拓扑结构
┌─────────────────────────────────────────┐│ Scale-Up 交换层 (4机柜) ││ 16800台模块化交换机 扁平化拓扑 │└─────────────┬───────────────────┘│┌────────────────────────┼────────────────────────┐│ │ │
┌────────▼───────┐ ┌────────▼───────┐ ┌────────▼───────┐
│ 计算机柜01-04 │ │ 计算机柜05-08 │ │ 计算机柜09-12 │
│ 32卡/柜 × 4柜 │ │ 32卡/柜 × 4柜 │ │ 32卡/柜 × 4柜 │
└──────────────────┘ └──────────────────┘ └──────────────────┘总计:12个计算机柜 + 4个交换机柜 = 16机柜完整超节点384张昇腾910C芯片全互联
2.1.2 核心技术指标
| 指标项 |
CloudMatrix 384 |
对比传统方案 |
提升倍数 |
| 总算力 (BF16) |
307 PFLOPS |
- |
- |
| 通信带宽 |
784 GB/s |
50 GB/s |
15倍 |
| 通信时延 |
200 ns |
2 μs |
降低10倍 |
| 单机显存容量 |
48 TB |
512 GB |
94倍 |
| HBM总容量 |
49.2 TB |
- |
3.6倍(vs GB200) |
| 总内存带宽 |
1229 TB/s |
- |
2.1倍(vs GB200) |
| 总功率 |
559.4 kW |
- |
- |
2.1.3 互联技术方案
**灵衢总线全光互联架构:
- 每颗昇腾910C芯片配置7个400G光收发器
- 堆叠设计实现2800 Gbit/s Scale-Up带宽
- 全集群配置6912个400G光模块(5376个Scale-Up + 1536个Scale-Out)
- 单层扁平化拓扑,极致降低通信延迟
2.2 机柜布局设计
2.2.1 标准384超节点机柜配置
| 机柜类型 |
数量 |
单柜配置 |
功能说明 |
| 计算机柜 |
12 |
32张昇腾910C / 柜 |
提供AI算力 |
| Scale-Up交换柜 |
4 |
高密度400G交换机 |
实现芯片全互联 |
| 存储机柜 |
2 |
分布式存储节点 |
训练数据与模型存储 |
| 管理机柜 |
1 |
管理/监控/登录节点 |
集群管控 |
| 总计 |
19 |
- |
完整超节点集群 |
2.2.2 机房要求
| 项目 |
最低要求 |
推荐配置 |
| 机柜规格 |
标准42U机柜 |
48U高密度机柜 |
| 单柜供电 |
20kW |
30kW |
| 冷却方式 |
风冷或液冷 |
LAAC风液混合散热 |
| 网络布线 |
结构化布线 |
预端接光缆 |
| 承重要求 |
1000kg/㎡ |
1200kg/㎡ |
2.3 网络架构
2.3.1 三层网络架构
┌─────────────────────────────────────────────────────────┐
│ 业务接入层 │
│ 100G Ethernet,业务访问与管理流量 │
└──────────────────────┬──────────────────────────────┘│
┌──────────────────────▼──────────────────────────────┐
│ Scale-Out层 │
│ 400G RoCEv2,超节点间互联 │
└──────────────────────┬──────────────────────────────┘│
┌──────────────────────▼──────────────────────────────┐
│ Scale-Up层 │
│ 全光互联,384芯片全互联 │
│ 单级无阻塞,200ns极致时延 │
└───────────────────────────────────────────────────────┘
2.3.2 网络关键技术
- Scale-Up网络:单层全互联架构,实现任意两颗芯片间一跳可达
- Scale-Out网络:Fat-Tree拓扑,支持超节点线性扩展至万卡级别
- RoCEv2无损网络:PFC + ECN 流量控制
- 智能网卡卸载:通信协议卸载,释放CPU算力
3. 详细实施方案
3.1 实施阶段划分
| 阶段 |
主要工作 |
工期 |
交付物 |
| **阶段一:前期准备 |
环境勘测、方案确认、物资进场 |
2周 |
环境勘测报告、实施方案 |
| **阶段二:硬件部署 |
机柜安装、布线、硬件上架 |
3周 |
硬件安装报告、布线验收报告 |
| **阶段三:软件部署 |
OS、驱动、固件、平台软件 |
2周 |
软件部署手册、配置文档 |
| **阶段四:联调测试 |
性能测试、功能验证、稳定性测试 |
3周 |
测试报告、性能基准 |
| **阶段五:验收交付 |
正式验收、文档交付、知识转移 |
1周 |
验收报告、运维手册 |
| 总计 |
- |
11周 |
- |
3.2 硬件部署流程
3.2.1 机柜安装标准
-
**机柜定位与固定
- 按机房布局图精确定位
- 机柜水平调节:误差≤1mm
- 机柜接地:接地电阻≤4Ω
-
**服务器上架
- 采用8U机框正交盲插架构
- 导轨安装,确保服务器承重分布均匀
- 标签规范:设备名称、位置、IP、资产编号
-
**布线规范
| 线缆类型 | 布线路由 | 弯曲半径 | 标签规范 |
|---------|---------|---------|---------|
| 光纤 | 上走线 | ≥30mm | 两端标记源目端口 |
| 铜缆 | 下走线 | ≥20mm | 两端标记源目端口 |
| 电源线 | 独立路由 | - | A/B路独立标记 |
3.2.2 光模块部署
- 400G光模块数量:6912个/384卡超节点
- 统一品牌与型号,确保兼容性
- 光功率预算:发送端-1~+3dBm,接收端>-10dBm
- 误码率:≤1e-12
3.3 硬件验收检查项
3.3.1 服务器硬件检查
# 设备识别检查
npu-smi info# 硬件健康状态检查
npu-smi info -t health# 温度检查
npu-smi info -t temp# 功耗检查
npu-smi info -t power# 固件版本检查
npu-smi info -t version
3.3.2 网络连通性检查
# 网卡状态检查
ibdev2netdev
ibstatus# 带宽测试
ib_write_bw -d mlx5_0 -a
ib_read_bw -d mlx5_0 -a# 延迟测试
ib_write_lat -d mlx5_0 -a
ib_read_lat -d mlx5_0 -a# RoCE无损网络验证
ping -f -s 65507 <对端IP>
4. 软件栈部署指南
4.1 软件栈架构
┌─────────────────────────────────────────────────────────┐
│ 业务应用层 │
│ MindIE Motor / 训练框架 / 推理服务 / 行业应用 │
├─────────────────────────────────────────────────────────┤
│ 框架适配层 │
│ MindSpore 3.0 / PyTorch / TensorFlow │
├─────────────────────────────────────────────────────────┤
│ CANN 6.0 计算架构 │
│ 算子库 / 图编译 / 通信库 / 调优工具 │
├─────────────────────────────────────────────────────────┤
│ 驱动与固件层 │
│ NPU Driver / Firmware / MCU / HDK │
├─────────────────────────────────────────────────────────┤
│ 操作系统层 │
│ EulerOS / Kylin / Ubuntu 认证发行版 │
└─────────────────────────────────────────────────────────┘
4.2 操作系统与驱动部署
4.2.1 OS选型与配置
推荐操作系统
- EulerOS 2.0 SP10 / SP11
- Kylin V10 SP3
- Ubuntu 20.04.4 LTS / 22.04 LTS
**内核版本要求
kernel >= 4.19.90
glibc >= 2.28
gcc >= 7.3.0
4.2.2 驱动安装流程
# 1. 依赖检查
rpm -qa | grep -E "(gcc|cmake|python3|glibc)# 2. 创建运行用户与用户组
groupadd ascend_group
useradd -g ascend_group -d /home/ascend_user -m -s /bin/bash ascend_user# 3. 驱动安装(首次安装:驱动→固件顺序
./Ascend-hdk-910c-npu-driver_x.x.x_linux-aarch64.run --full# 4. 固件安装
./Ascend-hdk-910c-npu-firmware_x.x.x.run --full# 5. 驱动加载验证
npu-smi info
4.2.3 版本兼容性矩阵
| 驱动版本 |
固件版本 |
CANN版本 |
备注 |
| V23.0.rc1 |
>= 6.4.0.5.220 |
6.0.RC1 |
910C推荐 |
| V22.0.4 |
>= 6.3.0.5.210 |
6.0.3 |
稳定版 |
严格遵循版本配套关系,避免兼容性问题
4.3 CANN 6.0 部署
4.3.1 CANN组件清单
| 组件 |
功能 |
必选/可选 |
| Ascend-CANN-Toolkit |
开发套件 |
必选 |
| Ascend-CANN-NNRT |
离线推理引擎 |
必选 |
| Ascend-CANN-TFPlugin |
TensorFlow插件 |
依框架 |
| Ascend-CANN-PyTorchPlugin |
PyTorch插件 |
依框架 |
| Ascend-Toolbox |
工具集 |
必选 |
4.3.2 安装流程
# 1. 安装Toolkit(开发环境
./Ascend-cann-toolkit_x.x.x_linux-aarch64.run --install-path=/usr/local/Ascend --install# 2. 安装NNRT(推理/训练运行环境
./Ascend-cann-nnrt_x.x.x_linux-aarch64.run --install# 3. 框架插件
./Ascend-cann-tfplugin_x.x.x_linux-aarch64.run --install
./Ascend-cann-pytorchplugin_x.x.x_linux-aarch64.run --install# 4. 环境变量配置
source /usr/local/Ascend/ascend-toolkit/set_env.sh
4.4 MindSpore 3.0 部署
# 安装MindSpore
pip install mindspore==3.0.0# 验证安装
python -c "import mindspore; mindspore.run_check()"
4.5 容器化部署(MindIE Motor)
4.5.1 前置依赖组件
- Volcano 调度器
- Ascend Device Plugin
- Ascend Docker Runtime
- Ascend Operator (enableGangScheduling=true)
- ClusterD / NodeD 集群管理组件
4.5.2 MindIE Motor 部署架构
MindIE Motor采用微服务架构,支持推理服务容器化部署、故障重调度、弹性扩缩容:
| 组件 |
实例数 |
NPU需求 |
功能 |
| MS Controller |
1-2 |
否 |
任务管控 |
| MS Coordinator |
1-2 |
否 |
调度协调 |
| MindIE Server (Prefill) |
x |
是 |
预填充处理 |
| MindIE Server (Decode) |
y |
是 |
解码生成 |
4.5.3 AscendJob 部署示例
# controller.yaml
apiVersion: mindxdl.gitee.com/v1
kind: AscendJob
metadata:name: deepseek-v4-controllerlabels:app: mindie-msjobID: deepseek-v4-001
spec:replicaSpecs:- replicas: 1template:spec:containers:- name: controllerimage: mindie-ms:v1.0resources:requests:cpu: "16"memory: 32Gicommand: ["/start_controller.sh"]restartPolicy: Never
5. 性能验收标准
5.1 验收测试体系
验收测试覆盖四大维度、多级验证体系,参考《华为384超节点验收白皮书标准:
| 测试维度 |
测试项 |
验收标准 |
| 硬件基础 |
芯片算力、CPU算力、存储IO、网络带宽 |
达到设计指标 |
| 模型训练 |
多机训练线性加速比、收敛性验证 |
线性加速比≥0.85 |
| 模型推理 |
吞吐、时延、并发能力 |
DeepSeek 671B性能提升9.2%+ |
| 稳定性 |
72小时长时间运行稳定性 |
无故障运行 |
5.2 硬件基准测试
5.2.1 单卡算力测试
# 使用ascend-dmi工具进行算力测试
ascend-dmi -f -i 0
**验收指标(昇腾910C):
- FP16算力:≥32 TFLOPS
- BF16算力:≥32 TFLOPS
- INT8算力:≥256 TOPS
5.2.2 集合通信性能测试
| 测试项 |
指标要求 |
| AllReduce带宽 |
≥700 GB/s (384卡聚合) |
| AllReduce时延 |
≤200 ns |
| AlltoAll带宽 |
符合设计规格 |
| 线性加速比 |
≥0.90 (384卡规模 |
5.2.3 存储性能测试
使用FIO工具进行:
- 顺序读带宽:≥3000 MB/s
- 随机读IOPS:≥30000
- 顺序写带宽:≥2000 MB/s
5.3 模型训练验收
5.3.1 基准模型测试矩阵
| 模型 |
参数量 |
测试规模 |
验收指标 |
| Qwen3-7B |
7B |
8节点 |
线性加速比≥0.85 |
| Qwen3-72B |
72B |
32节点 |
线性加速比≥0.80 |
| DeepSeek-V3 |
671B |
128节点 |
线性加速比≥0.75 |
5.3.2 训练性能参考
**DeepSeek-R1 70B训练性能:
- 迭代速度:vs H100集群提升1.8倍(CloudMatrix 384实测)
- 训练吞吐:tokens/秒达到设计目标
- 收敛性:loss曲线与GPU一致
5.4 推理性能验收
5.4.1 推理基准测试
| 模型 |
配置 |
输入长度 |
单卡吞吐(TPS) |
TPOT |
| DeepSeek V4-Pro |
昇腾950PR |
8K |
4700 |
~20ms |
| DeepSeek V4-Flash |
昇腾950PR |
8K |
1600 |
~10ms |
| DeepSeek V4-Flash |
64卡超节点大EP |
8K/1K |
2000+ |
持续优化 |
5.4.2 关键优化技术验证
- ✅ 动态CP/DP技术:变长序列场景吞吐提升40%+
- ✅ Prefill动态调度技术:资源利用率最大化
- ✅ 百万级上下文长度支持
- ✅ 专家并行(EP)优化
5.5 稳定性测试
| 测试项 |
时长 |
通过标准 |
| 连续运行测试 |
72小时 |
0故障、性能无衰减 |
| 故障注入测试 |
- |
故障隔离、自动恢复 |
| 压力测试 |
24小时 |
系统稳定、无宕机 |
| 长时间满载运行 |
7天 |
ECC错误率<1e-15 |
6. 运维与保障体系
6.1 监控体系
6.1.1 监控架构
┌─────────────────────────────────────────────────┐
│ 监控大盘 (Grafana) │
│ 硬件状态 / 性能指标 / 业务监控 / 告警 │
└──────────────────┬──────────────────────────────┘│
┌──────────────────▼──────────────────────────────┐
│ 数据存储 (Prometheus + InfluxDB) │
└──────────────────┬──────────────────────────────┘│
┌──────────────────▼───────────────────────────────┐
│ 采集层:npu-exporter / node-exporter / 日志采集 │
└───────────────────────────────────────────────────┘
6.1.2 关键监控指标
**硬件健康类
- NPU芯片温度、功耗、利用率
- 显存占用、HBM带宽
- ECC错误计数
- 风扇、电源状态
- 光模块功率、误码率
**性能类
- 训练/推理吞吐、迭代速度
- 通信带宽利用率
- 存储IO性能
- 网络延迟
**业务类
6.2 告警策略
| 告警级别 |
响应时间 |
通知方式 |
典型场景 |
| P1 紧急 |
15分钟 |
电话+短信+邮件 |
硬件故障、集群不可用 |
| P2 高 |
30分钟 |
短信+邮件 |
性能严重下降、节点故障 |
| P3 中 |
2小时 |
邮件 |
资源告警、性能下降 |
| P4 低 |
24小时 |
邮件 |
预警信息、容量告警 |
6.3 日常运维流程
6.3.1 日常检查清单
| 频率 |
检查项 |
工具/方法 |
| 每日 |
NPU健康状态检查 |
npu-smi info |
| 每日 |
集群资源利用率 |
监控大盘 |
| 每日 |
告警汇总分析 |
告警系统 |
| 每周 |
固件/驱动版本检查 |
版本管理 |
| 每周 |
性能基线对比 |
性能报表 |
| 每月 |
硬件深度健康巡检 |
全面巡检工具 |
| 每月 |
容量规划分析 |
容量报告 |
6.3.2 故障处理流程
- 故障发现:监控告警、用户反馈
- 故障定位:日志分析、诊断工具
- 故障隔离:节点隔离、任务重调度
- 故障修复:硬件更换、软件修复
- 验证恢复:功能验证、性能验证
- 根因分析:问题复盘、预防措施
7. 项目进度计划
7.1 详细甘特图(11周实施计划
周次: 1 2 3 4 5 6 7 8 9 10 11─────┼────┼────┼────┼────┼────┼────┼────┼────┼────┼─────
准备: ██████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
硬件: ░░█████████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
软件: ░░░░░░░░███████████░░░░░░░░░░░░░░░░░░░░░░░
测试: ░░░░░░░░░░░░░░█████████████████░░░░░░░░░░░
验收: ░░░░░░░░░░░░░░░░░░░░░░░░░░█████████████
7.2 里程碑节点
| 里程碑 |
时间节点 |
交付内容 |
| M1:项目启动会 |
第1周初 |
项目计划、分工界面确认 |
| M2:环境验收通过 |
第2周末 |
机房环境验收报告 |
| M3:硬件部署完成 |
第5周末 |
硬件安装验收 |
| M4:软件部署完成 |
第7周末 |
软件栈部署完成 |
| M5:性能测试通过 |
第9周末 |
性能测试报告 |
| M6:正式验收交付 |
第11周末 |
验收通过、项目交付 |
8. 风险管理
8.1 技术风险
| 风险项 |
风险等级 |
影响 |
应对措施 |
| 硬件到货延迟 |
中 |
项目延期 |
提前备货、建立缓冲期 |
| 兼容性问题 |
中 |
功能异常 |
严格版本配套、预验证 |
| 性能不达预期 |
高 |
业务影响 |
性能优化团队支持、提前调优 |
| 机房环境不满足 |
中 |
无法部署 |
前期勘测、环境整改 |
| 光模块兼容性 |
低 |
通信异常 |
统一采购、批量验证 |
8.2 项目管理风险
| 风险项 |
应对措施 |
| 需求变更 |
变更管理流程、影响评估 |
| 人员流失 |
知识转移、文档完备、备份机制 |
| 沟通不畅 |
定期例会、周报机制、 escalation |
| 质量问题 |
多轮验证、QA检查、验收把关 |
8.3 应急预案
| 场景 |
预案措施 |
| 硬件故障 |
备件池、快速更换流程 |
| 软件故障 |
版本回滚、快速恢复 |
| 集群故障 |
容灾备份、快速重建 |
| 性能下降 |
性能分析、快速定位、优化方案 |
附录A:参考文档
- 《Atlas 900 A3 SuperPoD 产品文档
- 《昇腾384超节点验收白皮书》
- 《CANN 6.0 开发指南
- 《MindIE Motor 开发指南》
- 《DeepSeek V3/R1 昇腾部署最佳实践》