当前位置: 首页 > news >正文

CANN/HCCL环境变量配置资源信息

环境变量配置资源信息

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

除了通过rank table文件配置资源信息的方式外,开发者还可以通过本节所述环境变量组合的方式配置资源信息。

环境变量配置资源信息的方式仅适用于TensorFlow框架网络的通信域初始化,仅支持如下产品:

Atlas A2 训练系列产品/Atlas A2 推理系列产品

Atlas 训练系列产品

配置说明

需要在执行训练的每个AI Server节点上分别配置如下环境变量,进行资源信息的配置,示例如下:

export CM_CHIEF_IP=192.168.1.1 export CM_CHIEF_PORT=6000 export CM_CHIEF_DEVICE=0 export CM_WORKER_SIZE=8 export CM_WORKER_IP=192.168.0.1 export HCCL_SOCKET_FAMILY=AF_INET
  • CM_CHIEF_IP:Master节点的Host监听IP,即与其他节点进行通信的IP地址,要求为常规IPv4或IPv6格式。

  • CM_CHIEF_PORT:Master节点的监听端口,需要配置为整数,取值范围“0~65520”,请确保端口未被其他进程占用。

  • CM_CHIEF_DEVICE:Master节点中统计Server端集群信息的Device逻辑ID。

    该环境变量需要配置为整数,取值范围:[0,Server内的最大Device数量-1]。

  • CM_WORKER_SIZE:用于配置组网中参与集群训练的Device总数量,需要配置为整数,取值范围“0~32768”。

  • CM_WORKER_IP:用于配置当前节点与Master进行通信时所用的网卡IP,要求为常规IPv4或IPv6格式。

  • HCCL_SOCKET_FAMILY:此环境变量可选,用于控制Device侧通信网卡使用的IP协议版本。AF_INET代表使用IPv4协议,AF_INET6代表使用IPv6协议,缺省时,优先使用IPv4协议

说明:

  • 如果环境变量“HCCL_SOCKET_FAMILY”指定的IP协议与实际获取到的网卡信息不匹配,则以实际环境上的网卡信息为准。 例如,环境变量“HCCL_SOCKET_FAMILY”指定为“AF_INET6”,但Device侧只存在IPv4协议的网卡,则实际会使用IPv4协议的网卡。

  • 通过以上环境变量的方式配置集群信息时,环境中不能存在环境变量RANK_TABLE_FILE、RANK_ID、RANK_SIZE。

  • 针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,若业务为单卡多进程场景,建议通过环境变量HCCL_NPU_SOCKET_PORT_RANGE配置HCCL在NPU侧使用的通信端口,否则可能会导致端口冲突,但需要注意,多进程会对资源开销、通信性能产生一定的影响,配置示例:

    export HCCL_NPU_SOCKET_PORT_RANGE="auto"

配置示例

假设执行分布式训练的AI Server节点数量为2,Device数量为16为例,每个AI Server节点有8个Device。启动每个Device上的训练进程前,在对应的shell窗口中配置如下环境变量,进行资源信息的配置。

  • 节点0,此节点为Master节点,负责集群信息管理、资源分配与调度。

    export CM_CHIEF_IP=192.168.1.1 export CM_CHIEF_PORT=6000 export CM_CHIEF_DEVICE=0 export CM_WORKER_SIZE=16 export CM_WORKER_IP=192.168.1.1
  • 节点1

    export CM_CHIEF_IP=192.168.1.1 export CM_CHIEF_PORT=6000 export CM_CHIEF_DEVICE=0 export CM_WORKER_SIZE=16 export CM_WORKER_IP=192.168.2.1

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/783946/

相关文章:

  • 基于纯文本的极简个人信息管理:plain命令行工具实践指南
  • 基于RAG的企业级智能问答系统:从原理到Azure云部署实战
  • CANN/CATCCOS预提交代码检查指南
  • 2026高效之选:专业的液压压滤机厂家推荐 - 品牌2025
  • CANN/ops-tensor算子调试调优指南
  • Java 设计模式:最佳实践与应用
  • 经验分享:工业采购必须了解的旋进旋涡流量计选型知识 - 速递信息
  • 为AI智能体构建持久化记忆:Stratum架构设计与工程实践
  • 基于LoRA与指令微调的中文Vicuna大模型本地部署与优化指南
  • WALAR:基于强化学习的低资源机器翻译优化方案
  • 给RK3568的Linux 4.19内核打RT-Preempt补丁,我踩过的那些坑都帮你填好了
  • FISSION-GRPO:基于强化学习的智能错误恢复系统
  • 台州普金办公设备:椒江打印机租赁公司电话 - LYL仔仔
  • CANN Ascend C算子开发套件
  • 2026丽江旅拍婚纱照梯队横评:T0/T1/T2全景拆解,第一名为何无法撼动? - 江湖评测
  • CANN/shmem SIMT远程内存访问示例
  • ru-text:为AI编码助手注入俄语文本质量灵魂的规则引擎
  • Open-Harness:一站式开源AI模型高效推理与微调框架解析
  • CANN/driver DCMI获取设备频率API
  • 98.吃透YOLOv8架构(C2f+解耦头),手把手落地行人检测项目
  • 7个Vlog背景音乐素材宝藏网站,找歌不费劲儿还不侵权 - 拾光而行
  • CANN TensorFlow迭代循环加载
  • 网络安全之 Burp Suite 深度解析与实战
  • 从RTL到可执行:手把手拆解基于FPGA的硬件仿真器前端三步骤(Analyze, Elaboration, Synthesis)
  • 2026年亲测靠谱:3个私藏AIGC降重工具+免费降AI指令,解决论文AI率过高问题 - 降AI实验室
  • 孤舟笔记 JVM篇三 JVM如何判断一个对象可以被回收?可达性分析比引用计数强在哪
  • CANN/pyasc数据连接API文档
  • 低空经济工业互联网中的数字孪生与智能体:IOC与平台协同的演进逻辑
  • ARM系统控制与调试接口:PPU与DAP详解
  • 有限单边响应游戏中的蒙特卡洛反事实遗憾最小化