当前位置: 首页 > news >正文

CANN/hccl RDMA QP端口配置路径

HCCL_RDMA_QP_PORT_CONFIG_PATH

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

功能描述

两个rank之间RDMA通信时会默认创建1个QP(Queue Pair)进行数据传输,若开发者想让两个rank之间的RDMA通信使用多个QP,并指定多QP通信时使用的源端口号,可通过此环境变量实现。

开发者可通过此环境变量指定<srcIP,dstIP>与端口映射关系配置文件的存储路径。当<srcIP,dstIP>配置多个端口号时,系统将开启多QP通信,且所配置的端口号即为每个QP使用的源端口。

该环境变量配置示例如下:

export HCCL_RDMA_QP_PORT_CONFIG_PATH=/home/tmp

其中“/home/tmp”为<srcIP,dstIP>与端口映射关系配置文件“MultiQpSrcPort.cfg”的存储路径,支持配置为绝对路径或相对路径,该路径最大长度需要小于等于4096个字符。

“MultiQpSrcPort.cfg”文件需要用户自定义(注意文件命名需要保持为“MultiQpSrcPort.cfg”),配置格式如下:

srcIP1,dstIP1=srcPort0,srcPort1,...,srcPortN srcIPN,dstIPN=srcPort0,srcPort1,...,srcPortN
  • 该文件支持的最大配置行数为128*1024=131072。
  • 每个<srcIP,dstIP>地址对最多支持配置32个端口,但建议不超过8个端口。QP个数超过8时,无法确保性能收益,且可能导致内存占用过多从而引发业务运行失败。
  • 每个<srcIP,dstIP>地址对在该文件中仅允许出现一次。
  • srcIP、dstIP需要为常规IPv4格式和IPv6格式。
  • srcIP、dstIP支持配置为“0.0.0.0”,代表所有IP地址。

“MultiQpSrcPort.cfg”文件配置示例如下:

192.168.100.2,192.168.100.3=61100,61101,61102 192.168.100.4,192.168.100.5=61100,61101,61102,61104 0.0.0.0,192.168.100.122=65515,65516,65513

配置示例

export HCCL_RDMA_QP_PORT_CONFIG_PATH=/home/tmp

使用约束

  • 该环境变量仅支持单算子调用方式,不支持静态图模式。

  • 该环境变量的优先级高于环境变量HCCL_RDMA_QPS_PER_CONNECTION,此环境变量配置后,两个rank间通信时使用的QP个数以“MultiQpSrcPort.cfg”文件中配置的源端口号个数为准。

  • QP相关配置的优先级如下:

    管理面多QP配置(通过hccn_tool工具的“-s multi_qp”参数配置) > NSLB的QP配置(通过hccn_tool工具的"-t nslb-dp"参数配置)> 环境变量HCCL_RDMA_QP_PORT_CONFIG_PATH > 环境变量HCCL_RDMA_QPS_PER_CONNECTION。

支持的型号

Atlas A2 训练系列产品/Atlas A2 推理系列产品(针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,仅支持Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框。)

Atlas A3 训练系列产品/Atlas A3 推理系列产品

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/849337/

相关文章:

  • 轨距调整片定制哪家好?2026年绝缘轨距块生产厂家优质供应商推荐指南:新建铁路配件领衔 - 栗子测评
  • 2026机房不间断电源生产厂家哪家好?深圳不间断电源生产厂家实力深度解析 - 栗子测评
  • cann/asc-devkit SetGradOutput接口
  • CANN ops-fft部署指南:生产环境中的配置、监控与故障排除
  • npc_gzip异常处理与调试手册:解决压缩器错误的10个实用技巧
  • Commit Mono版本管理指南:如何优雅地升级和回滚字体版本
  • 源头工厂直供:利成充气水池定制厂家,广东便携式宠物泳池、PVC 戏水玩具、水上充气浮排专业生产基地 - 栗子测评
  • 穿透算法黑箱:2026论文降AI率工具深度测评,早标网语义保真度99%
  • 橡胶垫板定制厂家推荐:新建铁路配件领衔,2026年口碑好的调高垫板批发厂家/轨道橡胶垫板生产厂家/精调件生产厂家盘点 - 栗子测评
  • Transformer架构解析:自注意力机制与LLM核心技术
  • CrossGeo:首个跨卫星-无人机-地面三重视角的6-DoF 3D重建与定位数据集详解
  • 【YOLO目标检测全栈实战】48 深入TensorRT加速:从28ms到6ms的C++推理实战
  • Seed-VC语音克隆指南:5分钟实现零样本实时语音转换的终极方案
  • ARM SPE Profiling Buffer机制与性能分析实践
  • 地空协同巡检新范式:elec-ops-inspection 3D空间建模技术
  • GIFT应用案例:从Web服务到移动应用的实际部署方案
  • USB/IP Windows:打破物理限制的USB设备网络共享终极方案
  • 钢制平开防火窗|2026价格与工程应用要点
  • STR71X芯片JTAG失效分析与Bootloader恢复指南
  • Symfony String国际化实战:为什么它比原生PHP字符串函数更强大
  • 如何用Lano Visualizer打造智能音频可视化桌面:从音乐爱好者到专业用户的完整指南
  • 【独家首发】Gemini Pro函数调用(Function Calling)深度解析:7个生产环境踩坑案例+可复用的TypeScript Schema模板
  • 保姆级教程:手把手教你用ROS话题转发搞定CARLA与Autoware的传感器数据对齐
  • Windows 11文件资源管理器标签化神器:终极窗口管理解决方案
  • Egg.js TodoMVC实现:完整CRUD操作与前端交互实战
  • 【YOLO目标检测全栈实战】49 模型服务化:用Triton Inference Server部署YOLOv8全流程实战
  • 2026年PMP培训费用从一千到四千,到底多少钱合理
  • Pixelle-Video全球化架构:智能AI短视频引擎的多语言解决方案
  • 通过 Python 快速开始你的第一个 Taotoken 多模型调用示例
  • Cat-Catch:浏览器资源嗅探的终极解决方案与实用指南