当前位置: 首页 > news >正文

CANN/hccl AllGatherV接口文档

HcclAllGatherV

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

产品支持情况

  • Ascend 950PR/Ascend 950DT:支持
  • Atlas A3 训练系列产品/Atlas A3 推理系列产品:支持
  • Atlas A2 训练系列产品/Atlas A2 推理系列产品:支持
  • Atlas 推理系列产品:支持
  • Atlas 训练系列产品:不支持

[!NOTE]说明 针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,仅支持Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框。 针对Atlas 推理系列产品,仅支持Atlas 300I Duo 推理卡。

功能说明

集合通信算子AllGatherV的操作接口,将通信域内所有节点的输入按照rank id重新排序,然后拼接起来,再将结果发送到所有节点的输出。

与AllGather算子不同的是,AllGatherV算子支持通信域内不同节点的输入配置不同大小的数据量。

[!NOTE]说明 针对AllGatherV操作,每个节点都接收按照rank id重新排序后的数据集合,即每个节点的AllGatherV输出都是一样的。

函数原型

HcclResult HcclAllGatherV(void *sendBuf, uint64_t sendCount, void *recvBuf, const void *recvCounts, const void *recvDispls, HcclDataType dataType, HcclComm comm, aclrtStream stream)

参数说明

参数名输入/输出描述
sendBuf输入源数据buffer地址。
sendCount输入参与AllGatherV操作的sendBuf的数据size。
recvBuf输出目的数据buffer地址,集合通信结果输出至此buffer中。
recvCounts输出参与AllGatherV操作的每个rank在recvBuf中的数据size,为uint64类型的数组。
该数组的第i个元素表示需要从rank i接收的数据量,且该数据量需要与rank i的sendCount值相同。
recvDispls输出参与AllGatherV操作的每个rank的数据在recvBuf中的偏移量(单位为dataType),为uint64类型的数组。
该数组的第i个元素表示从rank i接收的数据应该放置在recvBuf中的起始偏移量。
dataType输入AllGatherV操作的数据类型,HcclDataType类型。
针对Ascend 950PR/Ascend 950DT,支持数据类型:int8、uint8、int16、uint16、int32、uint32、int64、uint64、float8-e5m2、float8-e4m3、float8-e8m0、hifloat8、float16、float32、float64、bfp16。
针对Atlas A3 训练系列产品/Atlas A3 推理系列产品,支持数据类型:int8、uint8、int16、uint16、int32、uint32、int64、uint64、float16、float32、float64、bfp16。
针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,支持数据类型:int8、uint8、int16、uint16、int32、uint32、int64、uint64、float16、float32、float64、bfp16。
针对Atlas 300I Duo 推理卡,支持数据类型:int8、uint8、int16、uint16、int32、uint32、int64、uint64、float16、float32、float64。
comm输入集合通信操作所在的通信域。
stream输入本rank所使用的stream。

返回值

HcclResult:接口成功返回HCCL_SUCCESS,其他失败。

约束说明

  • 所有rank的recvCounts、recvDispls、dataType均应相同。
  • 针对Ascend 950PR/Ascend 950DT,仅支持单Server场景,仅支持通信算子展开模式为CCU(Collective Communication Unit,集合通信加速单元)的场景。
  • 针对Atlas A3 训练系列产品/Atlas A3 推理系列产品,仅支持单Server场景。
  • 针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,仅支持多机对称分布场景,不支持非对称分布(即卡数非对称)的场景。
  • 针对Atlas 300I Duo 推理卡,仅支持单Server场景,单Server中最大支持部署2张Atlas 300I Duo 推理卡(即4个NPU)。

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/782598/

相关文章:

  • Python 智能体实战:从 0 搭建模块化 Agent 路由系统,落地小龙虾门店运营助手
  • pywencai实战指南:3大场景解决金融数据抓取难题
  • 2026年深圳民办初中择校观察:规范办学提质效,华朗学校成优质选择 - 深度智识库
  • 2026年唐山外墙清洗、烟道保洁与商业保洁服务商深度评测指南 - 企业名录优选推荐
  • 还在被本科终稿 PUA?Paperxie 这波操作直接让你从秃头党变过审王
  • 关于rhel8中的authselect、nss、ipa、pam、sssd、ldap等组件的理解
  • CANN具身智能优化样例
  • MakeFile简介
  • mysql如何选择存储引擎_mysql MyISAM与InnoDB深度对比
  • 泳装出款慢?AI正在重构流程
  • 告别周期性全量:KES 块级永久增量备份设计与实现
  • 2026 年贵州全省结构加固・彩钢瓦翻新・外墙翻新优质服务商 TOP5 权威榜单 - 深度智识库
  • 近期频现“售后网络升级”公告,腕表维修行业究竟在升级什么?——亨得利官方硬核技术解码 - 亨得利腕表维修中心
  • 给 Hermes 装上显微镜:Agent 执行全知道
  • 解锁全平台直播录制:DouyinLiveRecorder让你永不错过精彩瞬间
  • CANN/asc-tools msobjdump样例
  • 终极Windows DLL注入实战指南:3步掌握Xenos高效内存注入技术
  • DS4Windows终极配置指南:深度优化PS4手柄在Windows平台的性能表现
  • Claude 智能体工程
  • Sunshine游戏串流服务器:10分钟打造您的私人游戏云平台
  • FigmaCN:打破语言壁垒,让Figma真正成为中文设计师的创作利器
  • 如何高效使用跨平台Steam创意工坊下载器:WorkshopDL完整解决方案指南
  • 2026年5月东莞卖金实时行情,三家连锁门店报价一目了然 - 李甜岚
  • 量子计算中随机化算法与资源优化技术解析
  • 2025届学术党必备的AI辅助论文神器实测分析
  • 2026年脚手架包工包料厂家推荐:南通健明模架工程有限公司,脚手架施工/承插型盘扣式脚手架厂家 - 品牌推荐官
  • NumPy 数组入门详解
  • 抖音批量下载工具:5分钟搞定无水印内容保存
  • 2026年唐山外墙清洗、烟道保洁与商业保洁一站式解决方案深度评测指南 - 企业名录优选推荐
  • 对比使用原生接口与通过Taotoken调用大模型的账单清晰度差异