华为CANN HCOMM CCU LoopGroup
LoopGroup
【免费下载链接】hcommHCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm
产品支持情况
- Ascend 950PR/Ascend 950DT:支持
- Atlas A3 训练系列产品/Atlas A3 推理系列产品:不支持
- Atlas A2 训练系列产品/Atlas A2 推理系列产品:不支持
功能说明
CCU kernel内的硬件LoopGroup类,将多个ccu::Loop对象组织为一组,共享同一份LoopEngine资源池,避免多个独立Loop各自独占LoopEngine导致资源耗尽。
构造ccu::LoopGroup时,自动将传入的loops列表中的每个Loop加入该Group。
类定义
namespace AscendC { namespace ccu { class LoopGroup { public: // 构造方式1:config-based(Group参数在注册期已知) LoopGroup(const CcuLoopGroupConfig &loopGroupCfg, uint32_t maxLoopNum, const std::vector<Loop> &loops); // 构造方式2:var-based(Group参数在运行期由Variable决定) LoopGroup(Variable ¶llelCfg, Variable &offsetCfg, uint32_t maxLoopNum, const std::vector<Loop> &loops); }; } // namespace ccu } // namespace AscendC参数说明
构造方式1:config-based
| 参数名 | 输入/输出 | 描述 |
|---|---|---|
| loopGroupCfg | 输入 | LoopGroup配置,类型为CcuLoopGroupConfig,字段含义见下表。 |
| maxLoopNum | 输入 | 本Group最多容纳的Loop数量,框架据此预留LoopEngine资源池容量。 |
| loops | 输入 | 要加入本Group的ccu::Loop对象列表。列表中每个Loop会在LoopGroup构造函数内自动被注册到Group。 |
构造方式2:var-based
| 参数名 | 输入/输出 | 描述 |
|---|---|---|
| parallelCfg | 输入 | 并行配置Variable,运行期决定并行参数。该参数包含64bit,其中[47:41]表示loopgroup内包含的Loop指令个数,其中[54:48]表似乎Loopgroup中包含的Loop指令需要完成Loop自动展开的Loop偏移,其中[61:55]表示Loop需要展开的次数。举例:X[47:41]=4表示程序中包含4个Loop指令,Xn[54:48]=1表示从编号为1的Loop开始展开,Xn[61:55]=3表示loop1,loop2,loop3分别复制展开3次,loop0不进行复制,经过展开后总Loop个数为4 + (4-1) * 3 = 13 |
| offsetCfg | 输入 | 偏移配置Variable,运行期决定偏移参数。 该参数包含64bit,其中[9:0]表示Loop进行展开后使用的Event资源偏移量,[20:10]表示Loop进行展开后使用的CcuBuffer资源偏移量,[52:21]表示Loop进行展开后各个数据传输类指令使用的Address累加的偏移量。 |
| maxLoopNum | 输入 | 同构造方式1。 |
| loops | 输入 | 同构造方式1。 |
CcuLoopGroupConfig
config-based构造使用的参数结构,字段如下:
| 字段 | 类型 | 说明 |
|---|---|---|
cloneNum | uint32_t | 并行克隆数量,指定Group内并发执行的实例数。 |
cloneLoopOffset | uint32_t | 克隆实例间Loop的偏移量。 |
addrOffset | uint32_t | 克隆实例间Address的偏移字节数。 |
ccuBufferOffset | uint32_t | 克隆实例间CcuBuffer切片的偏移片数。 |
eventOffset | uint32_t | 克隆实例间Event槽位的偏移位数。 |
异常
ccu::LoopGroup构造失败时抛出异常(携带CcuResult错误码)。常见原因:
| 原因 | 错误码 |
|---|---|
maxLoopNum为0,或var-based构造的运行期配置Variable为空 | CCU_E_PARA |
实际加入的Loop数超过maxLoopNum(LoopEngine池容量不足) | CCU_E_PARA |
| 物理资源(XN/GSA/CKE/MS等)不足 | CCU_E_UNAVAIL等 |
约束说明
ccu::LoopGroup构造时会立即遍历loops列表,将每个Loop注册到Group,注册后不可再修改Group成员。loops列表中的ccu::Loop对象必须已在ccu::LoopGroup构造前完成构造(即body已记录)。- 同一个
ccu::Loop对象不应被加入多个ccu::LoopGroup。 - Group内各Loop的body约束与独立
ccu::Loop相同(参见Loop的约束说明)。 maxLoopNum必须大于0,为0时构造直接失败(CCU_E_PARA)。maxLoopNum应 ≥loops列表实际大小(即真正会加入Group的Loop数,含展开复用);偏小会导致后续加入Loop时因LoopEngine池容量不足而失败(CCU_E_PARA)。
调用示例
using namespace AscendC::ccu; // 场景:两个Loop共享LoopEngine资源池 CcuResult MyKernel(CcuKernelArg arg) { Variable r1, r2, numA, numB; numA = 10; numB = 20; Func body1([&] { r1 = numA + numB; }); Func body2([&] { r2 = numA + numA; }); CcuLoopConfig cfg1; cfg1.addrOffset = 0; cfg1.iterNum = 2; Loop l1(cfg1, body1); CcuLoopConfig cfg2; cfg2.addrOffset = 0; cfg2.iterNum = 3; Loop l2(cfg2, body2); // 将l1, l2 组织成LoopGroup,共享LoopEngine 资源池 CcuLoopGroupConfig grpCfg; grpCfg.cloneNum = 0; grpCfg.cloneLoopOffset = 0; grpCfg.addrOffset = 0; grpCfg.ccuBufferOffset = 0; grpCfg.eventOffset = 0; LoopGroup g(grpCfg, /*maxLoopNum=*/2, {l1, l2}); return CCU_SUCCESS; }【免费下载链接】hcommHCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
