当前位置: 首页 > news >正文

HCOMM通信算子NPU环境测试

基于NPU环境测试

【免费下载链接】hcommHCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm

开发者需基于自定义通信算子的功能,自行编写测试用例进行验证,主要包括输入数据的构造和语义逻辑的检查。下面简要介绍通信算子的测试方法。

编写测试程序

测试程序主要包含以下六个步骤:

  1. 申请集合通信操作所需的内存。
  2. 构造输入数据。
  3. 初始化通信域。
  4. 调用自定义通信算子。
  5. 校验通信结果。
  6. 释放资源。

测试程序代码样例如下所示(开发者须按需修改相关逻辑,下列样例代码不可直接执行):

#include "acl/acl_rt.h" #include "hccl/hccl_types.h" #include "<custom_ops_header>" // 开发者定义的通信算子接口头文件 #define ACLCHECK(ret) \ do { \ if (ret != ACL_SUCCESS) { \ printf("acl interface return err %s:%d, retcode: %d \n", __FILE__, __LINE__, ret); \ return ret; \ } \ } while (0) #define HCCLCHECK(ret) \ do { \ if (ret != HCCL_SUCCESS) { \ printf("hccl interface return err %s:%d, retcode: %d \n", __FILE__, __LINE__, ret); \ return ret; \ } \ } while (0) struct ThreadContext { HcclRootInfo *rootInfo; uint32_t device; uint32_t devCount; }; int Sample(void *arg) { ThreadContext *ctx = (ThreadContext *)arg; void *sendBuf = nullptr; void *recvBuf = nullptr; uint32_t device = ctx->device; uint64_t count = ctx->devCount; size_t mallocSize = count * sizeof(float); // 设置当前线程操作的设备 ACLCHECK(aclrtSetDevice(static_cast<int32_t>(device))); // 初始化集合通信域 HcclComm hcclComm; HCCLCHECK(HcclCommInitRootInfo(ctx->devCount, ctx->rootInfo, device, &hcclComm)); // 创建任务流 aclrtStream stream; ACLCHECK(aclrtCreateStream(&stream)); // 构造输入数据 void *hostBuf = nullptr; ACLCHECK(aclrtMallocHost(&hostBuf, mallocSize)); // TODO:将输入数据写入 hostBuf 中 // 将输入数据拷贝至 Device 侧 ACLCHECK(aclrtMalloc(&sendBuf, mallocSize, ACL_MEM_MALLOC_HUGE_ONLY)); ACLCHECK(aclrtMemcpy(sendBuf, mallocSize, hostBuf, mallocSize, ACL_MEMCPY_HOST_TO_DEVICE)); ACLCHECK(aclrtFreeHost(hostBuf)); // TODO:调用自定义集合通信算子 HCCLCHECK(HcclOpsCustom(sendBuf, count, HCCL_DATA_TYPE_FP32, hcclComm, stream)); // 阻塞等待任务流中的集合通信任务执行完成 ACLCHECK(aclrtSynchronizeStream(stream)); // 将 Device 侧集合通信任务结果拷贝到 Host void *resultHostBuf; ACLCHECK(aclrtMallocHost(&resultHostBuf, mallocSize)); ACLCHECK(aclrtMemcpy(resultHostBuf, mallocSize, recvBuf, mallocSize, ACL_MEMCPY_DEVICE_TO_HOST)); // TODO:校验 resultHostBuf 中的结果数据 ACLCHECK(aclrtFreeHost(resultHostBuf)); // 释放资源 HCCLCHECK(HcclCommDestroy(hcclComm)); // 销毁通信域 if (sendBuf) { ACLCHECK(aclrtFree(sendBuf)); // 释放 Device 侧内存 } if (recvBuf) { ACLCHECK(aclrtFree(recvBuf)); // 释放 Device 侧内存 } ACLCHECK(aclrtDestroyStream(stream)); // 销毁任务流 ACLCHECK(aclrtResetDevice(device)); // 重置设备 return 0; } int main() { // 设备资源初始化 ACLCHECK(aclInit(NULL)); // 查询设备数量 uint32_t devCount; ACLCHECK(aclrtGetDeviceCount(&devCount)); std::cout << "Found " << devCount << " NPU device(s) available" << std::endl; int32_t rootRank = 0; ACLCHECK(aclrtSetDevice(rootRank)); // 生成 Root 节点信息,各线程使用同一份 RootInfo void *rootInfoBuf = nullptr; ACLCHECK(aclrtMallocHost(&rootInfoBuf, sizeof(HcclRootInfo))); HcclRootInfo *rootInfo = (HcclRootInfo *)rootInfoBuf; HCCLCHECK(HcclGetRootInfo(rootInfo)); // 启动线程执行集合通信操作 std::vector<std::thread> threads(devCount); std::vector<ThreadContext> args(devCount); for (uint32_t i = 0; i < devCount; i++) { args[i].rootInfo = rootInfo; args[i].device = i; args[i].devCount = devCount; threads[i] = std::thread(Sample, (void *)&args[i]); } for (uint32_t i = 0; i < devCount; i++) { threads[i].join(); } // 释放资源 ACLCHECK(aclrtFreeHost(rootInfoBuf)); // 释放 Host 内存 ACLCHECK(aclFinalize()); // 设备去初始化 return 0; }

编写Makefile

Makefile文件示例如下,开发者须按需修改。

ifndef ASCEND_HOME_PATH $(error "ASCEND_HOME_PATH is not set, please ensure CANN is properly installed and \ source environment variables by running `source /path/to/Ascend/cann/set_env.sh`") endif CXXFLAGS := -std=c++14 \ -Werror \ -fstack-protector-strong \ -fPIE -pie \ -O2 \ -s \ -Wl,-z,relro \ -Wl,-z,now \ -Wl,-z,noexecstack \ -Wl,--copy-dt-needed-entries SOURCES = main.cc ASCEND_INC_DIR = ${ASCEND_HOME_PATH}/include ASCEND_LIB_DIR = ${ASCEND_HOME_PATH}/lib64 CUSTOM_OPS_INC_DIR = ${ASCEND_HOME_PATH}/opp/vendors/<vendor>/include CUSTOM_OPS_LIB_DIR = ${ASCEND_HOME_PATH}/opp/vendors/<vendor>/lib64 LIBS = -L$(ASCEND_LIB_DIR) -lacl_rt -L${CUSTOM_OPS_LIB_DIR} -l<custom_ops_so> INCS = -I$(ASCEND_INC_DIR) -I${CUSTOM_OPS_INC_DIR} TARGET = test_custom_ops # Default target all: g++ $(CXXFLAGS) $(SOURCES) $(INCS) $(LIBS) -o ${TARGET} @echo "${TARGET} compile completed" # Test target test: export LD_LIBRARY_PATH=${CUSTOM_P2P_LIB_DIR}:${LD_LIBRARY_PATH}; \ ./$(TARGET) # Clean build artifacts clean: rm ${TARGET} .PHONY: all test clean

执行测试程序

  1. 关闭AI CPU算子验签功能。

    AI CPU算子包会在业务启动时加载至Device,加载过程中驱动默认会执行安全验签,以确保包的可信性。但用户自行编译生成的AI CPU算子包不包含签名头,因此需要手工关闭驱动的验签机制,才可以正常加载。

    参考如下命令,使用root用户在物理机上执行, 以device 0为例:

    npu-smi set -t custom-op-secverify-enable -i 0 -d 1 # 使能验签配置 npu-smi set -t custom-op-secverify-mode -i 0 -d 0 # 关闭自定义验签

    [!NOTE]说明 关闭驱动安全验签机制存在一定的安全风险,需要用户自行确保自定义通信算子的安全可靠,防止恶意攻击行为。

  2. 修改AI CPU白名单。

    若用户新增AI CPU算子包,需同步将该AI CPU算子包配置到AI CPU白名单中。以root用户默认安装路径为例,编辑ascend_package_load.ini文件:

    vim /usr/local/Ascend/cann/conf/ascend_package_load.ini

    将下列内容追加到ascend_package_load.ini中:

    name:<aicpu_kernel_file_name> install_path:2 optional:true package_path:<aicpu_kernel_file_path>

    其中:

    • <aicpu_kernel_file_name>:表示AI CPU算子包文件名,文件格式为tar.gz,例如:aicpu_hccl_custom_p2p.tar.gz。
    • <aicpu_kernel_file_path>:表示AI CPU算子包在CANN包下的相对路径,例如:opp/vendors/cust/aicpu/kernel。
  3. 编译并执行测试样例。

    # 编译 make # 执行测试用例 make test

【免费下载链接】hcommHCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/782928/

相关文章:

  • Kemptide (Phosphate Acceptor Peptide);LRRASLG
  • 【算法】小白也能懂 · 第 2 节:数组双指针技巧(快慢指针、左右指针)
  • CANN/atvoss向量算子库概述
  • 别再盲目自学 CTF!零基础专属入门完整路线,看完直接上手实战
  • 面向对象设计原则在Java开发中的应用
  • CANN/metadef GetAddr函数API文档
  • 可解释AI在膝骨关节炎诊断中的应用:从黑盒模型到临床可信赖的决策伙伴
  • 医疗生成式AI的伦理治理:GREAT PLEA框架下的公平、可靠与问责实践
  • CANN/tensorflow AOE调优配置
  • CANN/asc-devkit AllocTensor API
  • 遥感图像分类可解释AI方法:定量评估与工程实践指南
  • 显卡驱动冲突终极解决方案:Display Driver Uninstaller深度使用指南
  • 第8天:常用数据结构之列表
  • AI安全新范式:从红蓝对抗到紫队协同的实战指南
  • 3个核心功能让你轻松掌握QtScrcpy:免费开源的Android投屏控制终极指南
  • 毕业论文查重网站终极横评:知网/维普/PaperPass/PaperYY谁最准?
  • CANN/pypto RMS归一化API文档
  • 马斯克投1200亿建芯片工厂,微美全息加速量子算力集群进入全球“AI军备竞赛”
  • CANN/hcomm组调用结束接口
  • 图形处理器——从显示到计算的蜕变
  • RAP中的派生变量%说明
  • Hello-Agents 写给想造 Agent 但又怕搞不明白的人
  • 多模态 RAG 不是把 embedding 换成 Qwen3-VL-Embedding 就行:从文本检索仓改到图文混合检索,真正先要改的是这 3 层
  • 我给 MariaDB 装了个“副驾驶”:DBLens for MariaDB
  • CANN/ops-cv算子列表
  • CANN/ops-cv三维上采样反向算子
  • CANN/pypto 填充操作
  • CANN设备运行时事实
  • 泰山派3M-RK3576-Ai应用-YOLO11-分割模型
  • CANN融合因果一维卷积算子