当前位置: 首页 > news >正文

CANN/runtime 主机内存管理

11-02 主机内存管理

【免费下载链接】runtime本项目提供CANN运行时组件和维测功能组件。项目地址: https://gitcode.com/cann/runtime

本章节描述主机(Host)内存的分配、释放、注册及指针获取接口。

  • aclError aclrtMallocHost(void **hostPtr, size_t size):申请Host内存(该内存是锁页内存),由系统保证内存首地址64字节对齐。
  • aclError aclrtMallocHostWithCfg(void **ptr, uint64_t size, aclrtMallocConfig *cfg):申请Host内存(该内存是锁页内存),由系统保证内存首地址64字节对齐。
  • aclError aclrtFreeHost(void *hostPtr):释放通过aclrtMallocHost接口或aclrtMallocHostWithCfg接口申请的Host内存。
  • aclError aclrtFreeHostWithDevSync(void *hostPtr):释放通过aclrtMallocHost接口或aclrtMallocHostWithCfg接口申请的Host内存。
  • aclError aclrtHostRegister(void *ptr, uint64_t size, aclrtHostRegisterType type, void **devPtr):将Host内存映射注册为Device可访问的内存地址,并获取映射后的Device内存地址。映射后的Device内存地址不能用于内存操作,例如内存复制。
  • aclError aclrtHostRegisterV2(void *ptr, uint64_t size, uint32_t flag):注册Host内存地址。
  • aclError aclrtHostGetDevicePointer(void *pHost, void **pDevice, uint32_t flag):获取由aclrtHostRegister或aclrtHostRegisterV2接口注册映射的Device内存地址。映射后的Device内存地址不能用于内存操作,例如内存复制。
  • aclError aclrtHostMemMapCapabilities(uint32_t deviceId, aclrtHacType hacType, aclrtHostMemMapCapability *capabilities):查询指定的硬件驱动加速器是否支持访问通过aclrtHostRegister接口注册的内存。
  • aclError aclrtHostUnregister(void *ptr):取消注册Host内存。

aclrtMallocHost

aclError aclrtMallocHost(void **hostPtr, size_t size)

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品

功能说明

申请Host内存(该内存是锁页内存),由系统保证内存首地址64字节对齐。

通过本接口申请的内存,需要通过aclrtFreeHost接口或aclrtFreeHostWithDevSync接口释放内存。

参数说明

参数名输入/输出说明
hostPtr输出“已分配内存的指针”的指针。
size输入申请内存的大小,单位Byte。
size不能为0。

返回值说明

返回0表示成功,返回其他值表示失败,请参见aclError。

约束说明

  • 本接口分配的内存不会进行对内容进行初始化,建议在使用内存前先调用aclrtMemset接口先初始化内存,清除内存中的随机数。
  • 本接口内部不会进行隐式的device同步或流同步。如果申请内存成功或申请内存失败会立刻返回结果。
  • 使用aclrtMallocHost接口分配过多的锁页内存,将导致操作系统用于分页的物理内存变少,从而降低系统整体的性能。
  • 频繁调用aclrtMallocHost接口申请内存、调用aclrtFreeHost接口释放内存,会损耗性能,建议用户提前做内存预先分配或二次管理,避免频繁申请/释放内存。



aclrtMallocHostWithCfg

aclError aclrtMallocHostWithCfg(void **ptr, uint64_t size, aclrtMallocConfig *cfg)

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品

功能说明

申请Host内存(该内存是锁页内存),由系统保证内存首地址64字节对齐。

与aclrtMallocHost接口相比,本接口在申请内存时,还可以指定内存相关的配置信息。

通过本接口申请的内存,需要通过aclrtFreeHost接口或aclrtFreeHostWithDevSync接口释放内存。

参数说明

参数名输入/输出说明
ptr输出“已分配内存的指针”的指针。
size输入申请内存的大小,单位Byte。
size不能为0。
cfg输入内存配置信息。类型定义请参见aclrtMallocConfig。
不指定配置时,此处可传NULL。

返回值说明

返回0表示成功,返回其他值表示失败,请参见aclError。




aclrtFreeHost

aclError aclrtFreeHost(void *hostPtr)

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品

功能说明

释放通过aclrtMallocHost接口或aclrtMallocHostWithCfg接口申请的Host内存。

本接口会立刻释放传入的内存,接口内部不会进行隐式的Device同步或流同步、也不会等待使用该内存的任务完成。用户需确保在调用本接口后不再访问该内存指针。

参数说明

参数名输入/输出说明
hostPtr输入待释放内存的指针。

返回值说明

返回0表示成功,返回其他值表示失败,请参见aclError。




aclrtFreeHostWithDevSync

aclError aclrtFreeHostWithDevSync(void *hostPtr)

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品

功能说明

释放通过aclrtMallocHost接口或aclrtMallocHostWithCfg接口申请的Host内存。

本接口内部会进行隐式的Device同步,并等待使用该内存的任务完成。

参数说明

参数名输入/输出说明
hostPtr输入待释放内存的指针。

返回值说明

返回0表示成功,返回其他值表示失败,请参见aclError。




aclrtHostRegister

aclError aclrtHostRegister(void *ptr, uint64_t size, aclrtHostRegisterType type, void **devPtr)

产品支持情况

产品是否支持
Ascend 950PR
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品

功能说明

将Host内存映射注册为Device可访问的内存地址,并获取映射后的Device内存地址。映射后的Device内存地址不能用于内存操作,例如内存复制。

如果注册的ptr是通过aclrtMallocHostWithCfg申请的,并且申请时配置的attr类型是ACL_RT_MEM_ATTR_VA_FLAG,vaFlag的值为1,则映射后的Device地址与Host地址一致,可以进行内存操作。

取消注册Host内存需调用aclrtHostUnregister接口。

参数说明

参数名输入/输出说明
ptr输入Host内存地址。
Host内存地址需4K页对齐。
当os内核版本为5.10或更低时,使用非锁页内存会导致异常,因此必须调用aclrtMallocHost接口来申请Host锁页内存。
当os内核版本为5.10以上时,支持使用非锁页的Host内存,因此既支持调用aclrtMallocHost接口申请Host锁页内存,也支持使用malloc接口申请Host非锁页内存。
size输入内存大小,单位Byte。
type输入内存注册类型。类型定义请参见aclrtHostRegisterType。
devPtr输出Host内存映射成的Device可访问的内存地址。

返回值说明

返回0表示成功,返回其他值表示失败,请参见aclError。




aclrtHostRegisterV2

aclError aclrtHostRegisterV2(void *ptr, uint64_t size, uint32_t flag)

产品支持情况

产品是否支持
Ascend 950PR
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品

功能说明

注册Host内存地址。

取消注册需调用aclrtHostUnregister接口。

参数说明

参数名输入/输出说明
ptr输入Host内存地址。
Host内存地址需4K页对齐。
当os内核版本为5.10或更低时,使用非锁页内存会导致异常,因此必须调用aclrtMallocHost接口来申请Host锁页内存。
当os内核版本为5.10以上时,支持使用非锁页的Host内存,因此既支持调用aclrtMallocHost接口申请Host锁页内存,也支持使用malloc接口申请Host非锁页内存。
size输入内存大小,单位Byte。
flag输入内存注册类型。
取值为如下宏,支持配置单个宏,也支持配置多个宏位或(例如ACL_HOST_REG_MAPPED | ACL_HOST_REG_PINNED):

- ACL_HOST_REG_MAPPED:将Host内存映射注册为Device可访问的内存地址,再配合调用aclrtHostGetDevicePointer接口获取映射后的Device内存地址。
- ACL_HOST_REG_IOMEMORY:将Host上第三方PCIe设备的IO space(寄存器、缓存)映射注册为Device可访问,包括读写。对于Atlas A3 训练系列产品/Atlas A3 推理系列产品,仅支持X86架构,不支持ARM架构。
- ACL_HOST_REG_READONLY:Host内存映射注册为Device只读。预留选项,当前不支持。
- ACL_HOST_REG_PINNED:将Host非锁页内存注册为锁页内存。Host非锁页内存可通过C/C++标准库函数(如malloc、calloc、new)或默认的mmap系统调用等方式申请。


宏定义如下:
#define ACL_HOST_REG_MAPPED 0x2UL
#define ACL_HOST_REG_IOMEMORY 0x4UL
#define ACL_HOST_REG_READONLY 0x8UL
#define ACL_HOST_REG_PINNED 0X10000000UL

返回值说明

返回0表示成功,返回其他值表示失败,请参见aclError。




aclrtHostGetDevicePointer

aclError aclrtHostGetDevicePointer(void *pHost, void **pDevice, uint32_t flag)

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品

功能说明

获取由aclrtHostRegister或aclrtHostRegisterV2接口注册映射的Device内存地址。映射后的Device内存地址不能用于内存操作,例如内存复制。

参数说明

参数名输入/输出说明
pHost输入通过aclrtHostRegisterV2接口注册映射的Host内存地址。
pDevice输出Host内存映射成的Device内存地址。
flag输入预留参数,当前固定配置为0。

返回值说明

返回0表示成功,返回其他值表示失败,请参见aclError。




aclrtHostMemMapCapabilities

aclError aclrtHostMemMapCapabilities(uint32_t deviceId, aclrtHacType hacType, aclrtHostMemMapCapability *capabilities)

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品

功能说明

查询指定的硬件驱动加速器是否支持访问通过aclrtHostRegister接口注册的内存。

参数说明

参数名输入/输出说明
deviceId输入Device ID。
用户调用aclrtGetDeviceCount接口获取可用的Device数量后,这个Device ID的取值范围:[0, (可用的Device数量-1)]
hacType输入HAC(Hardware Accelerator Controller,硬件加速控制器)类型。类型定义请参见aclrtHacType。
capabilities输出是否支持访问通过aclrtHostRegister接口注册的内存。类型定义请参见aclrtHostMemMapCapability。

返回值说明

返回0表示成功,返回其他值表示失败,请参见aclError。




aclrtHostUnregister

aclError aclrtHostUnregister(void *ptr)

产品支持情况

产品是否支持
Ascend 950PR
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品

功能说明

取消注册Host内存。

本接口与aclrtHostRegister接口成对使用。

参数说明

参数名输入/输出说明
ptr输入Host侧内存地址。

返回值说明

返回0表示成功,返回其他值表示失败,请参见aclError。

【免费下载链接】runtime本项目提供CANN运行时组件和维测功能组件。项目地址: https://gitcode.com/cann/runtime

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/785957/

相关文章:

  • 在自动化工作流中集成Taotoken多模型API以增强智能处理能力
  • 2025届必备的十大AI写作神器实测分析
  • STM32CubeIDE_Programmer_Touch GFX 应用
  • 恩氏粘度测定仪规范操作教程(依据GB/T 266,超详细实操指南)
  • Logica:基于OpenClaw的Arena原生AI交易代理框架深度解析
  • 基于扩散模型与LES的风机入口湍流场高效重构技术
  • 竞品分析(结合完美日记 × 花西子报告)
  • 南宁上门家教试听不满意不收费?南宁家教总动员教南宁家长请家教避坑实录 - 教育快讯速递
  • 泰山派3M-RK3576-系统功能-Buildroot-网口上网
  • 家用离网光伏电站远程运维管理平台方案
  • 为什么 OpenClaw 更像“AI 操作系统”?
  • CANN/hccl Scatter算子接口文档
  • 20254108 2025-2026-2 《Python程序设计》实验3报告
  • 零基础参加高考美术培训,真能如愿逆袭名校吗?
  • Llama 3.2-90B多模态图像理解实战:Groq+Streamlit轻量级部署方案
  • 机器学习赋能系外行星预测:从提丢斯-波得定则到数据驱动模型
  • 2026年沈阳GEO优化服务商推荐top5:专业选型参考与核心实力分析 - 产业观察网
  • 基于LLM的政府信息智能分析系统:从文档解析到洞察生成全流程实践
  • 复合调味料行业标杆推荐:2025年专业生产厂家与定制代加工优选指南 - 品牌策略师
  • 广州十一区工厂搬迁评测:兵哥搬家专业度实测解析 - 奔跑123
  • 维策信息GEO优化口碑如何?创始人11年运营零投诉
  • 机器学习预测系外行星:从TB定律到数据驱动的天文发现
  • 2026年温州GEO优化服务商推荐top5:能力梳理、产业适配与选型参考 - 产业观察网
  • CANN/ops-transformer Chunk_gated_delta_rule算子测试框架
  • AI写专著必备:实测4款工具,快速产出20万字专著,查重不用愁!
  • 厦门装修哪个比较好
  • CANN基础设施OAT使用指南
  • CLAWHunter:基于WiFi Pineapple Pager的OpenClaw AI网关自动化侦察与渗透工具
  • 强化学习算法 —— 带自适应步长的策略梯度算法(PG算法、Adaptive step size for Adam optimizer)
  • cann/sip AsumOperation示例