当前位置: 首页 > news >正文

CANN/asc-devkit数据搬运API文档

asc_copy_gm2l1

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT

功能说明

将矩阵数据从Global Memory搬运到L1 Buffer中,支持以下两种搬运模式:

  • 填充模式:搬运过程中可以对数据进行填充或移除填充值。
  • 2D搬运模式:支持2D矩阵数据搬运,支持压缩能力。(NPU_ARCH 220x版本不支持.)

函数原型

  • 填充模式

    __aicore__ inline void asc_copy_gm2l1(__cbuf__ void* dst, __gm__ void* src, uint32_t n_burst, uint32_t len_burst, uint8_t pad_func_mode, uint64_t src_stride, uint32_t dst_stride)
  • 填充模式(同步)

    __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ void* dst, __gm__ void* src, uint32_t n_burst, uint32_t len_burst, uint8_t pad_func_mode, uint64_t src_stride, uint32_t dst_stride)
  • 2D搬运模式

    __aicore__ inline void asc_copy_gm2l1(__cbuf__ bfloat16_t *dst, __gm__ bfloat16_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1(__cbuf__ float *dst, __gm__ float *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1(__cbuf__ fp8_e4m3fn_t *dst, __gm__ fp8_e4m3fn_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1(__cbuf__ fp8_e5m2_t *dst, __gm__ fp8_e5m2_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1(__cbuf__ half *dst, __gm__ half *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1(__cbuf__ hifloat8_t *dst, __gm__ hifloat8_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1(__cbuf__ int16_t *dst, __gm__ int16_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1(__cbuf__ int32_t *dst, __gm__ int32_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1(__cbuf__ int8_t *dst, __gm__ int8_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1(__cbuf__ uint16_t *dst, __gm__ uint16_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1(__cbuf__ uint32_t *dst, __gm__ uint32_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1(__cbuf__ uint8_t *dst, __gm__ uint8_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1(__cbuf__ fp4x2_e1m2_t *dst, __gm__ fp4x2_e1m2_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1(__cbuf__ fp4x2_e2m1_t *dst, __gm__ fp4x2_e2m1_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1(__cbuf__ void *dst, __gm__ void *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl)
  • 2D搬运模式(同步)

    __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ bfloat16_t *dst, __gm__ bfloat16_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ float *dst, __gm__ float *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ fp8_e4m3fn_t *dst, __gm__ fp8_e4m3fn_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ fp8_e5m2_t *dst, __gm__ fp8_e5m2_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ half *dst, __gm__ half *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ hifloat8_t *dst, __gm__ hifloat8_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ int16_t *dst, __gm__ int16_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ int32_t *dst, __gm__ int32_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ int8_t *dst, __gm__ int8_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ uint16_t *dst, __gm__ uint16_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ uint32_t *dst, __gm__ uint32_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ uint8_t *dst, __gm__ uint8_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ fp4x2_e1m2_t *dst, __gm__ fp4x2_e1m2_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ fp4x2_e2m1_t *dst, __gm__ fp4x2_e2m1_t *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl) __aicore__ inline void asc_copy_gm2l1_sync(__cbuf__ void *dst, __gm__ void *src, uint32_t m_start_position, uint32_t k_start_position, uint16_t dst_stride, uint16_t m_step, uint16_t k_step, uint8_t decomp_mode, uint8_t l2_cache_ctl)

参数说明

填充模式参数

参数名输入/输出描述
dst输出目的操作数(矢量)的起始地址。
src输入源操作数(矢量)的起始地址。
n_burst输入待搬运的连续传输数据块个数。
len_burst输入待搬运的每个连续传输数据块的长度,单位为32个字节。
pad_func_mode输入一个4Bit的值,用于指示通道上的padding功能,他会在32个字节的数据中填充数据;或从每个32个字节的读取数据中移除padding值。
• 0:不做padding。
• 1:每有1个字节的数据,插入31个padding值。
• 2:每有2个字节的数据,插入15个padding值。
• 3:每有4个字节的数据,插入14个padding值。
• 4:每有8个字节的数据,插入12个padding值。
• 5:每有16个字节的数据,插入8个padding值。
• 6:每有32个字节的数据,移除28个最高有效位数据,只保留4个最低有效位元素。
• 7:每有32个字节的数据,移除24个最高有效位数据,只保留8个最低有效位元素。
• 8:每有32个字节的数据,移除16个最高有效位数据,只保留16个最低有效位元素。
src_stride输入输入数据中两个相邻连续数据块之间的距离。
dst_stride输入输出数据中两个相邻连续数据块之间的距离。

2D搬运模式参数

参数名输入/输出描述
dst输出目的操作数(矢量)的起始地址。
src输入源操作数(矢量)的起始地址。
m_start_position输入M方向上的起始位置。
k_start_position输入K方向上的起始位置。
dst_stride输入目的操作数步长。
m_step输入M方向上的步长。
k_step输入K方向上的步长。
decomp_mode输入设置不同的压缩模式。
l2_cache_ctl输入配置数据在L2 Cache中的管理策略。取值说明如下:
• 0:DISABLE模式,适用于仅需访问一次的数据。
• 1:NORMAL模式,适用于重用模式未知或不极端的数据。
• 2:LAST模式,适用于高频重复访问的数据。
• 4:PERSISTENT模式,适用于需要长期驻留在缓存中的数据。

返回值说明

流水类型

PIPE_MTE2

约束说明

填充模式约束

  • 对于插入padding值的场景:
    • len_burst的单位为32个字节的指的是写入L1 Buffer的实际数据数,它必须设置为1,此时一次仅从GM里读取1/2/4/8/16个字节的数据。
    • 每一次burst都是从GM中连续读取,因此不需要设置src_stride。
    • dst_stride以32个字节为单位。
  • 对于移除padding值的场景:
    • 源操作数中一次burst操作的数据为len_burst * 32个字节,目的操作数中一次burst的实际数据为len_burst * 4/8/16个字节。
    • 每一次burst后都连续地往L1 Buffer中写入,因此不需要设置dst_stride。
    • src_stride以32个字节为单位。

2D搬运模式约束

  • dst、src的起始地址需要32字节对齐。
  • 为了兼容性,需要设置m_step为1。

调用示例

//待搬运的连续传输数据块个数为1 constexpr uint32_t n_burst = 1; //待搬运的每个连续传输数据块的长度为128个字节 constexpr uint32_t len_burst = 4; //不对数据做padding constexpr uint8_t pad_func_mode = 0; //输入输出数据中两个相邻连续数据块之间的距离为0 constexpr uint64_t src_stride = 0; constexpr uint32_t dst_stride = 0; __gm__ half src[256]; __cbuf__ half dst[256]; asc_copy_gm2l1(dst, src, n_burst, len_burst, pad_func_mode, src_stride, dst_stride);

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/855794/

相关文章:

  • 保姆级教程:用ZStack Cloud 4.6.31镜像,10分钟搞定你的第一个私有云实验环境
  • YimMenu:GTA5终极安全防护与游戏体验优化完整指南
  • PyTorch实战(35)——使用PyTorch Profiler分析模型推理性能
  • 轻量级人脸检测方案:解决移动端AI视觉部署的核心痛点
  • SegFormer凭什么不用位置编码?深入拆解Mix-FFN与重叠Patch Merging的设计哲学
  • PS4模拟器完整指南:shadPS4免费畅玩主机游戏教程
  • Windows字体自定义终极指南:用No!! MeiryoUI打造你的专属界面
  • 别再傻傻分不清了!5分钟搞懂NMOS和PMOS在电路里的正确接法(附选型避坑指南)
  • 如何用Text-to-CAD UI在5分钟内从文字描述创建专业3D模型:技术实现全解析
  • WSLg完整使用指南:让Linux图形应用在Windows上无缝运行
  • 知网 AI 率秒清零!2026 学生首选降知网 AI 工具!
  • 如何在macOS上轻松绕过限制制作Windows启动盘:完整免费指南
  • 如何在macOS上免费实现光标个性化:5步完成终极美化指南
  • 2026年238个好发CCF-A的强化学习idea全面汇总!
  • Spark性能分析工具:全方位系统监控与资源优化解决方案
  • 从SRAM到MRAM:手把手拆解主流存内计算方案的选型避坑指南
  • 如何摆脱文章同质化,让编辑一眼心动?
  • 3分钟快速上手:Rufus终极USB启动盘制作完整指南
  • 企业级ONVIF协议集成:实战架构设计与最佳实践
  • 如何通过REST API和MCP服务器彻底释放Obsidian笔记自动化潜力
  • 终极B站视频下载指南:3分钟学会无水印高清下载技巧
  • Minio备份文件占满磁盘?教你用Rsync硬链接做增量备份,省下80%空间
  • PlantCV终极指南:5步掌握植物表型分析开源工具
  • Perplexity读书笔记生成实战手册(学术党职场人必藏版):覆盖PDF/EPUB/网页多源解析与结构化输出
  • chatgpt-mirai-qq-bot工作流系统:可视化编排复杂对话逻辑
  • 3分钟实现CAD建模革命:Zoo Text-to-CAD如何让文字描述秒变3D模型?
  • Python OAuth终极指南:requests-oauthlib快速入门与实战
  • 3步精通Mission Planner:从零开始打造你的智能飞行指挥官
  • YimMenu:基于现代C++的GTA V模块化反作弊与安全架构深度解析
  • 3步掌握VisionAgent:让AI为你的视觉任务自动生成代码