当前位置: 首页 > news >正文

CANN/asc-devkit SPM缓冲区写入API

WriteSpmBuffer

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

产品支持情况

产品

是否支持

Ascend 950PR/Ascend 950DT

Atlas A3 训练系列产品 / Atlas A3 推理系列产品

Atlas A2 训练系列产品 / Atlas A2 推理系列产品

Kirin X90

Kirin 9030

功能说明

将需要溢出暂存的数据拷贝到SPM Buffer中。

函数原型

  • 适用于连续和不连续的数据暂存:

    template <typename T> __aicore__ inline void WriteSpmBuffer(const LocalTensor<T>& writeBuffer, const DataCopyParams& copyParams, int32_t writeOffset = 0)
  • 适用于连续的数据暂存:

    template <typename T> __aicore__ inline void WriteSpmBuffer(const LocalTensor<T>& writeBuffer, const int32_t writeSize, int32_t writeOffset = 0)

参数说明

表 1接口参数说明

参数名称

输入/输出

含义

writeBuffer

输入

需要溢出暂存的Local内存。

copyParams

输入

搬运参数,DataCopyParams类型,DataCopyParams结构定义请参考表2。

writeSize

输入

拷贝的元素个数。

writeOffset

输入

拷贝到SPM Buffer的偏移,单位为字节。

表 2DataCopyParams结构体参数定义

参数名称

含义

blockCount

待搬运的连续传输数据块个数。uint16_t类型,取值范围:blockCount∈[1, 4095]。

blockLen

待搬运的每个连续传输数据块长度,单位为DataBlock(32字节)。uint16_t类型,取值范围:blockLen∈[1, 65535]。

特别地,当dst位于C2PIPE2GM时,单位为128B;当dst位于C2时,表示源操作数的连续传输数据块长度,单位为64B。

针对Kirin 9030,当dst位于C2时,表示源操作数的连续传输数据长度,单位为32B。

srcGap

源操作数相邻连续数据块的间隔(前面一个数据块的尾与后面数据块的头的间隔),单位为DataBlock(32字节)。uint16_t类型,srcGap不要超出该数据类型的取值范围。

在L1 Buffer -> Fixpipe Buffer场景中,srcGap特指源操作数相邻连续数据块的间隔(前面一个数据块的头与后面数据块的头的间隔),单位为DataBlock(32字节)。uint16_t类型,srcGap不要超出该数据类型的取值范围。

dstGap

目的操作数相邻连续数据块间的间隔(前面一个数据块的尾与后面数据块的头的间隔),单位为DataBlock(32字节)。uint16_t类型,dstGap不要超出该数据类型的取值范围。

特别地,当dstLocal位于C2PIPE2GM时,单位为128B;当dstLocal位于C2时,单位为64B。针对Kirin 9030,当dstLocal位于C2时,单位为32B。

在L1 Buffer -> Fixpipe Buffer场景中,dstGap特指源操作数相邻连续数据块的间隔(前面一个数据块的头与后面数据块的头的间隔),单位为DataBlock(32字节)。uint16_t类型,dstGap不要超出该数据类型的取值范围。

约束说明

  • 暂存拷贝到L1时注意writeSize和writeOffset保证32字节对齐
  • 拷贝的内存不要超出初始化的SPM Buffer大小,否则会存在溢出踩踏等问题。

返回值说明

调用示例

AscendC::TPipe pipe; AscendC::TQue<AscendC::TPosition::VECIN, 1> inQueueSrcVecIn; int dataSize = 32; // 假设T为half类型,从ub上申请一块内存32 * sizeof(half)字节 int offset = 32; // 拷贝到spmBuffer时偏移32字节 pipe.InitBuffer(inQueueSrcVecIn, 1, dataSize * sizeof(half)); AscendC::LocalTensor<half> writeLocal = inQueueSrcVecIn.AllocTensor<half>(); AscendC::DataCopyParams copyParams{1, 2, 0, 0}; // 从ub上搬运一个连续传输数据块,一个数据块的长度为2个datablock,一个datablock为32bytes pipe.WriteSpmBuffer(writeLocal, copyParams, offset);
AscendC::TPipe pipe; AscendC::TQue<AscendC::TPosition::VECIN, 1> inQueueSrcVecIn; int dataSize = 32; // 假设T为half类型,从ub上申请一块内存32 * sizeof(half)字节 int offset = 32; // 拷贝到spmBuffer时偏移32字节 pipe.InitBuffer(inQueueSrcVecIn, 1, dataSize * sizeof(half)); AscendC::LocalTensor<half> writeLocal = inQueueSrcVecIn.AllocTensor<half>(); pipe.WriteSpmBuffer(writeLocal, dataSize, offset);

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/797406/

相关文章:

  • 黄金变现选对平台少走弯路,厦门 5 家机构测评:收的顶全国连锁更放心 - 奢侈品回收测评
  • AI-Trader API完全参考手册:从注册到交易的完整接口指南
  • 【信息科学与工程学】【制造工程】【通信工程】第一百篇 核心路由器参数构建框架04
  • 2026年多模态中医四诊仪行业选型分析:主流品牌核心能力与场景适配指南 - 产业观察网
  • Triplet Loss调参实战:Margin设多少?Batch Size怎么选?我的模型为什么收敛慢?
  • 2026年旱地冰壶定制厂家推荐:张家口市中聚新材料科技有限公司 - 品牌推荐官
  • APEX硬件运动引擎+8KB FIFO:ICM-45686的片上算法与数据管理能力
  • 微信小程序交互实战(1)— 从bindtap到setData的数据驱动视图更新
  • 西安高新鑫伟瑞家具维修:高陵专业的沙发翻新公司有哪些 - LYL仔仔
  • 靶向心血管系统的腺相关病毒(AAV)血清型及启动子选择
  • 无锡留学中介机构哪家好?2026年稳定可靠之选 - 速递信息
  • 动态投资组合优化与量子计算应用
  • 如何在 Linux 中查看所有活动的网络连接?
  • 10大排行TOP1|2026广州聚杰芯科交调系统,品质靠谱不负期待 - 品牌速递
  • 如何快速上手SREWorks:10个必备运维场景实战指南
  • 还在手写 Redis 工具类?这个全能组件让缓存、锁、限流、ID、GEO 一键搞定
  • JimuReport积木报表 — 实战API数据源动态参数与分页优化
  • 【信息科学与工程学】【财务管理】 第二十三篇 ICT行业商业逻辑分析框架03
  • 国内电力预防性试验检测机构核心实力排行盘点 - 速递信息
  • 2026年智能中医四诊仪行业选型指南:核心标准、主流产品与场景适配解析 - 产业观察网
  • 深圳超鸿再生资源:深圳靠谱的工厂酒楼设备回收哪个好 - LYL仔仔
  • 【STM32CubeMX实战】HAL库驱动编码器电机:从PWM调速到速度闭环控制
  • 6G Open-RAN安全新突破!这款模拟器揭秘信任感知ISAC的核心能力【附python代码】
  • OneNote插件安装避坑指南:从Gem、Onetastic到HighLight,一次搞定所有疑难杂症
  • 2026年不锈钢工程雕塑品牌推荐榜:户外、拉丝等多样类型,设计安装实力之选 - 速递信息
  • CANN 3D最大池化反向传播算子
  • HFSS仿真避坑指南:手把手教你设置波端口与积分线(附空气波导完整流程)
  • 2026年郑州留学头部中介测评,收费合理哪家更靠谱 - 速递信息
  • ADRC-2.最速跟踪微分器TD-参数整定与工程实践
  • 别再死磕DPHY了!手把手教你用CPHY给MIPI接口提速(附带宽计算与选型指南)