当前位置: 首页 > news >正文

CANN/asc-devkit: Reg矢量存储对齐接口

asc_storealign

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT

功能说明

reg计算数据搬运接口,适用于从矢量数据寄存器连续对齐搬出到UB的场景,接口使用repeat stride模式。

函数原型

// repeat stride模式搬出 __simd_callee__ inline void asc_storealign(__ubuf__ int8_t* dst_align32b, vector_int8_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign(__ubuf__ uint8_t* dst_align32b, vector_uint8_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign(__ubuf__ fp8_e5m2_t* dst_align32b, vector_fp8_e5m2_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign(__ubuf__ fp8_e4m3fn_t* dst_align32b, vector_fp8_e4m3fn_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign(__ubuf__ hifloat8_t* dst_align32b, vector_hifloat8_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign(__ubuf__ fp8_e8m0_t* dst_align32b, vector_fp8_e8m0_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign(__ubuf__ int16_t* dst_align32b, vector_int16_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign(__ubuf__ uint16_t* dst_align32b, vector_uint16_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign(__ubuf__ half* dst_align32b, vector_half src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign(__ubuf__ bfloat16_t* dst_align32b, vector_bfloat16_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign(__ubuf__ int32_t* dst_align32b, vector_int32_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign(__ubuf__ uint32_t* dst_align32b, vector_uint32_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign(__ubuf__ float* dst_align32b, vector_float src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) // repeat stride模式搬出,同时开启硬件自动Post Update模式 __simd_callee__ inline void asc_storealign_postupdate(__ubuf__ int8_t* dst_align32b, vector_int8_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign_postupdate(__ubuf__ uint8_t* dst_align32b, vector_uint8_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign_postupdate(__ubuf__ fp8_e5m2_t* dst_align32b, vector_fp8_e5m2_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign_postupdate(__ubuf__ fp8_e4m3fn_t* dst_align32b, vector_fp8_e4m3fn_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign_postupdate(__ubuf__ hifloat8_t* dst_align32b, vector_hifloat8_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign_postupdate(__ubuf__ fp8_e8m0_t* dst_align32b, vector_fp8_e8m0_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign_postupdate(__ubuf__ int16_t* dst_align32b, vector_int16_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign_postupdate(__ubuf__ uint16_t* dst_align32b, vector_uint16_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign_postupdate(__ubuf__ half* dst_align32b, vector_half src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign_postupdate(__ubuf__ bfloat16_t* dst_align32b, vector_bfloat16_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign_postupdate(__ubuf__ int32_t* dst_align32b, vector_int32_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign_postupdate(__ubuf__ uint32_t* dst_align32b, vector_uint32_t src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask) __simd_callee__ inline void asc_storealign_postupdate(__ubuf__ float* dst_align32b, vector_float src, uint16_t block_stride, uint16_t repeat_stride, vector_bool mask)

参数说明

参数名输入/输出描述
dst_align32b输出目的操作数(矢量)的起始地址。
src输入源操作数(矢量数据寄存器)。
block_stride输入源操作数单次迭代内不同DataBlock间地址步长。
repeat_stride输入源操作数相邻迭代间相同DataBlock的地址步长。
mask输入源操作数掩码(掩码寄存器),用于指示在计算过程中哪些元素参与计算。对应位置为1时参与计算,为0时不参与计算。mask未筛选的元素在输出中置零。

矢量数据寄存器和掩码寄存器的详细说明请参见reg数据类型定义.md。

返回值说明

流水类型

PIPE_V

约束说明

调用示例

// asc_storealign __ubuf__ int8_t* dst_align32b; vector_int8_t src; uint16_t block_stride; uint16_t repeat_stride; vector_bool mask = asc_create_mask_b8(PAT_ALL); asc_storealign(dst_align32b, src, block_stride, repeat_stride, mask); // asc_storealign_postupdate __ubuf__ int8_t* dst_align32b; vector_int8_t src; uint16_t block_stride; uint16_t repeat_stride; vector_bool mask = asc_create_mask_b8(PAT_ALL); asc_storealign_postupdate(dst_align32b, src, block_stride, repeat_stride, mask);

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/953251/

相关文章:

  • 避坑指南:QT调用周立功CAN库(zlgcan.dll)时,设备初始化、波特率设置的那些常见错误与排查方法
  • 音频可视化神器Sonic Visualiser:从零开始的音乐分析完整指南
  • AI提示驱动三维建模:用自然语言生成可打印OpenSCAD代码
  • 博尚机械树枝粉碎机:全型号参数表,支持按需定制,全国3-7天发货! - 会飞的懒猪
  • STM32F407双CAN触发式IAP升级工程:含FreeRTOS多任务APP与独立IAP引导程序
  • PDMS管道设计效率翻倍:手把手教你安装NakiPipeline插件(附常见错误排查)
  • 【Java基础知识 2】开发环境配置及idea的下载配置
  • 从理论到实践:welcome_tutorials神经网络库使用完全指南 [特殊字符]
  • 别再对着官方文档发愁了!手把手教你用Java解密抖音用户手机号(附完整代码)
  • Linux用户必看!3步创建Umi-OCR桌面快捷方式,告别繁琐命令行
  • 2026年6月钢格板厂家推荐:五大专业评测工程荷载防变形性价比高价格 - 品牌推荐
  • 深入ZYNQ7000的PL中断:手把手配置AXI GPIO中断,并解决IRQ_F2P只能高电平/上升沿触发的问题
  • DeepSeek-R1实战避坑指南:MoE架构、Tokenizer与Agent工程陷阱
  • STM32F103裸机移植CanFestival-3全记录:从源码下载到心跳包测试(附对象字典生成工具避坑)
  • 别只换源了!给Jetson Nano配置更高效的开发环境:Python虚拟环境与常用库一键安装脚本
  • 从智能车竞赛到DIY电源:固态电容替换液态电容的实战避坑指南(附发热对比测试)
  • 5 维 AI 训练数据 pipeline:巴别鸟智巢 + RAG + 5 段代码 + 89.3% F1 实战
  • 用PS给《五等分的花嫁》三玖制作专属隐藏图:手把手教你玩转图层与通道
  • Hadoop新手必看:运行Java程序报错‘No FileSystem for scheme hdfs’的保姆级排查与修复指南
  • Qt 5.15源码编译实战:从QtBase核心模块到Qt Creator,我的Windows全链路踩坑记录
  • 终极文件清理指南:如何使用Czkawka和Krokiet高效管理磁盘空间
  • MATLAB学生成绩分析工具包:带图形界面、一键运行、含测试数据与部署指南
  • 从零封装一个C#欧姆龙PLC通讯库:以NX系列Ethernet/IP为例
  • 高校机房管理毕业设计源码:SpringBoot后端+Vue前端+MySQL建库脚本全包
  • 别再死磕手册了!手把手教你用Vivado配置AXI GPIO(附中断实战代码)
  • SteamDB扩展本地化与多语言支持:如何参与翻译和国际化贡献
  • 基于Unity 3D的游戏设计与实现(设计源文件+万字报告+讲解)(支持资料、图片参考_降重降ai)_文章底部可以扫码
  • 从Jupyter到生产环境:机器学习模型服务化实战指南
  • Android-DecoView-charting常见问题解答:从入门到精通的10个实用技巧
  • FPGA新手避坑指南:从三八译码器到全加器,我的仿真波形为什么对不上?