当前位置: 首页 > news >正文

CANN/asc-devkit L1到L0A Mx矩阵搬运

asc_copy_l12l0a_mx

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT

功能说明

将Mx scale矩阵从L1 Buffer搬运到L0A Buffer。

函数原型

__aicore__ inline void asc_copy_l12l0a_mx(uint64_t dst, __cbuf__ fp8_e8m0_t* src, uint16_t x_start_pos, uint16_t y_start_pos, uint8_t x_step, uint8_t y_step, uint16_t src_stride, uint16_t dst_stride) __aicore__ inline void asc_copy_l12l0a_mx_sync(uint64_t dst, __cbuf__ fp8_e8m0_t* src, uint16_t x_start_pos, uint16_t y_start_pos, uint8_t x_step, uint8_t y_step, uint16_t src_stride, uint16_t dst_stride)

参数说明

参数名输入/输出描述
dst输出目的操作数的地址。
src输入源操作数(Mx scale矩阵)的起始地址,数据类型为fp8_e8m0_t。
x_start_pos输入源操作数X轴方向的起始位置,即M维度方向,单位为1个分形(1个单位代表一个32B的分形)。
y_start_pos输入源操作数Y轴方向的起始位置,即K维度方向,单位为32B。
x_step输入源操作数X轴方向搬运长度,即M维度方向,单位为1个分形(1个单位代表一个32B的分形)。取值范围:[0, 255]。
y_step输入源操作数Y轴方向搬运长度,即K维度方向,单位为32B。取值范围:[0, 255]。
src_stride输入源操作数X轴方向前一个分形起始地址与后一个分形起始地址的间隔,单位为32B。
dst_stride输入目的操作数X轴方向前一个分形起始地址与后一个分形起始地址的间隔,单位为32B。

返回值说明

流水类型

PIPE_MTE1

约束说明

  • scale矩阵的分形固定为(16, 2, 16),对应L0A Buffer的分形为(16, 32, 16),占L0A Buffer地址的1 / 16,需要按照这种地址约束存放地址。
  • dst(L0A Buffer的地址)的数据类型支持fp4x2_e2m1_t、fp4x2_e1m2_t、fp8_e5m2_t、fp8_e4m3fn_t,src的数据类型支持fp8_e8m0_t。
  • dst、src的起始地址需要32字节对齐。

调用示例

__cbuf__ fp8_e8m0_t src[1024]; __ca__ fp8_e5m2_t dst[1024]; uint16_t x_start_pos = 0; uint16_t y_start_pos = 0; uint8_t x_step = 0; uint8_t y_step = 0; uint16_t src_stride = 8; uint16_t dst_stride = 8; uint64_t mx_dst_addr = static_cast<uint64_t>(reinterpret_cast<uintptr_t>(dst)) / 16; asc_copy_l12l0a_mx(mx_dst_addr, src, x_start_pos, y_start_pos, x_step, y_step, src_stride, dst_stride);

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/1042697/

相关文章:

  • Draggabilly完整指南:从零开始掌握JavaScript拖拽开发
  • LiveScan3D核心算法:ICP配准与多视角融合原理深度解析
  • 2026宜昌放心贵金属回收,CCIC 中检授权收黄金回收铂金回收白银回收持证实体门店 - 中安检金银铂钻回收
  • 福州靠谱二手腕表回收推荐,资质齐全实体门店可上门交易 - 讯息早知道
  • 2026徐州放心贵金属回收,CCIC 中检授权收黄金回收铂金回收白银回收持证实体门店 - 中安检金银铂钻回收
  • indie-hacker-tools-plus支付解决方案:Stripe、Payoneer与Wise如何助力全球收款
  • 从3天到10分钟:OpCore-Simplify如何通过智能算法重构黑苹果配置流程
  • CANN/HCOMM CCU_ELSE执行控制
  • ComfyUI TTP Toolset未来 roadmap:即将支持的SD3模型与动态切片功能预览
  • S12Z BDC硬件握手协议:非侵入式调试与ACK脉冲机制详解
  • Material Design Extensions导航系统:SideNavigation与NavigationRail完全指南
  • 2026年真空搅拌脱泡一体机深度选型:如何匹配最佳方案 - 速递信息
  • 微信小程序地址选择器:数据驱动下的省市区三级联动架构解析
  • 淘汰婚嫁黄金不用低价转,郑州合扬专业回收报价公道 - 奢侈品交易观察员
  • Pwndocker常见问题解决:libc版本兼容性与依赖库问题排查
  • 2026孝感放心贵金属回收,CCIC 中检授权收黄金回收铂金回收白银回收持证实体门店 - 中安检金银铂钻回收
  • 2026温州放心贵金属回收,CCIC 中检授权收黄金回收铂金回收白银回收持证实体门店 - 中安检金银铂钻回收
  • 1-4 从零搭建深层神经网络:吴恩达课程核心实践指南
  • 企业级ChatTTS私有化部署:离线环境与国密SM4音频加密传输实战
  • 2026上海黄金回收实测:6家门店排名,首选正规连锁收的顶 - 奢侈品回收评测
  • StegOnline:浏览器端图像隐写分析与数据隐藏的终极实战指南
  • 2026 江门黄金回收靠谱推荐!实测正规门店 + 避坑全攻略 - zzlzzl6688
  • 【毕业设计】基于 Django 的用户偏好全屋定制智能推送系统的设计与实现 基于推荐算法的家装全屋定制服务平台(源码+文档+远程调试,全bao定制等)
  • 如何永久保存你的微信聊天记录?三步搞定完整导出与备份方案
  • 2026 年西安.当年疯狂入手的包,如今闲置不如变现 - 讯息早知道
  • 大连首饰回收门店榜单,实地测评 5 家商家真实情况 - 讯息早知道
  • MC68HC908QF4 8位MCU断点与监控模块深度解析与调试实战
  • 如何通过Qwerty Learner提升英语打字速度:终极肌肉记忆训练指南
  • 5步打造你的专属AI语音助手:小智ESP32项目完全指南
  • 从数据到洞察:K-means聚类与三维可视化实战解析