当前位置: 首页 > news >正文

CANN/asc-devkit SetMatmulConfigParams接口

SetMatmulConfigParams

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

功能说明

在计算Tiling时,用于自定义设置表1中的MatmulConfig参数。本接口中配置的参数对应的功能在Tiling与Kernel中需要保持一致,所以本接口中的参数取值,需要与Kernel侧对应的MatmulConfig参数值保持一致,详细MatmulConfig参数请见表2。

函数原型

void SetMatmulConfigParams(int32_t mmConfigTypeIn = 1, bool enableL1CacheUBIn = false, ScheduleType scheduleTypeIn = ScheduleType::INNER_PRODUCT, MatrixTraverse traverseIn = MatrixTraverse::NOSET, bool enVecND2NZIn = false)
void SetMatmulConfigParams(const MatmulConfigParams& configParams)

参数说明

表1参数说明

| 参数名 | 输入/输出 | 描述 | | --- | --- | --- | | mmConfigTypeIn | 输入 | 设置Matmul的模板类型,需要与Matmul对象创建的模板一致,当前只支持配置为0或1。
0:代表Norm模板
1:代表MDL模板,默认值为1 | | enableL1CacheUBIn | 输入 | 配置是否开启L1缓存UB计算块;推荐开启场景:MTE3和MTE2流水串行较多的场景。
false:不开启L1缓存UB计算块,默认值为false
true:开启L1缓存UB计算块

Atlas A3 训练系列产品/Atlas A3 推理系列产品不支持该参数。

Atlas A2 训练系列产品/Atlas A2 推理系列产品不支持该参数。

Atlas 推理系列产品AI Core支持该参数。

Atlas 200I/500 A2 推理产品不支持该参数。 | | scheduleTypeIn | 输入 | 配置Matmul数据搬运模式。参数取值如下:
ScheduleType::INNER_PRODUCT:默认模式,在K方向上做MTE1的循环搬运
ScheduleType::OUTER_PRODUCT:在M或N方向上做MTE1的循环搬运
ScheduleType::N_BUFFER_33:NBuffer33模板的数据搬运模式,MTE2每次搬运A矩阵的1x3个基本块,直至A矩阵所有3x3个基本块全载在L1 Buffer中 | | traverseIn | 输入 | Matmul做矩阵运算的循环迭代顺序,即一次迭代计算出[baseM, baseN]大小的C矩阵分片后,自动偏移到下一次迭代输出的C矩阵位置的偏移顺序。参数取值如下:

NOSET:0,当前无效。

FIRSTM:先往M轴方向偏移再往N轴方向偏移。

FIRSTN:先往N轴方向偏移再往M轴方向偏移。 | | enVecND2NZIn | 输入 | 是否开启ND2NZ。 | | configParams | 输入 | config相关参数,类型为MatmulConfigParams,结构体具体定义如下方代码所示。其中的参数说明请参考表2。 |

struct MatmulConfigParams { int32_t mmConfigType; bool enableL1CacheUB; ScheduleType scheduleType; MatrixTraverse traverse; bool enVecND2NZ; MatmulConfigParams( int32_t mmConfigTypeIn = 1, bool enableL1CacheUBIn = false, ScheduleType scheduleTypeIn = ScheduleType::INNER_PRODUCT, MatrixTraverse traverseIn = MatrixTraverse::NOSET, bool enVecND2NZIn = false) { mmConfigType = mmConfigTypeIn; enableL1CacheUB = enableL1CacheUBIn; scheduleType = scheduleTypeIn; traverse = traverseIn; enVecND2NZ = enVecND2NZIn; } };

表2MatmulConfigParams结构体内参数说明

| 参数名称 | 含义 | | --- | --- | | mmConfigType | 设置Matmul的模板类型,需要与Matmul对象创建的模板一致,当前只支持配置为0或1。
0:代表Norm模板
1:代表MDL模板,默认值为1 | | enableL1CacheUB | 配置是否开启L1缓存UB计算块;推荐开启场景:MTE3和MTE2流水串行较多的场景。
false:不开启L1缓存UB计算块,默认值为false
true:开启L1缓存UB计算块 | | scheduleType | 配置Matmul数据搬运模式。参数取值如下:
ScheduleType::INNER_PRODUCT:默认模式,在K方向上做MTE1的循环搬运
ScheduleType::OUTER_PRODUCT:在M或N方向上做MTE1的循环搬运
ScheduleType::N_BUFFER_33:NBuffer33模板的数据搬运模式,MTE2每次搬运A矩阵的1x3个基本块,直至A矩阵所有3x3个基本块全载在L1 Buffer中 | | traverse | Matmul做矩阵运算的循环迭代顺序,即一次迭代计算出[baseM, baseN]大小的C矩阵分片后,自动偏移到下一次迭代输出的C矩阵位置的偏移顺序。参数取值如下:

NOSET:0,当前无效。

FIRSTM:先往M轴方向偏移再往N轴方向偏移。

FIRSTN:先往N轴方向偏移再往M轴方向偏移。 | | enVecND2NZ | 是否开启ND2NZ |

返回值说明

约束说明

调用示例

auto ascendcPlatform = platform_ascendc::PlatformAscendC(context->GetPlatformInfo()); matmul_tiling::MatmulApiTiling tiling(ascendcPlatform); tiling.SetAType(matmul_tiling::TPosition::GM, matmul_tiling::CubeFormat::ND, matmul_tiling::DataType::DT_FLOAT16); tiling.SetBType(matmul_tiling::TPosition::GM, matmul_tiling::CubeFormat::ND, matmul_tiling::DataType::DT_FLOAT16); tiling.SetCType(matmul_tiling::TPosition::GM, matmul_tiling::CubeFormat::ND, matmul_tiling::DataType::DT_FLOAT); tiling.SetBiasType(matmul_tiling::TPosition::GM, matmul_tiling::CubeFormat::ND, matmul_tiling::DataType::DT_FLOAT); tiling.SetShape(1024, 1024, 1024); tiling.SetOrgShape(1024, 1024, 1024); tiling.SetBias(true); tiling.SetBufferSpace(-1, -1, -1); tiling.SetMatmulConfigParams(0); // 额外设置 // matmul_tiling::MatmulConfigParams configParams = // {1, false, matmul_tiling::ScheduleType::OUTER_PRODUCT, matmul_tiling::MatrixTraverse::FIRSTM}; // tiling.SetMatmulConfigParams(configParams); optiling::TCubeTiling tilingData; int ret = tiling.GetTiling(tilingData);

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

http://www.jsqmd.com/news/1130130/

相关文章:

  • 从CSS到LESS/SCSS:Golden Grid System预处理器版本的高效定制技巧
  • 终极指南:如何用py-kms搭建免费的Windows和Office激活服务器
  • 企业级金融AI模型部署:Kronos架构设计与生产环境实战指南
  • 从零开始搭建智能数字人:Linly-Talker完整配置指南
  • PyTorch模型对抗性测试从未如此简单:RobustBench自动化评估流程终极指南
  • 大麦网抢票神器:Python自动化抢票终极指南
  • 如何永久保存微信聊天记录?这款开源工具让你的数据真正属于你![特殊字符]
  • 5分钟掌握鸣潮自动化工具:小白也能轻松上手的终极指南
  • 终极GTA5修改器YimMenu:10分钟打造你的洛圣都超能力
  • Shopware 6 高性能电商平台实战指南:5步快速部署与架构深度解析
  • 如何将普通视频转换为VR 3D格式:nunif开源AI工具终极指南
  • 3种方案解锁Realtek RTL8125 2.5GbE网卡极限性能:DKMS驱动深度解析
  • RevokeMsgPatcher深度解析:Windows平台微信QQ防撤回补丁逆向工程全揭秘
  • FXTest数据库架构深度解析:SQLite与MySQL双引擎支持的设计原理
  • Three.js 城市混合扫光教程
  • CANN/asc-devkit SetScaleAType矩阵设置
  • 为什么选择Real-Time C++?10个理由让你爱上嵌入式实时编程
  • 如何实现多平台音乐API统一接入:Listen1 API架构深度解析
  • 3步让旧Mac焕发新生:OpenCore Legacy Patcher完整安装指南
  • 终极指南:3分钟掌握Filament主题色彩系统的强大定制能力
  • 三步完成国家中小学智慧教育平台电子课本PDF下载:完全免费的高效解决方案
  • 如何免费升级老款Mac:OpenCore Legacy Patcher完整指南
  • DouZero实战指南:用深度强化学习打造你的斗地主AI助手终极方案
  • OpCore Simplify终极指南:15分钟完成黑苹果EFI自动化配置
  • 终极Python通达信数据解析方案:免费获取完整股票数据的完整指南
  • 解锁跨平台观影新体验:ZyPlayer完整使用指南
  • Django Unfold:如何用5分钟彻底改造你的Django管理后台体验
  • Varnish Dashboard与Nginx/Apache集成:生产环境部署完全指南 [特殊字符]
  • RevokeMsgPatcher深度解析:Windows平台二进制补丁技术实战指南
  • 终极Testcontainers for .NET实战指南:5大技巧提升容器化测试效率