当前位置: 首页 > news >正文

CANN/ops-nn AddRmsNormDynamicQuant算子

AddRmsNormDynamicQuant

【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品
Atlas 200I/500 A2 推理产品×
Atlas 推理系列产品×
Atlas 训练系列产品×
Kirin X90 处理器系列产品
Kirin 9030 处理器系列产品

功能说明

  • 算子功能:RmsNorm算子是大模型常用的归一化操作,相比LayerNorm算子,其去掉了减去均值的部分。DynamicQuant算子则是为输入张量进行对称动态量化的算子。AddRmsNormDynamicQuantV2算子将RmsNorm前的Add算子和RmsNorm归一化输出给到的1个或2个DynamicQuant算子融合起来,减少搬入搬出操作。AddRmsNormDynamicQuant算子相较于AddRmsNormDynamicQuantV2在RmsNorm计算过程中增加了偏置项betaOptional参数,即计算对应公式中的beta,以及新增输出配置项output_mask参数,用于配置是否输出对应位置的量化结果。

  • 计算公式:

    $$ x=x_{1}+x_{2} $$

    $$ y = \operatorname{RmsNorm}(x)=\frac{x}{\operatorname{Rms}(\mathbf{x})}\cdot gamma+beta, \quad \text { where } \operatorname{Rms}(\mathbf{x})=\sqrt{\frac{1}{n} \sum_{i=1}^n x_i^2+epsilon} $$

    $$ input1 =\begin{cases} y\cdot smoothScale1Optional & \ \ smoothScale1Optional\ != null \ y & \ \ smoothScale1Optional\ = null \end{cases} $$

    $$ input2 =\begin{cases} y\cdot smoothScale2Optional & \ \ smoothScale2Optional\ != null \ y & \ \ smoothScale2Optional\ = null \end{cases} $$

    $$ scale1Out=\begin{cases} row_max(abs(input1))/127 & outputMask[0]=True\ ||\ outputMask\ = null \ 无效输出 & outputMask[0]=False \end{cases} $$

    $$ y1Out=\begin{cases} round(input1/scale1Out) & outputMask[0]=True\ ||\ outputMask\ = null \ 无效输出 & outputMask[0]=False \end{cases} $$

    $$ scale2Out=\begin{cases} row_max(abs(input2))/127 & outputMask[1]=True\ ||\ (outputMask\ = null\ &\ smoothScale1Optional\ != null\ &\ smoothScale2Optional\ != null) \ 无效输出 & outputMask[1]=False\ ||\ (outputMask\ = null\ &\ (smoothScale1Optional\ = null\ ||\ smoothScale2Optional\ = null)) \end{cases} $$

    $$ y2Out=\begin{cases} round(input2/scale2Out) & outputMask[1]=True\ ||\ (outputMask\ = null\ &\ smoothScale1Optional\ != null\ &\ smoothScale2Optional\ != null)\ 无效输出 & outputMask[1]=False\ ||\ (outputMask\ = null\ &\ (smoothScale1Optional\ = null\ ||\ smoothScale2Optional\ = null)) \end{cases} $$

    公式中的row_max代表每行求最大值。

参数说明

参数名输入/输出/属性描述数据类型数据格式
x1输入表示标准化过程中的源数据张量,对应公式中的`x1`。FLOAT16、BFLOAT16ND
x2输入表示标准化过程中的源数据张量,对应公式中的`x2`。FLOAT16、BFLOAT16ND
gamma输入表示标准化过程中的权重张量,对应公式中的`gamma`。shape需要与x1最后一维一致。FLOAT16、BFLOAT16ND
smooth_scale1可选输入表示量化过程中得到y1使用的smoothScale张量,对应公式中的`smoothScale1Optional`。FLOAT16、BFLOAT16ND
smooth_scale2可选输入表示量化过程中得到y2使用的smoothScale张量,对应公式中的`smoothScale2Optional`。FLOAT16、BFLOAT16ND
beta可选输入表示标准化过程中的偏置项,对应公式中的`beta`。FLOAT16、BFLOAT16ND
epsilon可选属性
  • 用于防止除0错误,对应公式中的`epsilon`。
  • 默认值为1e-6。
FLOAT32-
output_mask可选属性
  • 表示输出的掩码,对应公式中的`outputMask`。只支持空指针,或者长度为2的数组。
  • 默认值为nullptr。
LISTBOOL-
y1输出表示量化输出Tensor,对应公式中的`y1Out`。INT8、HIFLOAT8、FLOAT8_E5M2、FLOAT8_E4M3FN、INT4ND
y2输出表示量化输出Tensor,对应公式中的`y2Out`。INT8、HIFLOAT8、FLOAT8_E5M2、FLOAT8_E4M3FN、INT4ND
x输出表示x1和x2的和,对应公式中的`x`。FLOAT16、BFLOAT16ND
scale1输出第一路量化的输出,对应公式中的`scale1Out`。FLOAT32ND
scale2输出第二路量化的输出,对应公式中的`scale2Out`。FLOAT32ND
  • Ascend 950PR/Ascend 950DT :

    • 暂不支持可选属性output_mask的配置。
    • 输出参数y1y2的数据类型不支持INT4。
  • Atlas A3 训练系列产品/Atlas A3 推理系列产品 、 Atlas A2 训练系列产品/Atlas A2 推理系列产品 :

    输出参数y1y2的数据类型仅支持INT4、INT8。

  • Kirin X90/Kirin 9030处理器系列产品: x1、x2、gamma、smooth_scale1、smooth_scale2、beta和x的数据类型不支持BFLOAT16。 y1和y2不支持HIFLOAT8、FLOAT8_E5M2、FLOAT8_E4M3FN、INT4。

约束说明

  • 当output_mask不为空时,参数smooth_scale1有值时,则output_mask[0]必须为True。参数smooth_scale2有值时,则output_mask[1]必须为True。

  • 当output_mask为空时,参数smooth_scale2有值时,参数smooth_scale1不能为空。

调用说明

调用方式样例代码说明
aclnn接口test_aclnn_add_rms_norm_dynamic_quant通过aclnnAddRmsNormDynamicQuant接口方式调用AddRmsNormDynamicQuant算子。
aclnn接口test_aclnn_add_rms_norm_dynamic_quant_v2通过aclnnAddRmsNormDynamicQuantV2接口方式调用AddRmsNormDynamicQuant算子。
图模式-通过算子IR构图方式调用AddRmsNormDynamicQuant算子。

【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/794399/

相关文章:

  • 市面上比较好的水质稳定剂厂家哪家好2026年参考 - 品牌排行榜
  • 从脚本运维到AI自治运维,全链路可观测性重构,SITS 2026标准下9类典型故障自动根因定位率突破91.7%
  • 6G AI原生RAN的算力挑战与TensorPool架构解析
  • 终极指南:使用TCC-G15开源温度控制软件彻底解决Dell G15笔记本散热问题
  • 术语俗话 --- 什么是同步和异步
  • 【信息科学与工程学】计算机科学与自动化 第一百三十篇 GPU芯片设计核心框架与公式03
  • 3分钟掌握百度网盘提取码智能获取技巧:baidupankey工具全解析
  • 情绪总在“亢奋”与“绝望”间横跳?在青岛,如何找对心灵的“避风港”? - 品牌排行榜
  • 如何免费解密网易云音乐NCM文件:终极指南释放你的音乐自由
  • 华为CANN异或求和算子
  • 2026年浙江PH调节剂厂家有哪些?行业相关企业梳理 - 品牌排行榜
  • 【信息科学与工程学】【物理/化学科学和工程技术】知识体系04 缺陷化学 第二部分 总纲
  • 手机号定位神器:3秒查询陌生来电归属地,地图精准定位位置
  • Notify.js性能优化指南:提升通知系统的响应速度
  • 从格罗滕迪克到罗巴切夫斯基:逆境中的创造与几何的突破 —— 数学思想如何在质疑中前行
  • XUnity.AutoTranslator完整指南:让Unity游戏告别语言障碍的终极解决方案
  • 2026浙江PH调节剂厂家推荐榜 - 品牌排行榜
  • 【信息科学与工程学】【人工智能】【数字孪生】【游戏科学】主要数学模型-第八篇 计算血液学
  • CANN/asc-devkit make_int2向量构造函数
  • Flutter 跨平台实战:OpenHarmony 健康管理应用 Day6|首页读取本地存储并卡片展示个人健康信息
  • Yeti性能优化技巧:10个方法提升威胁情报处理效率
  • B+树、、
  • 基于Vue 3与JSON数据构建MBTI运势生成器:前端实战开发指南
  • 【Hermes:实战场景】36、Hermes Agent + Home Assistant 集成全攻略:让 AI 替你控制全屋智能
  • 【信息科学与工程学】【人工智能】【数字孪生】【游戏科学】主要数学模型-第九篇 计算神经科学
  • 如何快速解密网易云音乐NCM文件:5步完成格式转换的完整指南
  • 智能高效:Seraphine英雄联盟辅助工具终极使用指南
  • 孤舟笔记 IO 与网络编程篇四 IO多路复用到底是什么?select/poll/epoll一篇搞懂
  • 把轻量接口做成真正可用的业务入口,聊透 ABAP HTTP Service Editor 的开发节奏
  • TVA与RV协同赋能具身机器人运动控制(3)