当前位置: 首页 > news >正文

CANN/ops-nn RMS归一化动态量化算子

AddRmsNormDynamicQuantV2

【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT×
Atlas A3 训练系列产品/Atlas A3 推理系列产品×
Atlas A2 训练系列产品/Atlas A2 推理系列产品
Atlas 200I/500 A2 推理产品×
Atlas 推理系列产品×
Atlas 训练系列产品×
Kirin X90 处理器系列产品
Kirin 9030 处理器系列产品

功能说明

  • 算子功能:RmsNorm算子是大模型常用的归一化操作,相比LayerNorm算子,其去掉了减去均值的部分。DynamicQuant算子则是为输入张量进行对称动态量化的算子。AddRmsNormDynamicQuantV2算子将RmsNorm前的Add算子和RmsNorm归一化输出给到的1个或2个DynamicQuant算子融合起来,减少搬入搬出操作。

  • 计算公式:

    $$ x=x_{1}+x_{2} $$

    $$ y = \operatorname{RmsNorm}(x)=\frac{x}{\operatorname{Rms}(\mathbf{x})}\cdot gamma, \quad \text { where } \operatorname{Rms}(\mathbf{x})=\sqrt{\frac{1}{n} \sum_{i=1}^n x_i^2+epsilon} $$

    $$ yFP32=cast(y) $$

    • 若smoothScale1Optional和smoothScale2Optional均不输入,则y2Out和scale2Out输出无实际意义。计算过程如下所示:

    $$ scale1Out=row_max(abs(y))/127 $$

    $$ y1Out=round(y/scale1Out) $$

    • 若仅输入smoothScale1Optional,则y2Out和scale2Out输出无实际意义。计算过程如下所示:

    $$ input = y\cdot smoothScale1Optional $$

    $$ scale1Out=row_max(abs(input))/127 $$

    $$ y1Out=round(input/scale1Out) $$

    • 若smoothScale1Optional和smoothScale2Optional均输入,则算子的五个输出均为有效输出。计算过程如下所示:

    $$ input1 = y\cdot smoothScale1Optional $$

    $$ input2 = y\cdot smoothScale2Optional $$

    $$ scale1Out=row_max(abs(input1))/127 $$

    $$ scale2Out=row_max(abs(input2))/127 $$

    $$ y1Out=round(input1/scale1Out) $$

    $$ y2Out=round(input2/scale2Out) $$

    其中row_max代表每行求最大值。

参数说明

参数名输入/输出/属性描述数据类型数据格式
x1输入表示标准化过程中的源数据张量,对应公式中的`x1`。FLOAT16、BFLOAT16ND
x2输入表示标准化过程中的源数据张量,对应公式中的`x2`。FLOAT16、BFLOAT16ND
gamma输入表示标准化过程中的权重张量,对应公式中的`gamma`。shape需要与`x1`最后一维一致。FLOAT16、BFLOAT16ND
smooth_scale1可选输入表示量化过程中得到y1使用的smoothScale张量,对应公式中的`smoothScale1Optional`。FLOAT16、BFLOAT16ND
smooth_scale2可选输入表示量化过程中得到y2使用的smoothScale张量,对应公式中的`smoothScale2Optional`。FLOAT16、BFLOAT16ND
epsilon可选属性
  • 用于防止除0错误,对应公式中的`epsilon`。
  • 默认值为1e-6。
FLOAT-
y1输出表示量化输出Tensor,对应公式中的`y1Out`。INT8ND
y2输出表示量化输出Tensor,对应公式中的`y2Out`。INT8ND
y3输出表示rmsNorm的FLOAT32类型输出Tensor,对应公式中的`yFP32`。FLOAT32ND
y4输出表示量化输出Tensor,对应公式中的`y`。FLOAT16、BFLOAT16ND
x输出表示x1和x2的和,对应公式中的`x`。FLOAT16、BFLOAT16ND
scale1输出第一路量化的输出,对应公式中的`scale1Out`。FLOAT32ND
scale2输出第二路量化的输出,对应公式中的`scale2Out`。FLOAT32ND
  • Kirin X90/Kirin 9030处理器系列产品:x1、x2、gamma、smooth_scale1、smooth_scale2、y4和x的数据类型不支持BFLOAT16。

约束说明

调用说明

调用方式样例代码说明
图模式test_geir_add_rms_norm_dynamic_quant_v2通过算子IR构图方式调用AddRmsNormDynamicQuantV2算子。

【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/795935/

相关文章:

  • 终极解决方案:如何用VisualCppRedist AIO一键修复Windows运行库问题
  • 2026年上海厨房卫生间改造哪家好?最新权威TOP5实测推荐 - 资讯焦点
  • Sherpa-Onnx:跨平台离线语音处理技术的革命性突破
  • 别再只用split了!Python字符串转列表的3种实战场景与性能对比(含LeetCode真题)
  • 储能出海架构重构:摒弃传统x86工控机,基于ARM边缘节点的EMS策略下沉实战
  • CAN总线终端电阻:从120Ω与0.25W的选型,看信号完整性与系统鲁棒性设计
  • 3分钟掌握Windows界面自定义神器:让你的桌面焕然一新
  • m4s-converter:B站缓存视频转换终极指南,快速实现m4s到MP4的无损转换
  • CANN/GE AIPP内存获取API
  • 图神经网络终于能“上生产”了?SITS 2026发布首个支持实时增量训练的AI原生图引擎(附Benchmark对比:吞吐提升6.8×,延迟压至12ms)
  • 娱乐圈天降紫微星终结乱象,海棠山铁哥终结资源咖霸屏时代
  • 5分钟搞定!iperf3 Windows版:专业网络性能测试工具完全指南
  • DSU-Sideloader核心架构解析:深入理解Android动态系统更新的实现原理
  • 别再只用翻转和裁剪了!盘点CV项目中那些真正提升模型泛化能力的数据增强技巧(附PyTorch代码)
  • 英雄联盟本地智能助手:LeagueAkari的完整使用指南
  • 【审计专利】15审计系列之偷税漏税
  • 别再瞎猜了!手把手教你算清FPGA Aurora IP核的用户时钟(附8B/10B编码影响)
  • 别只盯着4K:用Topaz Video Enhance AI修复模糊视频,实测不同AI模型(Artemis vs. Theia)效果差异
  • 暗黑破坏神2存档编辑器终极指南:5分钟学会免费Web工具
  • CANN/GE动态输入算子样例
  • STM32对接LD3320语音模块,除了串口你还可以试试这个‘笨’办法:GPIO直连避坑指南
  • 从PCM到G.711a:一个电话语音编码的Windows实现踩坑实录(含FFplay验证方法)
  • 智慧工厂与养殖场的一体化光伏监控系统方案
  • sdrtrunk插件开发教程:如何扩展新的协议解码功能
  • 2026上海冷冻冷库安装公司电话推荐,高效服务快速上门 - 品牌2025
  • 别再折腾源码编译了!Ubuntu 22.04 LTS下用apt-get一键部署Asterisk PBX(附SIP账号配置详解)
  • CAN Busoff快慢恢复机制详解:从AUTOSAR CANSM参数到主机厂测试需求
  • 如何快速上手Fabric Carpet:10个必知核心功能详解
  • FanControl深度解析:解锁Windows风扇控制的专业级配置哲学
  • 暗黑破坏神2终极重生:3分钟让你的经典游戏焕然一新