当前位置: 首页 > news >正文

CANN/ops-nn 去量化SwiGLU量化算子

DequantSwigluQuant

【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品
Atlas 200I/500 A2 推理产品×
Atlas 推理系列产品×
Atlas 训练系列产品×
Kirin X90 处理器系列产品
Kirin 9030 处理器系列产品

功能说明

  • 算子功能:在Swish门控线性单元激活函数前后添加dequant和quant操作,实现x的DequantSwigluQuant计算。

  • swiglu_mode为0时的计算公式:

    $$ dequantOut_i = Dequant(x_i) $$

    $$ swigluOut_i = Swiglu(dequantOut_i)=Swish(A_i)*B_i $$

    $$ out_i = Quant(swigluOut_i) $$

    其中,Ai表示dequantOuti的前半部分,Bi表示dequantOuti的后半部分。

  • swiglu_mode为1时的计算公式:

    $$ dequantOut_i = Dequant(x_i) $$

    $$ x_glu = x_glu.clamp(min=None, max=clamp_limit) $$

    $$ x_linear = x_linear.clamp(min=-clamp_limit, max=clamp_limit) $$

    $$ out_glu = x_glu * sigmoid(glu_alpha * x_glu) $$

    $$ swigluOut_i = out_glu * (x_linear + glu_bias) $$

    $$ out_i = Quant(swigluOut_i) $$

    其中,x_glu表示dequantOuti的偶数索引部分,x_linear表示dequantOuti的奇数索引部分。

参数说明

参数名输入/输出/属性描述数据类型数据格式
x输入输入待处理的数据,公式中的x。FLOAT16、BFLOAT16、INT32ND
weight_scale输入-FLOATND
activation_scale输入激活函数的反量化scale。FLOATND
bias输入Matmul的bias,公式中的bias。FLOAT、FLOAT16、BFLOAT16、INT32ND
quant_scale输入量化的scale,公式中的quant_scale。FLOAT、FLOAT16ND
quant_offset输入量化的offset。FLOATND
group_index输入MoE分组需要的group_index。INT64ND
activate_left属性表示是否对输入的左半部分做swiglu激活。BOOL-
quant_mode属性表示使用动态量化。STRING-
dst_type属性表示指定输出y的数据类型。INT64-
round_mode属性表示对输出y结果的舍入模式。STRING-
activate_dim属性表示进行swish计算时,选择的指定切分轴。INT64-
swiglu_mode属性表示swiglu的计算模式。INT64-
clamp_limit属性表示变体swiglu使用的门限值。FLOAT-
glu_alpha属性表示变体swiglu使用的参数。FLOAT-
glu_bias属性表示变体swiglu使用的偏差参数。FLOAT-
y输出-INT8、FLOAT8_E5M2、FLOAT8_E4M3FN、FLOAT4_E2M1、FLOAT4_E1M2ND
scale输出-FLOATND
  • Kirin X90/Kirin 9030 处理器系列产品:
    • 输入x:数据类型不支持BFLOAT16。
    • 输入bias:数据类型不支持BFLOAT16。
    • 输入quant_scale:数据类型不支持FLOAT16。
    • 输出y:数据类型不支持FLOAT8_E5M2、FLOAT8_E4M3FN、FLOAT4_E2M1、FLOAT4_E1M2。

约束说明

  • Ascend 950PR/Ascend 950DT :

    • 输入x对应activate_dim的维度需要是2的倍数,且x的维数必须大于1维。
    • 当输入x的数据类型为INT32时,weight_scale不能为空;当输入x的数据类型不为INT32时,weight_scale不允许输入,传入空指针。
    • 当输入x的数据类型不为INT32时,activation_scale不允许输入,参数置为空指针。
    • 当输入x的数据类型不为INT32时,bias不允许输入,参数置为空指针。
    • 当输出y的数据类型为FLOAT4_E2M1、FLOAT4_E1M2时,y的最后一维需要是2的倍数。
    • 输出y的尾轴不超过5120.
  • Atlas A2 训练系列产品/Atlas A2 推理系列产品 、 Atlas A3 训练系列产品/Atlas A3 推理系列产品 :

    • swiglu_mode、clamp_limit、glu_alpha和glu_bias四个参数用于GPT-OSS变体SwiGLU的使用。
    • x的最后一维需要是2的倍数,且x的维数必须大于1维。
    • 当quant_mode为static时,quant_scale和quant_offset为1维,值为1;quant_mode为dynamic时,quant_scale和quant_offset
    • 算子支持的输入张量的内存大小有上限,校验公式:weight_scale张量内存大小+bias张量内存大小+quant_scale张量内存大小+quant_offset张量内存大小 + (activation_scale张量内存大小 + scale张量内存大小)/40 + x张量最后一维H内存大小 * 10 < 192KB。

调用说明

调用方式调用样例说明
aclnn调用test_aclnn_dequant_swiglu_quant通过aclnnDequantSwigluQuant接口方式调用DequantSwigluQuant算子。
aclnn调用test_aclnn_dequant_swiglu_quant_v2通过aclnnDequantSwigluQuantV2接口方式调用DequantSwigluQuant算子。
图模式调用-通过算子IR构图方式调用DequantSwigluQuant算子。

【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/793362/

相关文章:

  • CPLD在键盘扩展中的低功耗设计与实现
  • 【信息科学与工程学】【通信工程】第二篇 网络的主要算法03 主要函数(1)L1物理层函数<3>
  • 【审计专栏-监督监管领域】【信息科学与工程学】【社会科学】第十篇 社会底层核心规则(核心权力、核心利益、核心资源绑定、私下运作、关键价值交换、上下博弈)04
  • 基于SpringBoot的鲜花在线订花平台毕业设计源码
  • CANN/asc-devkit截断函数API文档
  • CANN/ops-nn三维平均池化反向传播算子
  • 通过 Taotoken 的 Token Plan 套餐在 Ubuntu 长期项目中实现预算可控
  • 【C++笔记】-- 七种排序流食般讲解
  • CLI桥接器设计:用Go实现开源工具一键安装与跨平台管理
  • CANN/asc-devkit SetValue API文档
  • 可配置处理器技术:嵌入式SOC设计的灵活加速方案
  • CANN/asc-devkit ReduceProd API文档
  • 开始添加性别+年龄自动识别系统
  • CANN/ops-nn: 原位加法RMS归一化算子
  • 《零基础学GPU KMD》专栏简介
  • Weaviate向量数据库实战:从官方示例到RAG应用开发全解析
  • 2018-11至2025-9 71个主要城市商品房租金均价数据(xlsx)
  • ARM CP15寄存器详解与底层开发实践
  • 【信息科学与工程学】计算机科学与自动化-——第十五篇云计算12- 裸金属
  • LInux常用指令(个人查询用)
  • CANN/ops-nn动态块MX量化算子
  • Payum实战案例:构建支持多种支付方式的电商平台完整指南 [特殊字符]
  • 3D堆叠封装技术:热挑战与优化方案
  • 【数据结构】与排序算法鏖战5天,我终于搞懂了排序的思路和实现--排序算法大全的保姆级攻略
  • 动态紧凑模型在电子热设计中的高效应用
  • ARM GICv3中断控制器与ICC_EOIR1寄存器详解
  • Paris注解处理器深度解析:从@Style到@StyleableChild的完整实现原理
  • 虽然市面上已经有人流量统计摄像头----但是我有价格优势
  • 12,Springboot3+vue3实现系统公告功能
  • 【C++ -Day7】封装实战 | 用类封装日志、配置和文件操作模块