当前位置: 首页 > news >正文

CANN / ops-cv 量化介绍

量化介绍

【免费下载链接】ops-cv本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv

量化广泛应用于深度学习模型中,特别是在推理过程中。通过量化,模型可以在硬件上更高效地运行,减少计算资源的消耗和加速推理过程,同时降低模型的存储需求。

CANN算子量化是指对神经网络中Matmul等矩阵(cube)类算子的输入Tensor从高bit到低bit转换的计算过程,同时生成对应的量化参数scale。当低bit的cube计算完成后,可通过量化参数scale将低bit数值转换回高bit数值,从而保证整体计算结果的正确性(效果与直接用高bit计算近似等价),并有效提升计算效率。

  • 静态量化:使用预先确定的量化参数进行量化。推理场景下对权重weight的量化一般采用静态量化,量化算子性能会更好些。
  • 动态量化:使用输入数据在线计算量化参数进行量化。推理场景下对激活activation的量化一般采用动态量化,更能适应数据的变化,精度更高;训练场景下为了提升量化精度,也一般采用动态量化。注意,动态量化因为在线生成量化参数,量化算子性能会略差些。

量化模式

量化模式(又称量化粒度)是指对算子的不同输入Tensor采用不同的量化计算级别,常见的量化计算模式包括:

说明:

  • m、n、k变量分别表示Tensor计算的不同轴大小。
  • 左矩阵、右矩阵分别指cube算子中用于矩阵乘法计算的两个输入Tensor,一般左矩阵代表激活activation、右矩阵代表权重weight,请用户按实际情况理解和使用。
  • pertensor量化(简称T量化):量化对象既可以是左矩阵,也可以是右矩阵,每个Tensor共用一个相同的量化参数。

    假设左矩阵shape为(m, k),右矩阵shape为(k, n),k为reduce轴,生成量化参数的shape为(1, )。

  • perchannel量化(简称C量化):量化对象是右矩阵,每个channel分别使用独立的量化参数。

    假设右矩阵shape为(k, n),k为reduce轴,生成量化参数的shape为(n, )。

  • pertoken量化(简称K量化):量化对象是左矩阵,每个token分别使用独立的量化参数。

    假设左矩阵shape为(m, k),k为reduce轴,生成量化参数的shape为(m, )。

  • pergroup量化(简称G量化):量化对象既可以是左矩阵,也可以是右矩阵,在reduce轴上对数据分组,每组使用独立的量化参数。

    • 假设左矩阵shape为(m, k),k为reduce轴,在k轴上分组,group size为gs,生成量化参数的shape为(m, k/gs)。
    • 假设右矩阵shape为(k, n),k为reduce轴,在k轴上分组,group size为gs,生成量化参数的shape为(k/gs, n)。

  • perblock量化(简称B量化):量化对象既可以是左矩阵,也可以是右矩阵,在所有轴上对数据分块,每块使用独立的量化参数。

    • 假设左矩阵shape为(m, k),k为reduce轴,在m、k轴上分别按(bs, bs)块对数据分组,bs为block size,生成量化参数的shape为(m/bs, k/bs)。
    • 假设右矩阵shape为(k, n),k为reduce轴,在k、n轴上分别按(bs, bs)块对数据分组,bs为block size,生成量化参数的shape为(k/bs, n/bs)。

常见组合量化

  • 全量化:一般是指对左、右矩阵均进行量化的模式,包括
    • pertensor-perchannel量化模式(简称T-C量化模式)
    • pertoken-perchannel量化模式(简称K-C量化模式)
    • pergroup-perblock量化模式(简称G-B量化模式)
    • pertensor-perchannel-pergroup量化模式(简称T-CG量化模式)
    • perblock-perblock量化模式(简称B-B量化模式)
  • 伪量化:一般是指对权重矩阵(weight)进行量化的模式,包括perchannel量化模式(简称C量化模式)。
  • mx量化:本质是Microscaling量化,通过动态调整缩放因子,在极低比特下(如1bit)保持模型精度。这里指pergroup-pergroup量化模式(简称G-G量化模式),是对于量化参数类型为FLOAT8_E8M0且group size为32的特例。

【免费下载链接】ops-cv本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/784827/

相关文章:

  • 教育AI演进:从自动化工具到混合智能协同的实践路径
  • 阿里FunASR模型体验:Speech Seaco Paraformer ASR,单文件批量处理全支持
  • CANN/PTO-ISA自定义算子示例
  • Taotoken多模型聚合平台助力智能客服场景降本增效
  • CANN/AMCT API接口文档
  • 去中心化AI架构解析:从区块链信任到分布式AI协作网络
  • 在Nodejs后端服务中集成稳定可靠的大模型调用能力
  • CANN/cannbot-skills A5设备约束指南
  • 2026届必备的六大降AI率助手实测分析
  • 自监督学习、能量模型与JEPA:构建下一代AI世界模型的核心技术
  • CANN社区机器人能力列表
  • 多模态大模型赋能港口,从视频孪生迈向空间原生智能
  • Phi-4-Reasoning-Vision商业应用:电商商品图深度解析+卖点自动生成方案
  • AI优化疫苗接种干预:ADVISER框架在尼日利亚公共卫生最后一公里的实践
  • FireRedASR-AED-L入门必看:1.1B参数大模型本地化部署全流程
  • 如何快速掌握鼠标键盘自动化:KeymouseGo完整入门指南
  • 全面掌握Windows驱动管理:DriverStore Explorer实战指南
  • 3分钟掌握微信聊天记录解密:WechatDecrypt让你的数据重获自由
  • CAPL编程避坑指南:搞懂NetWork Node里的全局变量、文件包含与编译那些事儿
  • 律师上课记干货太吃力!2026年3款b站视频怎么转文字工具,1分钟导出整理办案笔记
  • CANN/catlass 逐令牌反量化
  • 等变神经网络:用群论与表示论构建具备对称性先验的AI模型
  • 如何快速掌握Video DownloadHelper CoApp:新手入门完整指南
  • CANN/catccos AllGather反量化算子
  • CANN/ATVC ACLNN调用示例
  • 从SPI到8080:一文搞懂MIPI DBI(Type C)如何驱动你的LCD屏并优化帧率
  • CANN/AMCT KV-Cache量化模型创建
  • 乡村全科执业医师培训机构哪个好?这份2026最新调研报告告诉你 - 医考机构品牌测评专家
  • RT2.0 动态 Shape 执行器特性分析
  • 从“算力竞赛”到“业务落地”:AI营销一体机选型的几点思考