当前位置: 首页 > news >正文

cann/ops-math矩阵乘压缩解压缩算子

MatMulV2CompressDequant

【免费下载链接】ops-math本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-math

产品支持情况

产品是否支持
Atlas A3 训练系列产品/Atlas A3 推理系列产品×
Atlas A2 训练系列产品/Atlas A2 推理系列产品×

功能说明

  • 算子功能:进行矩阵乘计算时,可先通过msModelSlim工具对右矩阵进行无损压缩,减少内存占用,然后通过本接口完成无损解压缩、矩阵乘和反量化计算。

  • 计算公式

    x2_unzip = unzip(x2, compressIndex, compressInfo) result = (x1 @ x2_unzip + bias) * deqScale

    其中x2表示右矩阵经过msModelSlim工具压缩后的一维数据,x2_unzip是接口内部进行无损解压缩后的数据(与原始右矩阵数据一致)。

参数说明约束说明

参数名输入/输出/属性描述数据类型数据格式
x1输入张量矩阵乘的左输入,2维张量。INT8ND
x2输入张量压缩后的矩阵乘右输入,1维张量。INT8ND
compressIndex输入张量矩阵乘右输入的压缩索引表,1维张量。INT8ND
bias输入张量偏置项,支持空指针传入。INT32ND
deqScale输入张量反量化参数,数据类型为UINT64。UINT64ND
offsetW输入张量矩阵乘右输入的偏移量,当前仅支持空指针传入。INT8ND
offsetX输入属性矩阵乘左输入的偏移量,当前仅支持0。INT32-
compressInfo输入数组压缩数据相关信息,包括压缩块信息和原始shape等。INT64-
out输出张量计算结果输出。FLOAT16ND
  • x1和x2_unzip的Reduce维度大小必须相等。
  • 所有输入张量不支持非连续的Tensor。
  • deqScale需要将原始float类型参数转换为UINT64数据格式。
  • 当前offsetW仅支持空指针,offsetX仅支持0。

调用说明

调用方式样例代码说明
aclnn接口[test_aclnn_matmul_compress_dequant](https://gitcode.com/cann/ops-math/blob/b3ab846cf8647b24507d2844eb4038511025223c/conversion/matmul_v2_compress_dequant/tests/ut/op_host/
op_api/test_aclnn_matmul_compress_dequant.cpp?utm_source=gitcode_repo_files)通过aclnnMatmulCompressDequant接口方式调用MatmulCompressDequant算子。

【免费下载链接】ops-math本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-math

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/785420/

相关文章:

  • 《龙虾OpenClaw系列:从嵌入式裸机到芯片级系统深度实战60课》038、多核架构入门——双核通信与共享内存
  • AI赋能分子相互作用:几何深度学习在药物与材料设计中的实践
  • 保姆级教程:用Tinc在Ubuntu 22.04上搭建一个加密的虚拟局域网(附多节点配置避坑指南)
  • UIKit开发者的桌面助手:生命周期、内存、并发与集合视图实践指南
  • 《网络攻防实践》实践八报告
  • 告别‘黑盒子’:用一台标准服务器搞定防火墙、路由和DHCP,聊聊NFV在家庭和企业网关的实战应用
  • XHS-Downloader:专业级小红书内容采集与批量下载技术方案
  • Rust轻量级LLM推理框架graniet/llm:本地部署与高性能实践
  • 4.30 redis简介
  • 强化学习中的文化累积:从个体智能到群体智慧的进化范式
  • AR-LLM大规模部署下的自然语言攻击:原理、风险与纵深防御实践
  • Datasette与ChatGPT插件:用自然语言查询数据库的实践指南
  • 20254209 实验三《Python程序设计》实验报告
  • 如何为你的大模型应用快速接入稳定且低成本的API服务
  • 别再硬扛了!Halcon局部形变匹配(Deformable)参数调优实战,解决工业零件轻微变形识别难题
  • 从萃取到分析全闭环,西恩士AI液冷清洁度萃取+分析全套设备深度解读 - 工业干货社
  • Hugging Face模型量化超快
  • 信息瓶颈如何影响生成模型学习量子相干性?
  • 量子计算中的高阶Magnus截断技术与应用
  • 从URDF到真实控制:手把手教你用ros2_control驱动一个两关节机器人(RRBot实战)
  • 液冷清洁度检测精度低?西恩士AI液冷清洁度分析系统重定义微米级检测 - 工业干货社
  • Trafilatura:高精度网页正文提取的Python利器与实战指南
  • 2026年华东屏蔽设备服务商推荐:常州新马屏蔽设备,以专业电磁防护技术赋能科研与工业安全 - 海棠依旧大
  • CktEvo框架:LLM驱动的RTL仓库级优化技术解析
  • DFAM设计思维:从3D打印众筹案例看增材制造设计实战
  • AI技术扩散六十年全景:从计算机科学到98%研究领域的渗透轨迹
  • 量子计算在强关联体系中的挑战与CSQD方法创新
  • HolmesGPT:基于大语言模型的福尔摩斯式推理智能体框架解析
  • 黑马崛起!黑龙江移远科技有限公司黑龙江对讲机最的大批发商逆袭,领跑东北对讲机芯赛道 - 黑龙江单工科技
  • FastDeploy全场景AI推理部署:从模型转换到多硬件平台实战