当前位置: 首页 > news >正文

CANN/catlass小形状矩阵乘法示例

SmallMatmul Example Readme

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

Code Organization

├── 31_small_matmul │ ├── CMakeLists.txt # CMake build file │ ├── README.md │ └── small_matmul.cpp # Main file

Function

  • This operator reduces unnecessary scalar computation overheads based on basic_matmul in the small-shape scenarios.
  • The number of basic blocks to be tiled cannot exceed the number of cube cores, that is,ceilDiv(m, L1TileShape::M) × ceilDiv(n, L1TileShape::N) ≤ aicCoreNum.
  • The k axis cannot exceedL1TileShape::K.

Example

  • After obtaining the code, compile the operator executable file. For details, see Template Library Quick Start.
  • Execute the operator.
# Compile a specified test case. bash scripts/build.sh 31_small_matmul cd output/bin # Executable file name | Matrix M-axis | N-axis | K-axis | Device ID # The device ID is optional. The default value is 0. ./31_small_matmul 256 1024 256 0

If the following result is displayed, precision verification is successful.

Compare success.

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/1071194/

相关文章:

  • JoyAI-Image-Edit-Plus-Diffusers未来路线图:AI图像编辑技术发展趋势
  • cann/runtime随机数生成示例
  • 002 使用单片机实现的逻辑分析仪——扩展篇
  • find、stat、touch、tree、scp、crontab指令相关应用
  • 5个实用技巧:用TimetableLayout打造专业级Android时间表应用
  • 性能优化秘籍:TP=2 vs TP=4配置对比,找到最佳GPU资源利用方案
  • TruecallerJS API深度解析:如何构建专业的电话号码验证系统
  • 解锁Java生态宝藏:从零构建企业级知识图谱的技术架构深度剖析
  • 98个公共Tracker完整指南:彻底解决BT下载卡顿难题
  • Bernini-R-GGUF-ComfyUI核心功能解析:为什么它是视频创作者的终极工具
  • ComfyUI-LTXVideo完整指南:如何在ComfyUI中轻松生成高质量AI视频
  • TruecallerJS实战应用:10个真实场景下的电话号码查询解决方案
  • CANN运行时设备到主机同步内存复制示例
  • Gemma-4-31B-StyleTune vs 传统微调:终极VRAM需求对比分析
  • 5个实战项目:用Deep Learning Illustrated代码构建深度学习应用
  • Open3D (C++) 三维轨迹点的等间距三次样条平滑与插值(间距可控)
  • Sapiens2-Pose-0.4B vs 其他姿态估计模型:为什么它是最佳选择?[特殊字符]
  • CANN ops-nn ApplyAdagradD算子
  • Edge-TTS终极指南:专业诊断与高效解决语音合成错误的完整方案
  • CANN/PTO-ISA SET_QUANT_VECTOR指令
  • 如何3分钟上手vite-vue3-chrome-extension-v3?从安装到第一个扩展的完整指南
  • C# vs C++:垃圾回收的“世纪对决“:90%的开发者都选错了!
  • Bernini-R vs 其他视频AI工具:为什么选择GGUF版本的ComfyUI集成方案?[特殊字符]
  • Playground开发者必读:贡献代码与参与社区的最佳实践指南 [特殊字符]
  • CANN/catlass优化矩阵乘法示例
  • 10分钟掌握vite-vue3-chrome-extension-v3国际化:多语言扩展从零开始
  • 快速上手hspec:10分钟学会Haskell BDD测试框架 [特殊字符]
  • JoyAI-Image-Edit-Plus-Diffusers核心功能解析:Diffusers库的增强版图像编辑神器
  • 70款抖音快手封面边框模板设计动漫画电影视解说短剧视频透明图文模版
  • Ngx-restangular 测试策略:单元测试和集成测试完整指南