当前位置: 首页 > news >正文

CANN/catlass Tile行广播乘法API

TileRowBroadcastMul

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

代码位置

[TOC]

功能说明

TileRowBroadcastMul实现 epilogue 阶段的广播乘法操作。将 UB 上行向量(1, n)广播到 (m, n) 矩阵后与输入逐元素相乘。通过AscendC::Mul+BinaryRepeatParamssrc1RepStride = 0)实现行广播。

  • 适用范围:所有架构(无架构特化)
  • 风格:非 TLA

模板原型

template < class ArchTag_, // 架构标签 class ComputeType_, // 计算数据类型 class TileShape_ // Tile 形状(含 ROW 和 COLUMN) > struct TileRowBroadcastMul;
模板参数说明
ArchTag_架构标签
ComputeType_Gemm::GemmType<ElementCompute, RowMajor>
TileShape_Tile 形状,Shape<ROW, COLUMN>

调用接口

void operator()( AscendC::LocalTensor<ElementCompute> const &ubOut, // 目的 UB AscendC::LocalTensor<ElementCompute> const &ubIn0, // 源 UB 0(m, n) AscendC::LocalTensor<ElementCompute> const &ubIn1 // 源 UB 1(1, n)行向量 )

通过AscendC::Mul+BinaryRepeatParamssrc1RepStride = 0)实现行广播。

调用示例

#include "catlass/epilogue/tile/tile_broadcast_mul.hpp" using namespace Catlass::Epilogue::Tile; using ComputeType = Gemm::GemmType<half, layout::RowMajor>; using TileShape = Shape<128, 256>; using BroadcastMul = TileRowBroadcastMul<Arch::AtlasA2, ComputeType, TileShape>; AscendC::LocalTensor<half> ubOut, ubIn0, ubIn1; BroadcastMul broadcastMul; broadcastMul(ubOut, ubIn0, ubIn1);

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/915435/

相关文章:

  • 别再只调包了!手撕SVM与BP神经网络,用MATLAB/Python复现健康数据分析全流程
  • Epson机器人T3系列与欧姆龙PLC通讯方案选型避坑:标准IO、Modbus还是Fins TCP?
  • Python yield 最通俗、最实用的讲解
  • 从零封装一个AS608的HAL库驱动:CubeMX配置、串口中断处理与模块化代码移植指南
  • 从ARIMA建模反推:为什么你的ADF检验结果总是不对?可能是这些预处理步骤没做好
  • 快手去水印视频解析在线提取:官方方法、工具风险与侵权界定全解 - 科技热点发布
  • DistilRoBERTa-Base-Paraphrase-v1-OpenMind:推荐系统中用户兴趣向量化的终极实践指南
  • 抖音本地保存不带水印的方法全解析含官方渠道合规方式与工具风险说明 - 科技热点发布
  • 手把手教你搞定四川广电九洲PTV-8698机顶盒刷机(HI3798M310高安版+当贝桌面)
  • 告别/dev/ttyUSB0:为思岚A2激光雷达创建永久别名,解决ROS2项目中的串口烦恼
  • KeyPhraseTransformer实战案例:如何用一行代码提取长文本中的关键主题?
  • 从零封装一个AS608的HAL库驱动:STM32CubeMX工程模板与可移植性设计详解
  • Stoic模型性能评估:准确预测蛋白质复合物组分比例的机器学习方法
  • GEAK框架:LLM驱动的Triton GPU内核生成技术解析
  • nanowhale-100m的fp32精度要求:为什么bf16会导致NaN问题及解决方案
  • 从SENet到GCNet:一文读懂注意力机制如何进化成更轻量的全局上下文模块
  • 2026年新疆管道源头厂家深度选型指南|荣华装备科技与竞品全景对标 - 企业名录优选推荐
  • LiteParse:开源轻量 PDF 解析工具,多格式支持、多语言适配,功能强大!
  • 润富黄金回收|2026 年 5 月南宁全城黄金回收指南:专业靠谱 + 免费上门 + 无套路变现全攻略 - 润富黄金珠宝行
  • ESP32C3串口引脚自由配置指南:告别SoftwareSerial,玩转HardwareSerial库
  • Cadence Allegro 17.4 过孔操作避坑指南:从‘废孔’检查到一键阵列,新手必看
  • 从0到1掌握distilbert-NER:新手必备的实体识别入门教程
  • 别再为Modbus地址发愁了!手把手教你用C# WinForm读写西门子S7-1500 PLC的浮点数
  • 避坑指南:在Vivado 2021.2中为MPSOC配置HPC接口缓存一致性(含FSBL与App代码)
  • 润富黄金回收|2026 年 5 月南宁黄金回收全攻略:行情解读 + 避坑技巧 + 真实案例 + FAQ 一站式指南 - 润富黄金珠宝行
  • 金价992元/克!荆州卖黄金别被坑,余生黄金回收(全国连锁)实测排名第一,附6家门店完整避坑指南 你有没有算过,家里那些闲置黄金现在值多少钱? - 润富黄金珠宝行
  • 从SENet到GCNet:手把手带你复现论文核心代码,理解全局上下文建模的演进之路
  • FreeRTOS实战:用队列和队列集搞定多任务间的“聊天”与“排队”(附代码避坑)
  • GLM-5-w4a8-mtp-QuaRot:终极Ascend NPU大模型量化部署指南
  • ADI USBi仿真器实战:从开箱到调试SigmaDSP/ADAU1452的完整避坑指南