当前位置: 首页 > news >正文

CANN/catlass列广播乘法API

TileOneBlkColumnBroadcastMul

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

代码位置

[TOC]

功能说明

TileOneBlkColumnBroadcastMul实现 epilogue 阶段的列广播乘法操作。将形状 (m, 1) 的列向量在 block 内广播到 (m, n) 后与输入相乘。broadcast 粒度为一个 block(BYTE_PER_BLK字节),即 column 上的每 1 个元素广播到 1 个完整的 block。

  • 适用范围:所有架构(无架构特化)
  • 风格:非 TLA

模板原型

template < class ArchTag_, // 架构标签 class ComputeType_, // 计算数据类型 class TileShape_ // Tile 形状 > struct TileOneBlkColumnBroadcastMul;
模板参数说明
ArchTag_架构标签
ComputeType_Gemm::GemmType<ElementCompute, RowMajor>
TileShape_Tile 形状,Shape<ROW, COLUMN>

调用接口

void operator()( AscendC::LocalTensor<ElementCompute> const &ubOut, AscendC::LocalTensor<ElementCompute> const &ubIn0, AscendC::LocalTensor<ElementCompute> const &ubIn1 // (m, eleNumPerBlk) 形状 )

通过AscendC::Mul+BinaryRepeatParamssrc1RepStride = 0,src1BlkStride = 1)实现列广播。

调用示例

#include "catlass/epilogue/tile/tile_broadcast_mul.hpp" using namespace Catlass::Epilogue::Tile; using ComputeType = Gemm::GemmType<half, layout::RowMajor>; using TileShape = Shape<128, 256>; using ColumnBroadcastMul = TileOneBlkColumnBroadcastMul<Arch::AtlasA2, ComputeType, TileShape>; AscendC::LocalTensor<half> ubOut, ubIn0, ubIn1; ColumnBroadcastMul op; op(ubOut, ubIn0, ubIn1);

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/918863/

相关文章:

  • 为什么Poppins是2024年最佳免费多语言字体选择:5个实用理由与完整指南
  • 如何高效使用Iwara视频下载工具:5分钟快速入门指南
  • 对比一圈后!2026 最新降AI率平台测评与推荐 - 降AI小能手
  • VRM4U技术实现:Unreal Engine 5中的VRM模型运行时加载方案
  • distilbert-NER完全指南:如何用轻量级模型实现高效命名实体识别
  • 5个关键功能:如何用Lailloken-UI提升你的《流放之路》游戏体验
  • 向量引擎API中转站深度测评:如何实现低成本、高并发的向量检索
  • GPT2_PMC特殊token设计:@@Q_START@@与@@A_END@@的巧妙应用
  • Equalizer APO:3个步骤让你的Windows电脑音频达到专业级水准
  • UE5地编:材质蓝图
  • 提示工程核心:从沟通思维到实战框架,掌握AI高效协作的关键
  • ACE-Step 1.5 XL Turbo:8步生成高质量音乐的革命性AI模型深度解析
  • ELPV数据集:2624张电致发光图像如何提升太阳能电池缺陷检测准确率300%
  • Granite-3.0-2B-Base-GGUF vs 其他2B级模型:终极性能对比分析
  • 个性化推荐与活动配置方案
  • Stable Diffusion 3 Medium架构深度解析:MMDiT技术原理揭秘
  • 1.接口测试核心概念
  • 不确定信息认知对象的仿反馈认知智能机制与计算模型构建【附仿真】
  • DS4Windows完全指南:3步让PS4手柄在PC上完美运行
  • ComfyUI-WanVideoWrapper显存优化终极指南:解决低显存显卡视频生成难题
  • 3步实现CREO到URDF转换:creo2urdf工具让机器人仿真更简单
  • AI API 工程落地指南:从一次调用到稳定上线,开发者真正要补齐的 18 个关键环节
  • CatPPT技术解析:揭秘Gradient SLERP合并技术打造最强7B模型
  • WorkshopDL专业级跨平台模组下载终极指南:完整解决方案与技术架构深度解析
  • RecyclerBanner 开源项目教程
  • MLOps工具栈版本漂移危机:当Hugging Face更新v4.42,你的CI/CD流水线已静默失效47小时(紧急补丁包限时开放)
  • 避开这些坑!ESP32-C3 I²S开发中时钟配置与引脚映射的常见误区解析
  • 3大核心功能:League Akari英雄联盟智能工具全面解析
  • Platinum-MD:如何让尘封的MiniDisc设备在现代电脑上重获新生?
  • 不强取,不妄为,把《道德经》的克制智慧写进 SAP UI5 开发