当前位置: 首页 > news >正文

CANN/CATLASS单块广播操作

tile_broadcast_one_blk

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

代码位置

[TOC]

概述

tile_broadcast_one_blk模块实现 epilogue 阶段的 one-block 广播操作。将 UB 上的单个元素广播到整个 block(32B),常用于将 scalar scale/zero 点广播后参与向量计算。

API 清单

API风格说明
TileBroadcastOneBlk非 TLAAscendC::Brcb+BrcbRepeatParams
TileBroadcastOneBlkTlaTLATLA 版本,tensor.layout()(tensor.coord())偏移

调用示例

TileBroadcastOneBlk(非 TLA)

#include "catlass/epilogue/tile/tile_broadcast_one_blk.hpp" using namespace Catlass::Epilogue::Tile; using ComputeType = Gemm::GemmType<half, layout::RowMajor>; constexpr uint32_t COMPUTE_LENGTH = 256; using BroadcastOp = TileBroadcastOneBlk<Arch::AtlasA2, ComputeType, COMPUTE_LENGTH>; AscendC::LocalTensor<half> ubOut, ubIn; BroadcastOp broadcastOp; broadcastOp(ubOut, ubIn);

TileBroadcastOneBlkTla(TLA)

constexpr uint32_t COMPUTE_LENGTH = 256; auto layoutOut = tla::MakeLayout<half, layout::RowMajor>(COMPUTE_LENGTH, 32); auto layoutIn = tla::MakeLayout<half, layout::VectorLayout>(COMPUTE_LENGTH, 1); AscendC::LocalTensor<half> ubOutData, ubInData; auto ubOut = tla::MakeTensor(ubOutData, layoutOut, Arch::PositionUB{}); auto ubIn = tla::MakeTensor(ubInData, layoutIn, Arch::PositionUB{}); TileBroadcastOneBlkTla<Arch::AtlasA2, half, COMPUTE_LENGTH> op; op(ubOut, ubIn);

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/914120/

相关文章:

  • 终极指南:3分钟掌握MouseClick鼠标连点器,告别重复点击烦恼
  • 如何实现bloom-3b-conversational的NPU性能优化:3种快速推理方法全攻略
  • 大语言模型在喜剧创作中的创造力支持评估:量化与定性研究
  • ARM嵌入式开发中GCC内存对齐问题解析与优化
  • HGNN加速器优化:解决内存扩展与冗余访问挑战
  • 2026年口碑好的南京弹性体双螺杆造粒机/电缆料双螺杆造粒机公司对比推荐 - 品牌宣传支持者
  • ST10-F269微控制器RTC访问与XBUS外设配置详解
  • 如何永久珍藏你的数字记忆:WeChatMsg聊天记录保存终极指南
  • 蓝桥杯嵌入式备赛:用HAL库搞定UART串口收发(附省赛真题解析)
  • 告别死等:用STM32 HAL库的DMA+中断高效驱动I2C EEPROM
  • A51汇编器预定义宏在8051开发中的应用与技巧
  • 星际治理:基于区块链与DAO的跨行星社会架构设计
  • 2026年质量好的南京双螺杆造粒机/实验型双螺杆造粒机/南京电缆料双螺杆造粒机/氟塑料双螺杆造粒机源头工厂推荐 - 行业平台推荐
  • 高截止频率光学合成孔径技术解析【附代码】
  • AI创业避坑指南:如何避免“高速盲跑”,构建持久技术护城河
  • 15分钟掌握跨平台网络资源下载神器:轻松保存视频号、抖音、小红书内容
  • 如何解锁加密音乐文件?3种方法让你重新掌控个人音乐库
  • UE5 Lumen全局光照实战:如何用动态光照让你的场景告别“烘焙等待”,实现实时昼夜交替
  • 数据主义:从技术理念到价值信仰的演变与反思
  • 基于CBT原则的AI任务拆解:用微步骤对抗拖延与认知超载
  • Claude体验地图绘制方法论(企业级SOP首次解密)
  • 法律AI如何重塑律师工作流:从合同审阅到诉讼准备的人机协作实践
  • 从零开始:BepInEx游戏模组框架的完整使用指南
  • 谷歌AI搜索变革:EEAT与SGE如何重塑SEO与内容策略
  • Gemma-3-12b-it-GGUF多模态基准测试:VQA、图像描述等任务评估
  • 别再硬编码了!用ScriptableObject优雅管理你的Unity钥匙和门锁系统
  • 别再让开发乱加字段了!DBA必看的Oracle大表DDL避坑指南(含压缩表限制)
  • 2026年口碑好的工业涂料/有机硅防污涂料/宁波重防腐涂料推荐品牌厂家 - 行业平台推荐
  • Baichuan-7B中文优化策略:专为中文场景设计的大语言模型
  • DeepSeek从入门到精通