当前位置: 首页 > news >正文

CANN/pyasc数据块归约API

asc.language.basic.block_reduce_max

【免费下载链接】pyasc本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyasc

asc.language.basic.block_reduce_max(dst: LocalTensor, src: LocalTensor, repeat: int, mask: int, dst_rep_stride: int, src_blk_stride: int, src_rep_stride: int) → None

asc.language.basic.block_reduce_max(dst: LocalTensor, src: LocalTensor, repeat: int, mask: List[int], dst_rep_stride: int, src_blk_stride: int, src_rep_stride: int) → None

对每个datablock内所有元素求最大值。

对应的Ascend C函数原型

  • mask逐比特模式
    template <typename T, bool isSetMask = true> __aicore__ inline void BlockReduceMax(const LocalTensor<T>& dst, const LocalTensor<T>& src, const int32_t repeatTime, const uint64_t mask[], const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)
  • mask连续模式
    template <typename T, bool isSetMask = true> __aicore__ inline void BlockReduceMax(const LocalTensor<T>& dst, const LocalTensor<T>& src,const int32_t repeatTime, const int32_t mask, const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)

参数说明

  • is_set_mask: 是否在接口内部设置mask。
    • True,表示在接口内部设置mask。
    • False,表示在接口外部设置mask,开发者需要使用set_vector_mask接口设置mask值。这种模式下,本接口入参中的mask值必须设置为占位符MASK_PLACEHOLDER。
  • dst:目的操作数。类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要保证16字节对齐(针对half数据类型),32字节对齐(针对float数据类型)。
  • src: 源操作数。类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。
  • repeat_time:迭代次数。取值范围为[0, 255]。
  • mask: 控制每次迭代内参与计算的元素。
    • 逐bit模式:mask为数组形式。数组长度和数组元素的取值范围和操作数的数据类型有关。可以按位控制哪些元素参与计算,bit位的值为1表示参与计算,0表示不参与。
      • 操作数 16 位:数组长度 2,mask[0], mask[1] ∈ [0, 2⁶⁴-1],且不能同时为 0
      • 操作数 32 位:数组长度 1,mask[0] ∈ (0, 2⁶⁴-1]
      • 操作数 64 位:数组长度 1,mask[0] ∈ (0, 2³²-1]
      • 例如:mask = [8, 0],表示仅第 4 个元素参与计算
    • 连续模式:mask为整数形式。表示前面连续多少个元素参与计算。取值范围和操作数的数据类型有关,数据类型不同,每次迭代内能够处理的元素个数最大值不同。
      • 操作数 16 位:mask ∈ [1, 128]
      • 操作数 32 位:mask ∈ [1, 64]
      • 操作数 64 位:mask ∈ [1, 32]
  • dst_rep_stride:目的操作数相邻迭代间的地址步长。以一个repeat_time归约后的长度为单位。每个repeat_time(8个datablock)归约后,得到8个元素,所以输入类型为half类型时,RepStride单位为16Byte;输入类型为float类型时,RepStride单位为32Byte。
  • src_blk_stride:单次迭代内datablock的地址步长。
  • src_rep_stride:源操作数相邻迭代间的地址步长,即源操作数每次迭代跳过的datablock数目。

约束说明

  • 操作数地址对齐要求请参见 《Ascend C算子开发接口》 中的“通用说明和约束-通用地址对齐约束”。
  • 为了节省地址空间,您可以定义一个Tensor,供源操作数与目的操作数同时使用(即地址重叠),需要注意计算后的目的操作数数据不能覆盖未参与计算的源操作数,需要谨慎使用。
  • 针对不同场景合理使用归约指令可以带来性能提升, 相关介绍请参考选择低延迟指令,优化归约操作性能。

调用示例

  • mask连续模式
    asc.block_reduce_max(z_local, x_local, repeat=1, mask=128, dst_rep_stride=8, src_blk_stride=1, src_rep_stride=8)
  • mask逐bit模式
    uint64_max = 2**64 - 1 mask = [uint64_max, uint64_max] asc.block_reduce_max(z_local, x_local, repeat=1, mask=mask, dst_rep_stride=8, src_blk_stride=1, src_rep_stride=8)

【免费下载链接】pyasc本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyasc

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/783206/

相关文章:

  • 多模态大模型如何重塑科学教育:从认知减负到自适应学习
  • 法律AI的确定性追求:规则引擎与形式化方法的技术实践与边界
  • 国标新标杆,护眼新高度——独语A8重塑学生读写光环境 - 资讯焦点
  • 无需专程前往金店 孝感一区三市三县全城上门收金 山区乡镇均可接单 - 金掌柜黄金回收
  • 国内高锰酸盐指数水质在线监测仪十大品牌排名 - 仪表人小余
  • CANN/pypto hypot函数
  • RimSort终极指南:三步告别环世界MOD加载混乱的免费智能管理器
  • 2026年成都水刀配件厂家全景对标:从易损件痛点到源头采购一站式解决方案 - 企业名录优选推荐
  • CANN/pyasc复制函数文档
  • GWAI:深度学习与模块化架构重塑引力波数据分析
  • 2026年邯郸美术集训画室排行榜出炉!世骅学本稳居榜首,实力口碑双标杆 - damaigeo
  • 2026年广州印刷厂TOP5|丽彩印刷凭 “全链创新 + 硬核品质” 登顶,政企首选 - damaigeo
  • AI赋能无人机通信与导航:端到端智能优化与关键技术解析
  • 有没有专门整合全城少儿兴趣体验课的平台? - 资讯焦点
  • CANN/ops-cv一维线性上采样算子
  • 杭州临安浩雪制冷电器:杭州空调 中央空调回收推荐哪几家 - LYL仔仔
  • 如何判断App隐私合规服务商是否靠谱?资深采购的避坑指南
  • 深度解析:MyTV-Android如何通过原生开发实现老旧电视的流畅直播体验
  • 孩子第一次报兴趣班,从哪个平台可以低成本多试几种? 美团随心学解锁高性价比试课新方式 - 资讯焦点
  • 沈阳雨露恒远客运:浑南旅游包车公司电话 - LYL仔仔
  • CANN/asc-devkit Axpy API文档
  • CANN/sip StrmmOperation C++演示
  • 2026年成都水刀配件一站式采购指南:5大品牌深度横评与选型方案 - 企业名录优选推荐
  • 2026年自贡全案整装与智能家居装修深度横评:本地装修避坑指南 - 优质企业观察收录
  • 2026年自贡一站式整装与智能家居装修深度横评:从预算陷阱到拎包入住的完整指南 - 优质企业观察收录
  • AI难题与邪恶问题辨析:从技术攻坚到系统治理的思维跃迁
  • 从控制台用量看板直观理解不同模型任务的token消耗规律
  • 2026年,如何挑选靠谱的冷镦油过滤机生产商?这几点是关键
  • CANN/ops-blas环境安装指南
  • Ansys代理商 - 品牌2026