当前位置: 首页 > news >正文

CANN/asc-devkit CumSum临时空间接口

GetCumSumMaxMinTmpSize

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

功能说明

kernel侧CumSum接口的计算需要开发者预留/申请临时空间,本接口用于在host侧获取预留/申请的最大和最小临时空间大小,开发者基于此范围选择合适的空间大小作为Tiling参数传递到kernel侧使用。

  • 为保证功能正确,预留/申请的临时空间大小不能小于最小临时空间大小。
  • 在最小临时空间-最大临时空间范围内,随着临时空间增大,kernel侧接口计算性能会有一定程度的优化提升。为了达到更好的性能,开发者可以根据实际的内存使用情况进行空间预留/申请。

函数原型

void GetCumSumMaxMinTmpSize(const ge::Shape& srcShape, const uint32_t typeSize, const bool isLastAxis, const bool isReuseSource, uint32_t& maxValue, uint32_t& minValue)

参数说明

表 1参数说明

参数名

输入/输出

描述

srcShape

输入

输入的shape信息。

typeSize

输入

输入的数据类型大小,单位为字节。比如输入的数据类型为half,此处应传入2。

isReuseSource

输入

是否复用源操作数输入的空间。

isLastAxis

输入

定义是first轴处理还是last轴处理。

maxValue

输出

Cumsum接口能完成计算所需的最大临时空间大小,超出该值的空间不会被该接口使用。

请注意,maxValue仅作为参考值,有可能大于Unified Buffer剩余空间的大小,该场景下,开发者需要根据Unified Buffer剩余空间的大小来选取合适的临时空间大小。

minValue

输出

Cumsum接口能完成计算所需最小临时空间大小。为保证功能正确,接口计算时预留/申请的临时空间不能小于该数值。

返回值说明

约束说明

  • 操作数地址对齐要求请参见通用地址对齐约束。
  • 输入input只支持二维结构。

调用示例

// 输入shape为32*32的矩阵;算子输入的数据类型为half;isLastAxis传入默认值true,isReuseSource传入默认值false uint32_t firstDim = 32; uint32_t lastDim = 32; std::vector<int64_t> srcShapeDims = {firstDim, lastDim}; auto srcShape = ge::Shape(srcShapeDims); uint32_t maxValue = 0; uint32_t minValue = 0; AscendC::GetCumSumMaxMinTmpSize(srcShape, 2, true, false, maxValue, minValue);

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/853164/

相关文章:

  • OpCore-Simplify:如何30分钟完成专业级黑苹果配置
  • PyTorch矩阵乘法进阶:用torch.matmul高效实现一个简易的Transformer注意力头
  • CANN/asc-devkit GlobalTensor地址获取
  • 联想拯救者工具箱终极指南:完全替代Vantage的轻量级硬件管理方案
  • 用CUDA C++手搓LeNet推理引擎:从PyTorch导出权重到GPU加速的完整流程(附源码)
  • (良心整理)亲测好用的AI写作辅助网站,毕业党收藏备用
  • DDR接口时序约束:为何无需设置set_input_delay?
  • 5分钟上手Translumo:Windows上最强的实时屏幕翻译工具
  • 通过 curl 命令快速测试 Taotoken 大模型接口连通性
  • 告别ElementUI日历的‘年/月’切换:保姆级教程实现‘今天/日/月/年’精细化导航
  • PHP主流框架
  • 避开MATLAB信号分析器的坑:关于滤波器‘陡度’和‘阻带衰减’的设置,90%的人可能没搞懂
  • BBDown实用指南:高效下载B站视频的完整解决方案
  • STFT与小波变换深度对比:时频分析工具选型与实战指南
  • 2026年COD智能消解仪与预制试剂哪家值?性价比、耐用性与头部企业实力全解析 - 品牌推荐大师1
  • BetterChatGPT提示词库功能:高效管理与复用AI指令
  • Windows电脑运行安卓应用的终极方案:APK安装器完全指南
  • 2026西安口碑好的防水补漏维修公司TOP5:卫生间/屋顶/地下室推荐 专业防水公司排名推荐(2026年5月防水补漏最新TOP权威排名) - 冠盾建筑修缮
  • BiliTools:重新定义B站内容消费的技术解决方案
  • 智能视频去重神器Vidupe:3步彻底清理重复视频,释放存储空间
  • CXPatcher:让Mac上的CrossOver性能飞升的终极指南
  • MATLAB imagesc绘图避坑指南:从colormap选择到字体设置,打造专业数据图
  • Pixelle-Video:AI短视频创作革命,零基础也能成为视频制作达人
  • 2026年风机轴承厂家口碑推荐-临清市四通精密轴承制造有限公司值得关注 - 品牌推广大师
  • hot100 11盛最多水的容器
  • BiliTools:构建知识管理系统的跨平台哔哩哔哩内容处理工具
  • 终极Windows缩略图加速器:如何让文件夹图片预览瞬间加载
  • 在ubuntu20.04系统上快速配置taotoken的python开发环境
  • 如何用BiliTools实现哔哩哔哩资源高效下载与管理:终极跨平台工具箱指南
  • 2026 年 5 月西安成人高考机构测评|择校避坑指南 - 讲清楚了