当前位置: 首页 > news >正文

GE获取模型输出大小

aclmdlGetOutputSizeByIndex

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

产品支持情况

产品

是否支持

Atlas A3 训练系列产品 / Atlas A3 推理系列产品

Atlas A2 训练系列产品 / Atlas A2 推理系列产品

功能说明

根据模型描述信息获取指定输出的大小,单位为Byte。

函数原型

size_t aclmdlGetOutputSizeByIndex(aclmdlDesc *modelDesc, size_t index)

参数说明

参数名

输入/输出

说明

modelDesc

输入

aclmdlDesc类型的指针。

需提前调用aclmdlCreateDesc接口创建aclmdlDesc类型的数据。

index

输入

指定获取第几个输出的大小,index值从0开始。

返回值说明

针对动态Batch、动态分辨率(宽高)的场景,返回最大档位对应的输出的大小;静态场景下,返回指定输出的大小。单位是Byte。

约束说明

如果通过本接口获取的大小为0,有可能是由于输出Shape的范围不确定,当前支持以下两种处理方式:

  • 方式一:系统内部自行申请对应index的输出内存,节省内存,但内存数据使用结束后,需由用户释放内存,同时,系统内部申请内存时涉及内存拷贝,可能涉及性能损耗。该方式仅支持在使用aclmdlExecute、aclmdlExecuteV2推理接口时使用。

    调用aclCreateDataBuffer接口创建存放对应index输出数据的aclDataBuffer类型时,支持在data参数处传入nullptr,同时size需设置为0,表示创建一个空的aclDataBuffer类型,然后在模型执行过程中,系统内部自行计算并申请该index输出的内存。使用该方式可节省内存,但内存数据使用结束后,需由用户释放内存并重置aclDataBuffer,同时,系统内部申请内存时涉及内存拷贝,可能涉及性能损耗。

    释放内存并重置aclDataBuffer的示例代码如下:

    aclDataBuffer *dataBuffer = aclmdlGetDatasetBuffer(output, 0); // 根据index获取对应的dataBuffer void *data = aclGetDataBufferAddr(dataBuffer); // 获取data的Device指针 aclrtFree(data ); // 释放Device内存 aclUpdateDataBuffer(dataBuffer, nullptr, 0); // 重置dataBuffer里面内容,以便下次推理
  • 方式二:用户预估输出内存大小,并申请内存,由用户自行管理内存,但内存大小可能不够或超出,不够时系统会校验报错,超出时会浪费内存。

    用户需先根据实际情况预估一块较大的输出内存,在模型执行过程中,系统会校验用户指定的输出内存大小是否符合要求,如果不符合要求,系统会返回报错,并在报错信息中提示具体需要多大的输出内存。您可以通过以下两种方式查看报错:

    • 获取应用类日志,查看ERROR级别的报错,如何获取并查看日志请参见《日志参考》。
    • 在应用程序中调用aclGetRecentErrMsg接口获取报错。

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/793385/

相关文章:

  • 从实测到实战:HIP6601半桥驱动电路在无线信标线圈中的性能剖析
  • ARM CPACR寄存器详解:功能控制与安全配置
  • Ascend C SetInput API文档
  • ErrorOr常见问题解答:解决开发者在使用过程中遇到的10个典型问题
  • 电子墨水屏技术原理与低功耗设计实践
  • 基于MCP与SSE实现AI助手与MQTT物联网的实时交互
  • Adaptive Cards MCP:AI驱动动态UI生成的技术架构与实践
  • 【信息科学与工程学】计算机科学与自动化——第十六篇 GPU 800数据中心超级性能GPU芯片(2nm工艺)系统化设计01
  • GNvim弹出菜单定制教程:LSP集成与样式美化
  • douyin-downloader:5大核心功能解析与实战应用指南
  • 高性能本地大模型推理引擎 mistral.rs 部署与调优指南
  • 【信息科学与工程学】【制造工程】【通信工程】第一百零一篇 2nm 200Tbps+核心交换机全尺度参数 第二系列 物料与生产体系12
  • CANN/ge LLM数据分发copy_cache函数
  • EasyCV部署实战:从训练到在线服务的完整流程解析
  • 昇腾AI处理器算子开发工具包:__half2float类型转换函数
  • Flustars与常见业务场景结合:从登录状态管理到UI适配
  • 【信息科学与工程学】【研发体系】第十篇 半导体电路设计 127光电共封装CPO 第一部分03
  • ARM Trace单元调试技术详解与实战配置
  • 【信息科学与工程学】【通信工程】第二篇 网络的主要算法10 容器网络
  • AI编码助手技能库:Antigravity Awesome Skills安装与实战指南
  • RPC的了解
  • CANN/asc-devkit Matmul计算方向设置API
  • CANN/ops-nn 去量化SwiGLU量化算子
  • CPLD在键盘扩展中的低功耗设计与实现
  • 【信息科学与工程学】【通信工程】第二篇 网络的主要算法03 主要函数(1)L1物理层函数<3>
  • 【审计专栏-监督监管领域】【信息科学与工程学】【社会科学】第十篇 社会底层核心规则(核心权力、核心利益、核心资源绑定、私下运作、关键价值交换、上下博弈)04
  • 基于SpringBoot的鲜花在线订花平台毕业设计源码
  • CANN/asc-devkit截断函数API文档
  • CANN/ops-nn三维平均池化反向传播算子
  • 通过 Taotoken 的 Token Plan 套餐在 Ubuntu 长期项目中实现预算可控