当前位置: 首页 > news >正文

CANN/asc-devkit Exp函数API

Exp

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

产品支持情况

  • Ascend 950PR/Ascend 950DT:支持
  • Atlas A3 训练系列产品/Atlas A3 推理系列产品:不支持
  • Atlas A2 训练系列产品/Atlas A2 推理系列产品:不支持
  • Atlas 200I/500 A2 推理产品:不支持
  • Atlas 推理系列产品AI Core:不支持
  • Atlas 推理系列产品Vector Core:不支持
  • Atlas 训练系列产品:不支持

功能说明

头文件路径:"basic_api/reg_compute/kernel_reg_compute_vec_unary_intf.h"

该接口根据mask,对源操作数srcReg进行按元素指数操作,将结果写入目的操作数dstReg。计算公式如下:

$$dstReg_i = e^{srcReg_i}$$

函数原型

template <typename T = DefaultType, auto mode = MaskMergeMode::ZEROING, typename U> __simd_callee__ inline void Exp(U& dstReg, U& srcReg, MaskReg& mask)

参数说明

表 1模板参数说明

参数名描述
T操作数数据类型。支持的数据类型请参考数据类型。
mode可配置为MaskMergeMode枚举类型的枚举或ExpSpecificMode的结构体指针。
• MaskMergeMode,选择MERGING模式或ZEROING模式。
• ZEROING模式下,mask未筛选的元素在dstReg中置零。
• MERGING模式当前不支持。
• ExpSpecificMode,定义如下:
enum class ExpAlgo {
INTRINSIC = 0,
PRECISION_1ULP_FTZ_TRUE,
PRECISION_1ULP_FTZ_FALSE,
};
struct ExpSpecificMode{
MaskMergeMode mrgMode = MaskMergeMode::ZEROING,
ExpAlgo algo = ExpAlgo::INTRINSIC;
};
• mrgMode:选择MERGING模式或ZEROING模式。
• algo:用于配置Subnormal模式,具体参考关键特性说明。
• ExpAlgo::INTRINSIC、ExpAlgo::PRECISION_1ULP_FTZ_TRUE,使用单指令计算得出结果,所有Subnormal被近似为0。
• ExpAlgo::PRECISION_1ULP_FTZ_FALSE,支持Subnormal数据计算。
U源操作数和目的操作数的RegTensor类型,例如RegTensor<half>,由编译器自动推导,用户不需要填写。

表 2参数说明

参数名输入/输出描述
dstReg输出目的操作数。
类型为RegTensor。
srcReg输入源操作数。
类型为RegTensor。
mask输入源操作数元素操作的有效指示,详细说明请参考MaskReg。

数据类型

目的操作数与源操作数的数据类型需要保持一致。支持的数据类型为:half、float。

返回值说明

约束说明

关键特性说明

最大精度误差

  • ExpAlgo::INTRINSIC、ExpAlgo::PRECISION_1ULP_FTZ_TRUE、ExpAlgo::PRECISION_1ULP_FTZ_FALSE,最大精度误差为1ULP。
  • ExpAlgo::PRECISION_1ULP_FTZ_FALSE,最大精度误差为1ULP。

配置Subnormal模式
FTZ(Flush To Zero):一种浮点运算模式,当结果为Subnormal时,将其直接清零(近似为0),而非保留其精确的微小数值。
只有将algo设置为ExpAlgo::PRECISION_1ULP_FTZ_FALSE时,Exp接口才会保留并正确输出Subnormal结果;其他模式下Subnormal均被FTZ。
一般场景推荐使用性能更好的ExpAlgo::INTRINSIC、ExpAlgo::PRECISION_1ULP_FTZ_TRUE;需要精确 Subnormal输出的场景(如特定数据精度要求的算法、避免除零错误)使用ExpAlgo::PRECISION_1ULP_FTZ_FALSE。

表 3Exp Subnormal示例

输出输入输出二进制输入二进制数据类型
6.0975551605e-05-9.7031250 00000 11111111111 10010 0011011010half
5.9604644775e-08-16.6406250 00000 00000000011 10011 0000101001half
1.1754942107e-38-87.33654785156250 00000000 111111111111111111111111 10000101 01011101010110001010000float
1.401298464324817e-45-103.27893066406250 00000000 000000000000000000000011 10000101 10011101000111011010000float

调用示例

template<typename T> __simd_vf__ inline void ExpVF(__ubuf__ T* dstAddr, __ubuf__ T* srcAddr, uint32_t count, uint16_t oneRepeatSize, uint16_t repeatTimes) { AscendC::Reg::RegTensor<T> srcReg; AscendC::Reg::RegTensor<T> dstReg; AscendC::Reg::MaskReg mask; // Subnormal模式 // static constexpr AscendC::Reg::ExpSpecificMode mode = {Reg::MaskMergeMode::ZEROING, ExpAlgo::PRECISION_1ULP_FTZ_FALSE}; for (uint16_t i = 0; i < repeatTimes; i++) { mask = AscendC::Reg::UpdateMask<T>(count); AscendC::Reg::LoadAlign(srcReg, srcAddr + i * oneRepeatSize); AscendC::Reg::Exp(dstReg, srcReg, mask); // Subnormal模式 // AscendC::Reg::Exp<T, &mode>(dstReg, srcReg, mask); AscendC::Reg::StoreAlign(dstAddr + i * oneRepeatSize, dstReg, mask); } }

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/1051151/

相关文章:

  • Binding库单元测试终极指南:如何编写可靠的绑定测试用例
  • 为什么这款柔和配色主题能成为Kitty用户的最爱?Catppuccin深度评测
  • MuJoCo物理仿真终极指南:7个专业技巧彻底解决物体滑动问题
  • 2026年中国出海展会展台设计搭建服务商选型指南 覆盖美洲欧洲东南亚非洲中东市场 - 寻茫精选
  • Audio Annotator:零基础音频标注终极指南,让声音数据为AI注入灵魂
  • 免费音乐制作新选择:LMMS完整入门指南与实战技巧
  • 嵌入式GUI皮肤系统:emWin控件外观定制与状态驱动绘制实战
  • Chroma部署指南:如何在服务器和集群上运行大规模蛋白质设计任务
  • 为什么选择OpenAPI Tool Servers?5个理由让你告别复杂协议集成
  • 2026找汕头代理记账公司,这5个关键点你必须知道! - 企业品牌
  • AI写专著全攻略:从构思到完成,AI工具助力20万字专著高效诞生!
  • 3步搞定知网文献批量下载:CNKI-download自动化工具完全指南
  • 终极指南:如何在Mac上完美使用Xbox游戏手柄
  • TimelineJS终极指南:5分钟打造专业级交互式时间轴
  • 应对云原生告警风暴:开源AIOps平台Keep的智能告警治理解决方案
  • Kimi K2后训练本质:从语言模型到智能体的行为重铸
  • 2026汕头代理记账公司哪家好?一份详细对比攻略帮你解惑 - 企业品牌
  • Cloudflare-Bypass代码实现揭秘:Worker请求转发与Python会话管理的终极指南
  • 嵌入式GUI窗口管理器:消息机制、定时器与自定义控件实战
  • CANN/ge GESession API文档
  • 在PC上运行Switch游戏的3种配置方案:yuzu模拟器实战指南
  • 本地寄大件重物哪家便宜?2026同城低价寄件渠道大盘点 - 快递物流资讯
  • Mastra工作流架构设计:智能重试与容错机制深度解析
  • 3步部署OSV-Scanner:实现企业级依赖安全扫描与漏洞修复
  • NXP i.MX平台Android AI应用开发:从NNAPI到专用Delegate的性能优化实战
  • 05AB1E测试套件:如何编写和运行单元测试的完整指南
  • 抖店一件代发一键下单工具推荐|一站式合规拍单,新手店群通用(附免费全功能试用) - 抖掌柜
  • LPC21xx/22xx CAN过滤器与ADC寄存器配置实战指南
  • Tempest Framework密码学组件:PHP开发者如何告别安全焦虑?
  • redis数据库实验