当前位置: 首页 > news >正文

CANN/pyasc:add_deq_relu API文档

asc.language.basic.add_deq_relu

【免费下载链接】pyasc本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyasc

asc.language.basic.add_deq_relu(dst: LocalTensor, src0: LocalTensor, src1: LocalTensor, count: int, is_set_mask: bool = True) → None

asc.language.basic.add_deq_relu(dst: LocalTensor, src0: LocalTensor, src1: LocalTensor, mask: int, repeat_times: int, repeat_params: BinaryRepeatParams, is_set_mask: bool = True) → None

asc.language.basic.add_deq_relu(dst: LocalTensor, src0: LocalTensor, src1: LocalTensor, mask: List[int], repeat_times: int, repeat_params: BinaryRepeatParams, is_set_mask: bool = True) → None

依次计算按元素求和、结果进行deq量化后再进行relu计算(结果和0对比取较大值)。

对应的Ascend C函数原型

template <typename T> __aicore__ inline void AddDeqRelu(const LocalTensor<T>& dst, const LocalTensor<T>& src0, const LocalTensor<T>& src1, const int32_t& count);
template <typename T, bool isSetMask = true> __aicore__ inline void AddDeqRelu(const LocalTensor<T>& dst, const LocalTensor<T>& src0, const LocalTensor<T>& src1, uint64_t mask[], const uint8_t repeatTimes, const BinaryRepeatParams& repeatParams);
template <typename T, bool isSetMask = true> __aicore__ inline void AddDeqRelu(const LocalTensor<T>& dst, const LocalTensor<T>& src0, const LocalTensor<T>& src1, uint64_t mask, const uint8_t repeatTimes, const BinaryRepeatParams& repeatParams);

参数说明

  • dst:目的操作数。类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。
  • src0, src1:源操作数。类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。
  • count:参与计算的元素个数。
  • mask:用于控制每次迭代内参与计算的元素。
  • repeat_times:重复迭代次数。
  • params:控制操作数地址步长的参数。
  • is_set_mask: 是否在接口内部设置mask。

约束说明

  • 操作数地址对齐要求请参见 《Ascend C算子开发接口》 中的“通用说明和约束-通用地址对齐约束”。
  • 操作数地址重叠约束请参考 《Ascend C算子开发接口》 中的“通用说明和约束-通用地址重叠约束”。
  • 使用整个tensor参与计算接口符号重载时,运算量为目的LocalTensor的总长度。

调用示例

  • tensor高维切分计算样例-mask连续模式
    mask = 128 # repeat_times = 4,一次迭代计算128个数,共计算512个数 # dst_blk_stride, src0_blk_stride, src1_blk_stride = 1,单次迭代内数据连续读取和写入 # dst_rep_stride, src0_rep_stride, src1_rep_stride = 8,相邻迭代间数据连续读取和写入 params = asc.BinaryRepeatParams(1, 1, 1, 8, 8, 8) scale = 0.1 asc.set_deq_scale(scale) asc.add_deq_relu(dst, src0, src1, mask=mask, repeat_times=4, repeat_params=params)
  • tensor高维切分计算样例-mask逐bit模式
    mask = [uint64_max, uint64_max] # repeat_times = 4,一次迭代计算128个数,共计算512个数 # dst_blk_stride, src0_blk_stride, src1_blk_stride = 1,单次迭代内数据连续读取和写入 # dst_rep_stride, src0_rep_stride, src1_rep_stride = 8,相邻迭代间数据连续读取和写入 params = asc.BinaryRepeatParams(1, 1, 1, 8, 8, 8) scale = 0.1 asc.set_deq_scale(scale) asc.add_deq_relu(dst, src0, src1, mask=mask, repeat_times=4, repeat_params=params)
  • tensor前n个数据计算样例
    scale = 0.1 asc.set_deq_scale(scale) asc.add_deq_relu(dst, src0, src1, count=512)

【免费下载链接】pyasc本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyasc

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/787472/

相关文章:

  • 高速PCB设计中的EMI控制策略与实践
  • 2026年热门的苏州膜结构张拉膜棚/膜结构售后无忧公司 - 行业平台推荐
  • Zabbix AI技能实战:基于MCP协议实现自然语言监控运维自动化
  • 构建办公自动化CLI工具集:从Python库选型到实战应用
  • 【最新 v2.7.1 版本】OpenClaw v2.7.1 一键安装包|Windows 稳定极速部署
  • 构建AI模型路由框架:策略模式与统一端点抽象实践
  • BricksLLM:开源LLM API网关,解决大模型应用成本管控与用量追踪难题
  • ARM架构CSSELR_EL1寄存器:缓存管理与性能优化
  • 生成式AI在无障碍领域的应用:从技术潜力到工程实践
  • Syncia:基于浏览器扩展的AI助手,实现网页上下文智能处理与本地模型集成
  • 2026年靠谱的膜结构篮球馆棚/膜结构汽车棚可靠服务公司 - 行业平台推荐
  • 2026年电感生产厂家推荐,一体成型电感、扁平线圈大功率电感厂家优选指南! - 栗子测评
  • 拼多多股权曝光:腾讯持股13.8% 价值1319亿 是最大机构股东
  • 基于Claude AI的ASO自动化审计工具:从用户评论到文案优化的智能分析实践
  • CANN/AMCT Conv3dQAT算子
  • Go语言自动化管理OpenAI访问令牌:opaitokens库实战指南
  • OpenClaw资源导航:一站式构建AI智能体的中文开发者指南
  • CANN hixl LLM状态码
  • STM32调试与SWV跟踪实战指南
  • RAG技术大揭秘:从入门到高阶,助你构建智能问答系统!
  • AI+HPC协同加速固态电解质材料发现:以NaxLi3−xYCl6为例的实战解析
  • CANN/cannbot-skills 文档编写指南
  • 2026年4月优秀的二手衬四氟管道批发厂家推荐,二手对辊带式压榨机/二手衬塑铁罐,二手衬四氟管道批发厂家推荐 - 品牌推荐师
  • 2026年比较好的膜结构看台棚/膜结构汽车棚/张家港膜结构停车棚品质保障公司 - 品牌宣传支持者
  • DataForSEO API社区文档:提升SEO数据集成效率的实战指南
  • 2026年知名的膜结构加油站棚/膜结构交车充电桩棚/膜结构工厂棚优选公司推荐 - 品牌宣传支持者
  • 2026年靠谱的加气砖加气砌块/砌墙加气砖/加气砼砌块推荐厂家精选 - 行业平台推荐
  • OpenClaw网关端到端测试:Bash脚本实现零依赖自动化验证
  • 大模型“幻觉”不再!揭秘RAG技术如何让AI开卷考试,秒变知识达人!
  • JAKCO:用户中心迭代开发框架,融合敏捷与DDD的渐进式架构演进