当前位置: 首页 > news >正文

CANN/atvoss RmsNorm算子样例

RmsNorm算子样例

【免费下载链接】atvossATVOSS(Ascend C Templates for Vector Operator Subroutines)是一套基于Ascend C开发的Vector算子库,致力于为昇腾硬件上的Vector类融合算子提供极简、高效、高性能、高拓展的编程方式。项目地址: https://gitcode.com/cann/atvoss

概述

样例概述:本样例介绍了利用ATVOSS实现RmsNorm单算子并完成功能验证

  • 算子功能:RmsNorm算子是大模型常用的归一化操作,相比LayerNorm算子,其去掉了减去均值的部分
  • 调用方式:Kernel直调

样例支持的产品

  • Ascend 950PR/Ascend 950DT

算子描述

  • 算子数学计算公式: $$ \operatorname{RmsNorm}(x_i)=\frac{x_i}{\operatorname{Rms}(\mathbf{x})} g_i, \quad \text { where } \operatorname{Rms}(\mathbf{x})=\sqrt{\frac{1}{n} \sum_{i=1}^n x_i^2} $$

  • 算子规格:

参数名输入/输出/属性描述数据类型数据格式
in1输入表示进行归一化计算的输入。公式中的`x`。floatND
in2输入表示进行归一化计算的缩放因子(权重),公式中的`g`。floatND
out输出表示进行归一化后的最终输出,公式中的`RmsNorm(x)`。floatND
规格说明:
  • 当前只支持二维输入
  • 总的输入Shape(M, N)要满足:
    • M < 8160,N <= 7168
    • N需要32元素对齐
  • Tile块的Shape(m, n),要满足n = N,m * n <=7168
  • 目前只支持float类型

目录结构

文件名描述
rms_norm.cppRmsNorm样例算子代码实现
CMakeLists.txtRmsNorm样例算子的编译构建文件
README.mdRmsNorm样例算子的说明文档

RmsNorm样例算子的编译和运行

  • 编译 在代码仓根目录下执行:
bash scripts/build.sh -DSOC=ascend950 rms_norm
  • 运行 在代码仓目录下执行:
output/bin/rms_norm --help // 查看帮助 output/bin/rms_norm --shape=16,32 // 运行样例

【免费下载链接】atvossATVOSS(Ascend C Templates for Vector Operator Subroutines)是一套基于Ascend C开发的Vector算子库,致力于为昇腾硬件上的Vector类融合算子提供极简、高效、高性能、高拓展的编程方式。项目地址: https://gitcode.com/cann/atvoss

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/787639/

相关文章:

  • cgip:基于Unix管道理念的终端AI助手,无缝集成LLM到命令行工作流
  • llmware开源框架:企业级AI应用开发的RAG全流程解决方案
  • ARM PMUv3指令计数器原理与应用实践
  • 以逻辑为骨,破局
  • 消防员生命支持系统的智能控制与优化设计
  • 电磁场仿真技术在高速电子设计中的关键应用
  • python字符串操作
  • SageAttention:无损量化注意力机制,实现大模型推理加速
  • AI算力治理:硬件级执行机制的技术原理与挑战
  • Deno终端美化与诊断工具:ANSI转义码封装与跨平台兼容性实践
  • 全球南方国家在AI基础设施与微调中的角色与机遇
  • Rust编译时AI代码生成:gpt-macro原理、实践与提示词工程
  • AI智能体工作区管理技能:结构化项目模板与自动化实践
  • CANN/runtime共享Buffer管理预留接口
  • 机器学习过拟合:从原理到实战的完整诊断与优化指南
  • AI Agent技能库:153个专业工具赋能AI编程助手实战指南
  • 基于MCP协议构建多模态AI工具集成平台:Stitch-Pro-MCP实战指南
  • MySQL数据库开发工具箱:从环境配置到性能优化的完整工程实践
  • 轻量级智能体框架MiniAgent:快速构建AI应用的核心原理与实践
  • ChatGPT伦理风险与学术诚信:AI对话机器人的双刃剑效应
  • ARM VFP架构与VLDR伪指令深度解析
  • Motif强化学习算法鲁棒性分析:超参数敏感性与数据依赖评估
  • 猫抓浏览器扩展:3步掌握全网视频资源捕获的终极方案
  • 命令行AI助手cgip:无缝集成大模型,提升终端工作效率
  • Kasetto:声明式AI技能管理工具,实现跨团队环境一致性
  • MAX3735A与DS1859接口设计中的保护机制与优化方案
  • AI Agent生态搜索器a2asearch-mcp:MCP协议下的工具发现与集成指南
  • 量化交易入门:基于TradeClaw开源工具的策略开发与回测实战
  • CANN/pyasc双曲正弦函数API文档
  • AI工作流编排框架aiflows:从消息驱动到DAG的智能应用开发实践