当前位置: 首页 > news >正文

CANNOpsTransformer注意力更新算子

AttentionUpdate

【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品
Atlas 200I/500 A2 推理产品×
Atlas 推理系列产品×
Atlas 训练系列产品×

功能说明

  • 算子功能:将各SP域PA算子的输出的中间结果lse,localOut两个局部变量结果更新成全局结果。
  • 计算公式:输入$lse_i$和$O_i$、输出$O$。

$$ lse_{max} = \text{max}lse_i $$

$$ lse = \sum_i \text{exp}(lse_i - lse_{max}) $$

$$ lse_m = lse_{max} + \text{log}(lse) $$

$$ O = \sum_i O_i \cdot \text{exp}(lse_i - lse_m) $$

参数说明

参数名输入/输出/属性描述数据类型数据格式
lsei输入各SP域的局部lse。FLOAT32ND
Oi输入各SP域的局部attentionout。FLOAT32,FLOAT16,BFLOAT16ND
lsem输出更新后的全局lse。FLOAT32ND
O输入更新后的全局attentionout。FLOAT32,FLOAT16,BFLOAT16ND

约束说明

  • Atlas A2 训练系列产品/Atlas A2 推理系列产品 、 Atlas A3 训练系列产品/Atlas A3 推理系列产品 :支持FLOAT32、FLOAT16、BFLOAT16的Oi和O。
  • Ascend 950PR/Ascend 950DT :支持FLOAT32、FLOAT16、BFLOAT16的Oi和O,且Oi和O数据类型相同。
  • 序列并行的并行度sp取值范围[1, 16]。
  • headDim取值范围[8, 512]且是8的倍数。
  • 不支持非连续的Tensor。
  • 支持空Tensor。

调用说明

调用方式样例代码说明
aclnn接口test_aclnn_attention_update通过aclnnAttentionUpdate接口方式调用AttentionUpdate算子。

【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/787918/

相关文章:

  • CANN/cann-recipes-train:DeepSeek-V3 MXFP8/HiF8低精度预训练优化实践
  • Intent-Verified Development:用结构化意图终结AI编程“幻觉”
  • 读AI即未来:普通人用好人工智能的18大工作场景05客户满意度
  • 基于Stable Diffusion与AnimateDiff的文本到动画生成实战指南
  • 缅甸柚木未来趋势:2025年高端定制市场深度解析与品牌推荐 - 品牌策略师
  • 开源家庭医生系统:从健康数据管理到智能提醒的完整实现
  • 2026年4月国内评价高的网架实力厂家推荐,美观大方,网架提升建筑整体美 - 品牌推荐师
  • CANN FFT Library - 接口实现状态文档
  • 皮下脂肪代谢综述:从分子机制到前沿干预策略
  • 2026电动球阀/气动蝶阀厂家哪家好?温控阀生产厂家实力精选推荐 - 栗子测评
  • 078、async/await语法:协程的编写与调度
  • 程序员效率工具箱:除了AI,这5款工具让你准时下班
  • 基于Nix与清单驱动的个人DevOps中心:模块化构建创意工作流
  • 079、Python设计模式:单例模式与工厂模式
  • AI智能体状态持久化:基于talos-identity-anchor的OpenClaw记忆备份方案
  • 2026铜雕塑厂家景观雕塑生产厂家/城市景观工程定制与实力推荐 - 栗子测评
  • AI数字孪生病理学家:前列腺癌精准诊断的技术架构与挑战
  • OpenClaw Dashboard:本地化AI Agent舰队监控与成本治理实战指南
  • 基于MCP协议的GitLab AI助手:重塑DevOps工作流的智能连接器
  • 影刀RPA如何实现店群自动化:详解多浏览器并发与“加密级”安全调度中枢
  • 构建AI编程助手守护者:CodeLooper如何解决Cursor Agent中断问题
  • AMCT ConvTranspose2dQAT API
  • 我用AI重构了一个遗留系统,代码量减少了70%,老板惊呆了
  • 抖音批量下载神器:3分钟掌握无水印视频下载全攻略
  • XHS-Downloader终极指南:小红书内容采集与批量下载技术详解
  • Photon引擎:基于Vite与Rust工具链的极速Web开发体验
  • CANN/Ascend C AsyncGetTensorC函数
  • CANN/Hunyuan3D昇腾适配
  • cann/cann-bench CrossEntropyLoss算子API描述
  • 算法模拟与生命智能:从架构差异看AI的本质与局限