当前位置：首页 > news >正文

CANNOpsTransformer注意力更新算子

news 2026/5/10 7:05:03

AttentionUpdate

【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	√
Atlas A3 训练系列产品/Atlas A3 推理系列产品	√
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√
Atlas 200I/500 A2 推理产品	×
Atlas 推理系列产品	×
Atlas 训练系列产品	×

功能说明

算子功能：将各SP域PA算子的输出的中间结果lse，localOut两个局部变量结果更新成全局结果。
计算公式：输入$lse_i$和$O_i$、输出$O$。

$$ lse_{max} = \text{max}lse_i $$

$$ lse = \sum_i \text{exp}(lse_i - lse_{max}) $$

$$ lse_m = lse_{max} + \text{log}(lse) $$

$$ O = \sum_i O_i \cdot \text{exp}(lse_i - lse_m) $$

参数说明

参数名	输入/输出/属性	描述	数据类型	数据格式
lsei	输入	各SP域的局部lse。	FLOAT32	ND
Oi	输入	各SP域的局部attentionout。	FLOAT32，FLOAT16，BFLOAT16	ND
lsem	输出	更新后的全局lse。	FLOAT32	ND
O	输入	更新后的全局attentionout。	FLOAT32，FLOAT16，BFLOAT16	ND

约束说明

Atlas A2 训练系列产品/Atlas A2 推理系列产品、 Atlas A3 训练系列产品/Atlas A3 推理系列产品：支持FLOAT32、FLOAT16、BFLOAT16的Oi和O。
Ascend 950PR/Ascend 950DT ：支持FLOAT32、FLOAT16、BFLOAT16的Oi和O，且Oi和O数据类型相同。
序列并行的并行度sp取值范围[1, 16]。
headDim取值范围[8, 512]且是8的倍数。
不支持非连续的Tensor。
支持空Tensor。

调用说明

调用方式	样例代码	说明
aclnn接口	test_aclnn_attention_update	通过`aclnnAttentionUpdate`接口方式调用AttentionUpdate算子。

【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

http://www.jsqmd.com/news/787918/

相关文章：

CANN/cann-recipes-train：DeepSeek-V3 MXFP8/HiF8低精度预训练优化实践

Intent-Verified Development：用结构化意图终结AI编程“幻觉”

读AI即未来：普通人用好人工智能的18大工作场景05客户满意度

基于Stable Diffusion与AnimateDiff的文本到动画生成实战指南

缅甸柚木未来趋势：2025年高端定制市场深度解析与品牌推荐 - 品牌策略师

开源家庭医生系统：从健康数据管理到智能提醒的完整实现

2026年4月国内评价高的网架实力厂家推荐，美观大方，网架提升建筑整体美 - 品牌推荐师

CANN FFT Library - 接口实现状态文档

皮下脂肪代谢综述：从分子机制到前沿干预策略

2026电动球阀/气动蝶阀厂家哪家好?温控阀生产厂家实力精选推荐 - 栗子测评

078、async/await语法：协程的编写与调度

程序员效率工具箱：除了AI，这5款工具让你准时下班

基于Nix与清单驱动的个人DevOps中心：模块化构建创意工作流

079、Python设计模式：单例模式与工厂模式

AI智能体状态持久化：基于talos-identity-anchor的OpenClaw记忆备份方案

2026铜雕塑厂家景观雕塑生产厂家/城市景观工程定制与实力推荐 - 栗子测评

AI数字孪生病理学家：前列腺癌精准诊断的技术架构与挑战

OpenClaw Dashboard：本地化AI Agent舰队监控与成本治理实战指南

基于MCP协议的GitLab AI助手：重塑DevOps工作流的智能连接器

影刀RPA如何实现店群自动化：详解多浏览器并发与“加密级”安全调度中枢

构建AI编程助手守护者：CodeLooper如何解决Cursor Agent中断问题

AMCT ConvTranspose2dQAT API

我用AI重构了一个遗留系统，代码量减少了70%，老板惊呆了

抖音批量下载神器：3分钟掌握无水印视频下载全攻略

XHS-Downloader终极指南：小红书内容采集与批量下载技术详解

Photon引擎：基于Vite与Rust工具链的极速Web开发体验

CANN/Ascend C AsyncGetTensorC函数

CANN/Hunyuan3D昇腾适配

cann/cann-bench CrossEntropyLoss算子API描述

算法模拟与生命智能：从架构差异看AI的本质与局限