当前位置: 首页 > news >正文

CANN/ops-transformer密集闪电索引Softmax算子

DenseLightningIndexerSoftmaxLse

【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT×
Atlas A3 训练系列产品
Atlas A2 训练系列产品
Atlas 200I/500 A2 推理产品×
Atlas 推理系列产品×
Atlas 训练系列产品×

功能说明

  • 算子功能:DenseLightningIndexerSoftmaxLse算子是DenseLightningIndexerGradKlLoss算子计算Softmax输入的一个分支算子。

  • 计算公式:

$$ \text{res}=\text{AttentionMask}\left(\text{ReduceSum}\left(W\odot\text{ReLU}\left(Q_{index}@K_{index}^T\right)\right)\right) $$

$$ \text{maxIndex}=\text{max}\left(res\right) $$

$$ \text{sumIndex}=\text{ReduceSum}\left(\text{exp}\left(res-maxIndex\right)\right) $$

maxIndex,sumIndex作为输出传递给算子DenseLightningIndexerGradKlLoss作为输入计算Softmax使用。

参数说明

参数名输入/输出/属性描述数据类型数据格式
queryIndex输入lightningIndexer结构的输入queryIndex。FLOAT16、BFLOAT16ND
keyIndex输入lightningIndexer结构的输入keyIndex。FLOAT16、BFLOAT16ND
weights输入权重。FLOAT16、BFLOAT16、FLOAT32ND
actualSeqLengthsQuery输入每个Batch中,Query的有效token数。INT64ND
actualSeqLengthsKey输入每个Batch中,Key的有效token数。INT64ND
layout输入layout格式。--
sparseMode输入sparse的模式。INT64-
preTokens输入用于稀疏计算,表示Attention需要和前几个token计算关联。INT64-
nextTokens输入用于稀疏计算,表示Attention需要和后几个token计算关联。INT64-
softmaxMaxOut输出softmax计算使用的max值。FLOAT32ND
softmaxSumOut输出softmax计算使用的sum值。FLOAT32ND

约束说明

调用说明

调用方式调用样例说明
aclnn调用test_aclnn_dense_lightning_indexer_softmax_lse通过aclnnDenseLightningIndexerSoftmaxLse接口方式调用dense_lightning_indexer_softmax_lse算子。

【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/787013/

相关文章:

  • 基于Alexa技能与无服务器架构的香港地铁实时查询系统开发实战
  • Cursor AI 上下文优化:智能压缩代码提升 AI 编程助手效率
  • Go语言CLI工具longClaw:模板驱动项目脚手架实战指南
  • 量子计算与深度学习结合解决Frenkel激子模拟难题
  • 做定制开发的定制软件开发公司
  • dotai-cli:AI命令行工具的设计原理与工程实践
  • MOLT:AI多智能体系统的反射式协同进化引擎
  • [具身智能-615]:MU 九轴惯性测量传感器:9轴原始数据->物理量换算 ->四元数 -> 欧拉角(角度) 过程详细解析
  • 开源硬件ClawBadge:从设计到编程的电子徽章制作全指南
  • 做企业软件的定制软件开发公司解决方案商
  • Linux下Cursor编辑器试用重置脚本原理与风险分析
  • 如何从入门到进阶学习 Linux 云计算运维?
  • Instill Core:AI应用编排引擎,构建自动化流水线实战
  • CANN/catlass Swizzle策略说明
  • CANN/pyasc核心张量操作API
  • 2026年4月行业内有名的酒店装修设计设计师推荐,侘寂民宿/星级酒店/江景酒店/景区酒店,酒店装修设计改造找哪家 - 品牌推荐师
  • 2026就业寒冬?这10个AI高薪岗位抢人大战一触即发,最高年薪300万!普通人也能抓住风口?
  • 如何快速掌握B站视频转文字工具:新手的终极实战指南
  • 基于MCP协议的LinkedIn数据连接器:AI自动化招聘与市场分析实战
  • ChatGLM2-6B全面解析:从FlashAttention到量化部署的本地大模型实践
  • 我发现深度神经网络DNN推理图片高度300也能正常运转
  • CANN/ops-cv三点插值反向算子
  • 基于MCP协议实现Mac消息AI自动化:原理、部署与安全实践
  • 分布式任务调度平台Idun-Agent-Platform:从架构设计到生产部署实战
  • KrkrzExtract终极指南:新一代krkrz引擎资源解包工具深度解析
  • GE 静态执行器特性分析
  • 从java改C++后速度变化记录
  • AI智能体3D可视化监控:用Phaser构建等距办公室视图
  • CANN/AMCT基于精度自动校准API
  • CANN/shmem原理与架构详解