当前位置: 首页 > news >正文

CANN稀疏注意力元数据算子文档

SparseAttnSharedkvMetadata

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

产品支持情况

产品是否支持
Atlas A3 推理系列产品

功能说明

  • API功能:SparseAttnSharedkvMetadata算子旨在生成一个任务列表,包含每个AIcore的Attention计算任务的起止点的Batch、Head、以及 Q 和 K 的分块的索引,供后续SparseAttnSharedkv算子使用。

函数原型

custom.npu_sparse_attn_sharedkv_metadata(num_heads_q, num_heads_kv, head_dim, *, cu_seqlens_q=None, cu_seqlens_ori_kv=None, cu_seqlens_cmp_kv=None, seqused_q=None, seqused_kv=None, batch_size=0, max_seqlen_q=0, max_seqlen_kv=0, ori_topk=0, cmp_topk=0, cmp_ratio=-1, ori_mask_mode=4, cmp_mask_mode=3, ori_win_left=127, ori_win_right=0, layout_q='BSND', layout_kv='PA_ND', has_ori_kv=True, has_cmp_kv=True, device='npu:0') -> Tensor
  • Transformer SparseAttnSharedkvMetadata 算子实现参考: SparseAttnSharedkvMetadata

参数说明

  • num_heads_qint):必选参数,表示公式中的$Q$的多头数,目前仅支持64。

  • num_heads_kvint):必选参数,表示公式中的$\tilde{K}$和$\tilde{V}$的多头数,目前仅支持1。

  • head_dimint):必选参数,表示注意力头的维度。

  • *:必选参数,代表其之前的变量是位置相关的,必须按照顺序输入;之后的变量是可选参数,位置无关,需要使用键值对赋值,不赋值会使用默认值。

  • cu_seqlens_qTensor):可选参数,当layout_query为TND时,表示不同Batch中q的有效token数,维度为B+1,大小为参数中每个元素的值表示目前batch与之前所有batch的token数总和,即前缀和,数据类型支持int32

  • cu_seqlens_ori_kvTensor):可选参数,当layout_kv为TND时,表示不同Batch中ori_kv的有效token数,维度为B+1,大小为参数中每个元素的值表示目前batch与之前所有batch的token数总和,即前缀和,数据类型支持int32目前layout_kv仅支持PA_ND,故设置此参数无效。

  • cu_seqlens_cmp_kvTensor):可选参数,当layout_kv为TND时,表示不同Batch中cmp_kv的有效token数,维度为B+1,大小为参数中每个元素的值表示目前batch与之前所有batch的token数总和,即前缀和,数据类型支持int32目前layout_kv仅支持PA_ND,故设置此参数无效。

  • seqused_qTensor):可选参数,表示不同Batch中q实际参与运算的token数,维度为B,数据格式支持ND,数据类型支持int32,不输入则所有token均参与运算。目前暂不支持指定该参数。

  • seqused_kvTensor):可选参数,表示不同Batch中ori_kv实际参与运算的token数,维度为B,数据格式支持ND,数据类型支持int32,不输入则所有token均参与运算。

  • batch_sizeint):可选参数,表示输入样本批量大小,默认值为None。

  • max_seqlen_qint):可选参数,表示所有batch中q的最大有效token数。

  • max_seqlen_kvint):可选参数,表示所有batch中ori_kv的最大有效token数。

  • ori_topkint):可选参数,表示通过QLI算法从ori_kv中筛选出的关键稀疏token的个数。目前暂不支持指定该参数,默认值为None。

  • cmp_topkint):可选参数,表示通过QLI算法从cmp_kv中筛选出的关键稀疏token的个数,目前仅支持512,默认值为None。

  • cmp_ratioint):可选参数,表示对ori_kv的压缩率,数据范围支持4/128,默认值为None。

  • ori_mask_modeint):可选参数,表示qori_kv计算的mask模式,目前仅支持输入默认值4,代表band模式的mask。

  • cmp_mask_modeint):可选参数,表示qcmp_kv计算的mask模式,目前仅支持输入默认值3,代表rightDownCausal模式的mask,对应以右顶点为划分的下三角场景。

  • ori_win_leftint):可选参数,表示qori_kv计算中q对过去token计算的数量,目前仅支持默认值127。

  • ori_win_rightint):可选参数,表示qori_kv计算中q对未来token计算的数量,目前仅支持默认值0。

  • layout_qstr):可选参数,表示输入q的数据排布格式,默认值为BSND,目前支持传入BSND和TND。

  • layout_kvstr):可选参数,表示输入ori_kvcmp_kv的数据排布格式,目前仅支持传入默认值PA_ND(PageAttention)。

  • has_ori_kvbool):可选参数,表示是否传入ori_kv,默认值为true。

  • has_cmp_kvbool):可选参数,表示是否传入cmp_kv,默认值为true。

  • devicestr):可选参数,用于获取设备信息,默认值为None。

返回值说明

  • metadataTensor):每个cube核上FlashAttention计算任务的Batch、Head、以及 Q 和 K 的分块的索引,以及每个vector核上FlashDecode的规约任务索引。

约束说明

  • 该接口支持推理场景下使用。
  • 该接口支持aclgraph模式。
  • Tensor不能全传None。

Atlas A3 推理系列产品 调用示例

  • 支持单算子模式调用和aclgraph模式调用,作为SparseAttnSharedkv算子的前序算子,调用示例见SparseAttnSharedkv调用示例。

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/784234/

相关文章:

  • 西安不干胶标签定制为什么掉标?松林森彩印用海德堡印刷机如何解决 - 企业名录优选推荐
  • 懒人速食南昌拌粉酱料技术解析与靠谱工厂指南 - 资讯焦点
  • GTA5增强版Menyoo简体中文内置修改器2026最新安装包免费下载(速下 资源随时可能失效) 转存才可解压
  • 一个游戏原型用多智能体系统,让“一人做游戏”变成了可能
  • CANN/ops-nn GELU量化算子
  • 购物卡回收推荐:2026年靠谱卡券回收平台全面测评与选择指南 - 资讯焦点
  • 高质量色织布采购指南:工艺深度与品控标准解析 - 资讯焦点
  • 部署高性能嵌入模型服务:从BGE-M3到生产级RAG应用实战
  • 2050年欧非AI发展差距与人口结构对劳动力市场的重塑
  • 基于Transformer的序列标注实战:从NER到魔法咒语识别
  • 西安不干胶标签定制哪家好?松林森彩印vs传统印刷厂深度对比 - 企业名录优选推荐
  • 杭州除甲醛公司怎么选?聚焦杭州除甲醛主流技术大比拼:原理、效果、持久性! - 速递信息
  • 医疗生成式AI伦理挑战与TREGAI评估清单:从原则到实践
  • 山东联华土工材料有限公司:2026年经编涤纶/单向双向塑料/钢塑复合土工格栅厂家推荐,土工材料全系供应 - 品牌推荐官
  • 科学AI安全挑战:从化学合成到毒性预测的风险与防护
  • 2026年5月蚌埠防水公司排行榜TOP1:同城上门防水补漏13956389680 - 新闻快传
  • 去痘印泥膜推荐 14天搞定痘印,皮肤干净到发光 - 全网最美
  • 2026年西安画册印刷厂排名:高新技术企业如何保障交期与品质 - 企业名录优选推荐
  • CANN/ge:历史原型库设计文档(ES 场景)
  • ChatGPT教育应用:用户感知、挑战与AI学习能力构建实践
  • Python自动化内容抓取工具snapclaw实战:从配置到反爬策略
  • IP6520_Q1 36W输出 集成多种快充输出协议的降压SOC 支持 PD2.0/PD3.1/PPS ,QC2.0/QC3.0/QC3+,AFC,FCP
  • 梯度下降算法:机器学习优化的核心原理与实践
  • AI算力治理:从技术原理到产业实践,如何管控AI时代的核心资源
  • 2026年昆明曲靖代理记账与工商变更全生命周期企业财税合规深度横评指南 - 年度推荐企业名录
  • 足球场照明选型指南:专业系统如何解决夜间赛事光环境难题 - 资讯焦点
  • 机器学习结合提丢斯-波得定则预测系外行星与宜居带候选体
  • AI重塑食品系统:从精准预测到个性化营养的实践路径
  • AI Agent可靠性评估:核心维度与最佳实践
  • CANN算子高性能实战样例库