当前位置: 首页 > news >正文

CANNOpsTransformer融合因果一维卷积

FusedCausalConv1d

【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品×
Atlas A2 训练系列产品/Atlas A2 推理系列产品×
Atlas 200I/500 A2 推理产品×
Atlas 推理系列产品×
Atlas 训练系列产品×

功能说明

  • 算子功能:对序列执行因果一维卷积,沿序列维度使用缓存数据(长度为卷积核宽减1)对各序列头部进行padding,确保输出依赖当前及历史输入;卷积完成后,将当前序列尾部的数据(长度为卷积核宽减1)更新到缓存;在因果一维卷积输出的基础上,将原始输入加到输出上以实现残差连接。

  • 本算子支持以下场景:

    • 场景一(prefill场景):

      x: [cu_seq_len, dim] weight: [K, dim],其中K=3 conv_states: [-1, K-1, dim] query_start_loc: [batch+1] cache_indices: [batch] initial_state_mode: [batch] bias: [dim](无作用) num_accepted_tokens: [batch](无作用) y: [cu_seq_len, dim] run_mode: 0

      其中cu_seq_len为batch内所有变长序列拼接后的总长度。

    • 场景二(decode场景 - 变长序列):

      x: [cu_seq_len, dim] weight: [K, dim],其中K=3 conv_states: [-1, state_len, dim] query_start_loc: [batch+1] cache_indices: [batch] initial_state_mode: [batch] bias: [dim](无作用) num_accepted_tokens: [batch](用于投机解码) y: [cu_seq_len, dim] run_mode: 1

      其中state_len必须大于所有batch中最大的token个数加1。

    • 场景三(decode场景 - 固定batch):

      x: [batch, m+1, dim] weight: [K, dim],其中K=3 conv_states: [-1, K-1+m, dim] query_start_loc: [batch+1](无作用) cache_indices: [batch] initial_state_mode: [batch] bias: [dim](无作用) num_accepted_tokens: [batch](用于投机解码,m为投机token个数) y: [batch, m+1, dim] run_mode: 1
  • 计算公式:

    K是卷积核宽度(固定为3),L是原始序列长度,dim是特征维度。

    1. 缓存拼接:

    $$ x'[i, dim] = \begin{cases} cacheState[i, dim], & 0 \leq i < K-1 \ x[i - (K-1), dim], & K-1 \leq i < L + K - 1 \end{cases} $$

    1. 因果1维卷积:

    $$ y[i, dim] = \sum_{k=0}^{K-1} w[k, dim] \cdot x'[i + k, dim] $$

    1. 缓存更新:

    $$ cacheState[i, dim] = x'[L + i, dim], \quad i = 0, 1, \dots, K-2 $$

    1. 残差连接(可选):

    $$ y[i, dim] += x[i, dim] $$

参数说明

参数名输入/输出/属性描述数据类型数据格式
x输入输入序列,对应公式中x。FLOAT16、BFLOAT16ND
weight输入因果1维卷积核,K固定为3,对应公式中w。数据类型与x一致ND
conv_states输入/输出缓存状态张量,存储各序列的历史token数据,各序列计算完成后原地更新,对应公式中cacheState。数据类型与x一致ND
query_start_loc可选输入序列起始位置索引,记录各序列在拼接张量x中的起始位置。query_start_loc[i]表示第i个序列的起始偏移。INT32ND
cache_indices可选输入缓存索引,指定每个序列对应的缓存状态在conv_states中的索引。INT32ND
initial_state_mode可选输入初始状态标志,表示各序列是否使用缓存数据:0=零填充,1=使用缓存,2=使用缓存但前K-1个输出置0。INT32ND
bias可选输入卷积的偏置。数据类型与x一致ND
num_accepted_tokens可选输入decode场景下的投机token个数。INT32ND
activation_mode属性激活函数类型,取值为0、1、2。
0:None;
1:silu;
2:swish。
INT-
pad_slot_id属性用于跳过不需要参与计算的batch,-1表示不跳过。当cache_indices[i]==pad_slot_id时跳过该batch。INT-
run_mode属性用于判断是prefill场景或decode场景,取值为0、1。
0:prefill场景;
1:decode场景。
INT-
residual_connection属性是否做残差连接,取值为0、1。
0:不做残差连接;
1:输出y和输入x相加后输出。
INT-
y输出输出序列,shape与x一致,对应公式中y。数据类型与x一致ND

约束说明

  • 输入shape限制:

    • prefill场景:
      • x支持2维[cu_seq_len, dim]。
      • weight必须是2维[K, dim],其中K固定为3。
      • conv_states必须是3维[..., K-1, dim],第0维大小不固定且大于等于batch。
      • cu_seq_len范围[batch, 65536],dim范围[128, 16384]且是128的倍数,batch范围[1, 256]。
    • decode场景(固定batch):
      • x支持3维[batch, m+1, dim]。
      • weight必须是2维[K, dim],其中K固定为3。
      • conv_states必须是3维[..., K-1+m, dim],第0维大小不固定且大于等于batch。
      • m范围[0, 5],dim范围[128, 16384]且是128的倍数,batch范围[1, 256]。
    • decode场景(变长序列):
      • x支持2维[cu_seq_len, dim]。
      • weight必须是2维[K, dim],其中K固定为3。
      • conv_states必须是3维[..., state_len, dim],第0维大小不固定且大于等于batch,state_len必须大于所有batch中最大的token个数加K-1。
      • cu_seq_len范围[batch, batch*6],每个batch的token个数范围为[1, 6]。dim范围[128, 16384]且是128的倍数,batch范围[1, 256]。
  • 输入值域限制:

    • query_start_loc是累计偏移量,取值范围[0, cu_seq_len],长度为batch+1,query_start_loc[i]表示第i个序列的起始偏移,query_start_loc[batch+1]表示最后一个序列的结束位置。
    • cache_indices长度为batch,指定每个序列对应的缓存槽索引。
    • num_accepted_tokens分为None和非None,非None情况下长度为batch,每个元素取值不超过当前batch的token个数且大于0。

    调用说明

    调用方式样例代码说明
    aclnn接口test_aclnn_fused_causal_conv1d通过aclnnFusedCausalConv1d调用FusedCausalConv1d算子

【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/783468/

相关文章:

  • CANN/asc-devkit Asinh函数
  • 2026年山东沥青加温设备、沥青储存罐及筑路设备源头厂家完全选购指南 - 企业名录优选推荐
  • Excel AVERAGE函数底层逻辑与四大均值函数实战指南
  • 哔哩下载姬Downkyi完整指南:从入门到精通的高效B站视频管理方案
  • AArch64系统寄存器架构与Neoverse V3AE核心解析
  • CANN驱动获取设备DIE ID
  • 利用 Taotoken CLI 工具一键配置团队统一开发环境的教程
  • 从源码看本质:扒一扒Java LinkedList里poll()和remove()那点事儿
  • 总担心自己会偷拿别人的东西,原来是侵入性思维!
  • Windows驱动存储架构解析:DriverStore Explorer企业级驱动管理完整方案
  • CANN/cann-recipes-train: Qwen3-1.7B SFT训练示例
  • CANN/GE UDF接口列表
  • 实拍实测!兰州儿童摄影推荐TOP3,看完再选不踩雷 - 江湖评测
  • 诺基亚23亿美元收购英飞朗,昔日手机霸主借光通信转型AI算力时代
  • 2026 海口财税 Q2 季度:注册公司代办,代理记账,高新企业认证靠谱机构十大推荐排行 - 品牌优企推荐
  • 从开发者反馈看 Taotoken 在高峰时段的 API 响应稳定性
  • 量子计算在化学模拟中的应用与iQCC方法解析
  • 【计算机毕业设计】基于 Python + PyTorch 的神经点云压缩实验系统(源码+数据库+文档+部署)
  • MySQL数据库表结构设计最佳实践_规范化设计提升查询性能
  • 数据中台不是终点,数据治理才是起点——2026六大主流平台对比与选型框架
  • 能量阀工厂
  • 2026环氧地坪漆、地坪漆环氧地坪源头厂家的靠谱推荐 哪家好 - 奔跑123
  • CANN/Ascend C开发套件
  • day19_线性回归
  • 告别毕业季双重内耗:Paperxie 用一套流程,搞定论文查重与 AI 痕迹通关
  • GPT-4与GPT-3错误信息识别能力深度对比与工程实践指南
  • 君乐宝优萃宝爱奶粉怎么样?2026年走心测评:从奶源到配方一次说清 - 速递信息
  • CANN/pto-isa内存操作(GM <-> Tile)
  • 使用Taotoken后我们网站的AI服务延迟体感明显下降
  • 2026年沥青加温设备、筑路设备源头厂家采购完全指南——德州霖垚筑路设备官方对接 - 企业名录优选推荐