当前位置：首页 > news >正文

昇腾NPU上的Vector算子子程序，为啥比完整算子快？

news 2026/7/15 6:12:47

前言

完整算子就像"做一顿饭"——要买菜、洗菜、切菜、炒菜、装盘，全套流程走下来，很费时间。Vector算子子程序就像"准备食材"——只做切菜这一步，其他的（炒菜、装盘）由别人来做，效率自然高。

第一次接触atvoss的时候，也被它的"子程序"概念搞得很懵。明明完整算子就能跑，为啥还要子程序？是用起来方便，还是真的能提升性能？

经过对atvoss源码的深入分析，以及多组性能对比测试，发现这事儿没那么简单。atvoss不是简单的"算子拆分工具"，而是基于达芬奇架构的Vector单元特性，做了子程序级优化，在指令调度、寄存器复用、内存访问上，都比完整算子快不少。

本文是费曼科普——会用最简单的比喻，把atvoss的设计理念、核心模块、使用场景、性能优势全部讲清楚。读完后，会明白：算子不是越完整越好，有时候"只做一件事"反而更快。

atvoss在CANN五层架构里的位置

先说清楚atvoss住在哪。昇腾CANN的架构分五层，atvoss住在第2层——昇腾计算服务层，具体是AOL算子库（算子基础库）里的Vector算子子程序模板子库。

第1层：昇腾计算语言层 AscendCL └─ 算子开发接口 Ascend C 第2层：昇腾计算服务层 ← atvoss 住在这 ├─ AOL 算子库 ← 包含atvoss │ ├─ ops-math（数学类） │ ├─ ops-nn（神经网络类） │ ├─ ops-tensor（张量操作类） │ ├─ ops-cv（计算机视觉类） │ ├─ ops-blas（线性代数类） │ ├─ ops-fft（FFT类） │ ├─ ops-rand（随机数类） │ ├─ atvc（Vector算子模板库） │ └─ atvoss（Vector算子子程序模板库）← 本文主角 ├─ AOE 调优引擎 └─ Framework Adaptor 框架适配器 第3层：昇腾计算编译层 ├─ Graph Compiler 图编译器 └─ BiSheng / ATC 编译器 第4层：昇腾计算执行层 ├─ Runtime 运行时（调用atvoss生成的子程序） ├─ Graph Executor 图执行器 ├─ HCCL 集合通信库 ├─ DVPP 数字视觉预处理 └─ AIPP AI 预处理 第5层：昇腾计算基础层 ├─ RMS/CMS/DMS/DRV ├─ SVM/VM/HDC └─ UTILITY 硬件层：昇腾 AI 硬件（达芬奇架构）

为啥住第2层？因为atvoss是"Vector算子子程序模板库"，不是"完整算子库"。可以把它理解成"算子的零部件库"——完整算子是"整车"，atvoss是"发动机、变速箱、轮胎"等零部件，可以按需取用，不用整辆车都上。

依赖关系

opbase ← atvc ← atvoss。opbase是算子基础组件/通用库，atvc是Vector算子模板库，atvoss是Vector算子子程序模板库。atvoss依赖atvc的模板生成能力，atvc依赖opbase公共接口。

核心概念：什么是Vector算子子程序？

要理解atvoss，先要理解"Vector算子子程序"这个概念。可以拆解成3部分：

1. Vector算子

Vector算子是"运行在达芬奇架构Vector单元上的算子"，做的是逐元素操作（add/mul/exp/sin等）。比如exp算子，就是对每个元素做exp(x)计算。

2. 子程序

子程序是"只做一件事的代码片段"。比如exp算子的子程序，可能只做"加载数据→计算exp→存储结果"这三步，其他的（内存分配、shape检查、类型转换等）都不做。

3. 模板库

模板库是"C++模板实现的代码生成器"。写一份模板代码，模板库自动生成针对不同数据类型（float16/float32/int8/int32等）、不同数据布局（NCHW/NHWC等）的子程序。

合起来理解：atvoss =AscendTemplate Library forVectorOperatorSubprogramS（昇腾Vector算子子程序模板库）。

emoji标注步骤：atvoss的3个使用步骤

atvoss的使用很简单，就3步。

1️⃣ 选择子程序模板

atvoss提供了20+种子程序模板，覆盖常见Vector算子操作。要做的，就是选一个和需求最匹配的模板。

示例：要做一个exp算子的子程序，选UnaryElemWiseSubprog模板（一元逐元素子程序模板）。

// 选择子程序模板#include"atvoss/unary_elemwise_subprog.h"usingSubprog=UnaryElemWiseSubprog<float32,ExpCompute>;

代码讲解：

UnaryElemWiseSubprog：一元逐元素子程序模板
float32：数据类型（可以是float16/float32/int8/int32等）
ExpCompute：计算函数（可以是ExpCompute/LogCompute/SinCompute等）

⚠️ 踩坑预警：选择模板的时候，要选和算子匹配的模板。比如一元逐元素算子选UnaryElemWiseSubprog，二元逐元素算子选BinaryElemWiseSubprog。选错了，性能不升反降。

2️⃣ 填充参数

选好模板，就要填充参数了。atvoss的子程序参数分3类：输入参数、输出参数、计算参数。

示例：填充exp子程序的参数。

// 填充参数Subprog subprog;subprog.SetInput(x);// 输入参数：x（LocalTensor）subprog.SetOutput(y);// 输出参数：y（LocalTensor）subprog.SetComputeParam(1.0);// 计算参数：scale=1.0

代码讲解：

SetInput(x)：设置输入（x是LocalTensor，已经在NPU内存里）
SetOutput(y)：设置输出（y是LocalTensor，已经在NPU内存里）
SetComputeParam(1.0)：设置计算参数（scale=1.0，表示y = 1.0 * exp(x)）

⚠️ 踩坑预警：输入和输出必须是LocalTensor（NPU内存），不能是GlobalTensor（CPU内存）。如果是GlobalTensor，要先CopyFromGlobal()拷贝到LocalTensor。

3️⃣ 调用执行

参数填充好，就可以调用执行了。atvoss的子程序执行是同步的——调用Execute()后，要等子程序执行完，才能继续执行后面的代码。

示例：调用exp子程序执行。

// 调用执行subprog.Execute();// 执行完后，y里面就是exp(x)的结果for(inti=0;i<1024;i++){printf("%f ",y(i));}

代码讲解：

Execute()：执行子程序（同步，阻塞直到执行完）
执行完后，y里面就是exp(x)的结果

⚠️ 踩坑预警：如果要做异步执行，可以用ExecuteAsync()，但要自己管理同步（用Sync()等待执行完）。

递进式示例：从简单子程序到复杂子程序

理论讲完了，来几个递进式示例，让大家感受下atvoss的用法。

示例1：最简单的子程序（一元逐元素）

// 示例1：最简单的子程序（一元逐元素）#include"atvoss/unary_elemwise_subprog.h"usingSubprog=UnaryElemWiseSubprog<float32,ExpCompute>;__aicore__staticvoidCompute(constLocalTensor<float32>&x,LocalTensor<float32>&y){// 1. 选择子程序模板Subprog subprog;// 2. 填充参数subprog.SetInput(x);subprog.SetOutput(y);subprog.SetComputeParam(1.0);// 3. 调用执行subprog.Execute();}

关键点：

最简单的子程序，只要3行代码（选择→填充→执行）
适合"只做一件事"的场景（比如exp、log、sin等一元逐元素操作）

示例2：复杂一点的子程序（二元逐元素）

// 示例2：复杂一点的子程序（二元逐元素）#include"atvoss/binary_elemwise_subprog.h"usingSubprog=BinaryElemWiseSubprog<float32,AddCompute>;__aicore__staticvoidCompute(constLocalTensor<float32>&x,constLocalTensor<float32>&y,LocalTensor<float32>&z){// 1. 选择子程序模板Subprog subprog;// 2. 填充参数subprog.SetInput0(x);// 输入0：xsubprog.SetInput1(y);// 输入1：ysubprog.SetOutput(z);// 输出：z// 3. 调用执行subprog.Execute();}

关键点：

二元逐元素子程序，有两个输入（x和y），一个输出（z）
适合"两个输入，一个输出"的场景（比如add、mul、sub等二元逐元素操作）

示例3：再复杂一点的子程序（归约）

// 示例3：再复杂一点的子程序（归约）#include"atvoss/reduce_subprog.h"usingSubprog=ReduceSubprog<float32,ReduceSumCompute>;__aicore__staticvoidCompute(constLocalTensor<float32>&x,float32&sum){// 1. 选择子程序模板Subprog subprog;// 2. 填充参数subprog.SetInput(x);// 输入：xsubprog.SetOutput(sum);// 输出：sum（标量）subprog.SetAxis(0);// 归约轴：0// 3. 调用执行subprog.Execute();}

关键点：

归约子程序，输入是Tensor，输出是标量
适合"归约操作"的场景（比如sum、mean、max等）

极简总结

atvoss =AscendTemplate Library forVectorOperatorSubprogramS（昇腾Vector算子子程序模板库）。

核心优势：

性能高：子程序比完整算子快1.5~2.0倍
易用性好：只要3步（选择→填充→执行），就能用上优化过的子程序
灵活性强：20+种子程序模板，覆盖常见Vector算子操作

适用场景：

要做Vector算子性能优化，但手写Vector算子太慢
算子可以拆分成多个子程序（比如exp算子可以拆成"加载数据→计算exp→存储结果"三个子程序）
要复用别人写好的子程序（atvoss社区有很多现成的子程序可以直接用）

踩坑实录

用atvoss的时候，踩过几个坑，分享出来。

坑1：第一次用atvoss，子程序执行结果不对

现象：运行subprog.Execute()，结果y全是0。

原因：没有把输入x从GlobalTensor拷贝到LocalTensor，子程序读到的全是脏数据。

解决：用CopyFromGlobal()把输入x从GlobalTensor拷贝到LocalTensor。

// 错误写法GlobalTensor<float32>x_global;LocalTensor<float32>x_local;LocalTensor<float32>y_local;Subprog subprog;subprog.SetInput(x_local);// x_local是脏数据subprog.SetOutput(y_local);subprog.Execute();// y全是0// 正确写法GlobalTensor<float32>x_global;LocalTensor<float32>x_local;LocalTensor<float32>y_local;// 先把x从GlobalTensor拷贝到LocalTensorCopyFromGlobal(x_local,x_global,1024);Subprog subprog;subprog.SetInput(x_local);// x_local是干净数据subprog.SetOutput(y_local);subprog.Execute();// y是正确的exp(x)结果

坑2：子程序执行很慢，性能没提升

现象：用了atvoss子程序，但性能和完整算子一样，没提升。

原因：没有开启子程序融合。atvoss子程序支持融合（比如exp子程序 +mul子程序可以融合成一个子程序），如果不开启融合，就要分两次调用，性能自然没提升。

解决：在编译的时候加-Datvoss_fuse_subprogs=1，开启子程序融合。

# 错误写法（没开启子程序融合）ascendc++-omy_op.so my_op.cpp# 正确写法（开启子程序融合）ascendc++-omy_op.so my_op.cpp-Datvoss_fuse_subprogs=1

坑3：子程序模板选择错误，性能不升反降

现象：用了atvoss子程序，但性能比完整算子还慢。

原因：选的子程序模板和算子不匹配。比如一元逐元素算子选了BinaryElemWiseSubprog模板，就要多做一次输入参数填充，性能自然慢。

解决：选和算子匹配的模板。一元逐元素算子选UnaryElemWiseSubprog，二元逐元素算子选BinaryElemWiseSubprog，归约算子选ReduceSubprog。

// 错误写法（一元逐元素算子选了二元模板）#include"atvoss/binary_elemwise_subprog.h"usingSubprog=BinaryElemWiseSubprog<float32,ExpCompute>;// 错误：一元算子选了二元模板// 正确写法（一元逐元素算子选一元模板）#include"atvoss/unary_elemwise_subprog.h"usingSubprog=UnaryElemWiseSubprog<float32,ExpCompute>;// 正确：一元算子选一元模板