当前位置：首页 > news >正文

CANN Runtime运行时深度拆解：算子执行的调度中枢与资源管理核心及错误处理传播机制全解析

news 2026/7/30 22:31:39

前言

在CANN软件栈中，runtime（运行时）扮演的角色常被误解为"类似于CUDA Runtime的封装层"。实际上CANN runtime的职责范围更聚焦也更深入：它位于GE（图引擎）之下、driver之上，是算子从提交到完成这个过程中的实际调度者和资源管理者。一个典型的算子执行路径是：应用程序通过AscendCL接口提交任务，经过GE的图编译和子图拆分后，到达runtime层。runtime在这里负责把算子任务分派到具体的Stream队列中，管理设备内存的分配和回收，协调同步和异步执行的时序关系。不理解runtime的内部机制，就很难精确解释为什么同一个算子在不同的Stream配置下执行效率不同，为什么内存池可以显著减少分配开销，以及算子执行失败时错误是如何向上传播的。

runtime在CANN栈中的定位

CANN的五层架构中，runtime归属于第四层——计算执行层，位于GE（图引擎，第三层）之下、sip和driver（计算基础层，第五层）之上。这个位置决定了runtime的两面性：对上层来说，它是算子执行的入口，GE生成的子图最终以任务流的形式提交给runtime执行；对下层来说，它需要调用sip的设备管理接口完成设备内存分配，最终通过driver把命令流写入硬件。

runtime的核心抽象包括几个关键概念。RuntimeTensor是runtime层面的张量表示，携带了数据地址、形状、数据类型等元信息，但不持有数据本身的所有权。TaskQueue是算子任务在runtime层面的组织方式，每个算子被拆解成若干个原子任务——内存拷贝、计算指令发射、同步等待等——这些任务按序放入对应的TaskQueue中。Stream是CANN runtime中的执行流概念，类似于CUDA Stream，但实现细节有显著差异。内存池是runtime管理设备内存的核心机制，通过预先分配大块内存并在内部按需切分和复用，大幅降低高频分配释放带来的开销。

runtime的实际工作流程可以概括为三个阶段。初始化阶段——runtime驱动sip完成设备发现、固件加载、设备内存池创建。执行阶段——runtime接收上层提交的任务流，按Stream分派到不同的TaskQueue中管理。清理阶段——RuntimeTensor引用归零时触发的内存回收，Stream关闭时的资源释放，最终设备关闭时的全局清理。

Stream在不同执行模型中的角色

CANN runtime支持两种执行模型：同步执行和异步执行。这两种模型对Stream的管理方式完全不同，理解这个差异是掌握runtime的关键。

同步执行模型中，每个请求隐式使用默认Stream。调用一个算子API后，runtime在默认Stream上创建TaskQueue，发射计算指令，再等待硬件执行完成再返回。这种模式下，下一个算子的发射必须等前一个算子的执行完成，CPU和NPU之间是串行的。对于简单的单算子调用场景，这种模型最容易理解和使用，但NPU的计算吞吐量得不到充分利用——因为大部分时间NPU都在等CPU发射下一个指令。

异步执行模型中，runtime允许应用程序创建多个显式Stream。每个Stream维护独立的TaskQueue，算子在某个Stream上发射后立即返回，不需要等待硬件执行完成。多个Stream之间可以独立推进，runtime通过硬件调度器在NPU上交织执行来自不同Stream的任务。

// runtime中Stream创建与任务提交的核心逻辑简化StreamHandleCreateStream(int32_tpriority){StreamHandle s=newStreamImpl();s->queue.Init(priority);s->state=STREAM_READY;g_stream_table[s->id]=s;returns;}StatusLaunchKernel(KernelHandle kernel,StreamHandle stream,void*args[],int32_targ_count){Task task;task.kernel=kernel;task.args=BuildTaskArgs(args,arg_count);stream->queue.Push(task);returnSUCCESS;}

StreamHandle是一个不透明指针而非int类型句柄，这种设计让runtime可以在StreamImpl内部隐藏所有实现细节。例如Stream的优先级、TaskQueue的内部锁策略、状态转换等，外部调用者只需要持有句柄即可。g_stream_table全局表中维护了所有Stream的映射关系，这个设计允许runtime在需要时对所有Stream做统一管理——比如在设备复位时批量清理所有Stream。

异步模型中最关键的设计约束是同步点的管理。当一个Stream中的任务需要等待另一个Stream中任务的完成结果时，runtime需要插入同步事件。CANN runtime通过Event机制实现这种跨Stream同步，Event本质上是一个硬件寄存器级别的信号量，一个Stream在任务完成后写入Event，另一个Stream等待这个Event被写入后继续执行。

更具体的说，当Stream A上的算子输出被Stream B上的算子需要作为输入时，runtime不会暂停Stream A，而是在Stream B的任务队列中插入一个等待Event的标记项。硬件调度器在Stream B上遇到这个标记项时，会暂停该Stream的执行，直到Event被Stream A写入。这种机制实现了真正的硬件级同步，不需要CPU介入。

内存池设计的多级分配策略

内存管理是runtime性能的关键因素之一。直接通过驱动层分配设备内存涉及Kernel态到用户态的切换，单次分配的开销较高。如果每个算子都独立分配和释放内存，分配开销会显著影响端到端性能。

CANN runtime采用多级内存池策略来解决这个问题。应用程序启动时，runtime从设备上预分配一大块连续内存作为Device内存池。当算子需要设备内存时，runtime从池中切分一块返回；算子使用完毕后，runtime将内存回收回池中。回收的内存可以被后续请求复用，避免了频繁的驱动层分配。

// runtime内存池分配逻辑简化classMemoryPool{structMemBlock{void*addr;size_t size;boolfree;};std::vector<MemBlock>blocks;public:void*Alloc(size_t size){for(auto&b:blocks){if(b.free&&b.size>=size){b.free=false;returnb.addr;}}autonew_addr=SipAllocDeviceMem(size);blocks.push_back({new_addr,size,false});returnnew_addr;}voidFree(void*addr){for(auto&b:blocks){if(b.addr==addr){b.free=true;return;}}}};

内存池的Alloc函数实现了两级分配策略。回收的内存块被优先复用——遍历blocks数组查找空闲且大小满足的块，找到就直接返回。这一级分配非常快，只需一次线性扫描。只有在池中没有合适的空闲块时，才调用SipAllocDeviceMem从设备上真正分配内存。Free函数也只是把对应块标记为空闲，真正的释放延迟到内存池销毁时统一进行。这种延迟释放策略是内存池提升性能的核心——高频的分配释放操作变成了O(1)或O(n)的内存池操作，而不是相对昂贵的驱动级分配。

除了Device内存池，runtime还管理Host内存池。Host内存用于CPU和NPU之间的数据传输。Host内存池的管理策略与Device内存池类似，但有一个重要区别：Host内存需要在物理连续（对于某些DMA传输场景）和虚拟连续（对于CPU随机访问）之间做权衡。runtime根据不同的传输场景选择最合适的Host内存分配策略。

内存复用在runtime中的另一个体现是Tensor引用计数管理。当多个算子共享同一块数据时，runtime通过引用计数决定何时真正回收内存。算子的输入Tensor计数加一，输出Tensor消费完后计数减一，计数归零时才归还给内存池。

同步与异步执行的开销差异

同步执行的开销分布和异步执行完全不同。在同步模式下，每次算子调用的总时间是CPU发射时间加上NPU执行时间，而且CPU必须等待NPU完成后才能发射下一个算子。如果算子本身执行时间短，CPU等待的时间占比就会很高。

异步模式下，CPU发射和NPU执行可以部分重叠。当算子A在Stream1上发射后立即返回，CPU可以继续发射算子B到Stream2上。只要Stream之间没有依赖冲突，硬件调度器可以交错执行来自不同Stream的任务。

这种差异的根源在于：NPU的计算能力往往高于单次推理中连续算子之间的数据依赖所允许的利用率。多个Stream提供了更多的并行度，让NPU可以在等待数据就绪的同时执行其他Stream中的计算任务。

使用前后的效率对比

runtime的引入对系统整体效率的影响体现在多个维度。下面从分配路径长度、执行模型灵活度、错误响应速度等几个角度对比有runtime和无runtime的设计差异。

维度	未经runtime管理的实现	通过runtime管理的实现	差异来源
内存分配路径	每次分配直接调用driver IOCTL，路径长度包括用户态到内核态的上下文切换	从runtime内存池中切分，仅池中无可用块时才调用driver分配	内存池的缓存机制减少了内核态切换次数
执行模型支持	只支持同步执行，CPU必须阻塞等待每个算子完成	支持同步和异步两种模型，异步模式下CPU发射与NPU执行可以重叠	runtime的事件机制和Stream管理实现了异步发射
内存碎片控制	频繁的直接分配释放导致碎片累积，大块分配失败的概率升高	内存池内部的切分和回收算法统一管理碎片，大块分配成功率更高	池化管理和碎片合并策略优于逐次分配
跨Stream调度	无Stream概念，所有任务在单一执行流上串行处理	多Stream并行调度，硬件调度器在Stream间动态交织执行	Stream抽象和硬件调度器的配合带来了更高的利用率

没有runtime的情况下，每个上层组件需要自己管理设备内存的分配和释放，自己处理任务提交和同步，这些重复劳动不仅浪费开发效率，更严重的是每个组件对内存的管理策略不同，系统整体的可预测性会显著降低。runtime统一管理的价值不仅仅在于减少代码量，更在于提供了一套经过优化的默认策略——内存池的大小、Stream的数量、TaskQueue的深度，这些参数可以针对不同的硬件和场景做调优，最终用户不需要关心这些底层细节。

runtime的异常处理传播路径

算子在NPU上执行时可能遇到各种问题：越界访问、内存损坏、计算单元超时等。runtime设计了一套异常处理路径来应对这些情况。

正常的执行路径中，runtime通过Stream实现异步提交。算子在NPU上执行时，runtime不会等待。如果算子执行失败，NPU硬件会触发中断，driver层捕获中断后通过sip上报给runtime。runtime的异常处理模块接收到错误报告后，对当前Stream的状态进行标记，记录错误信息。runtime的异常处理模块还需要判断错误的严重程度——是当前算子失败还是整个设备故障。

对于单个算子失败，runtime会终止该Stream上后续所有待执行的任务，但其他Stream不受影响。应用程序可以通过查询Stream状态获取错误信息。对于设备级故障——比如NPU温度过高或供电异常——runtime会终止所有Stream，将设备标记为不可用，并向应用程序返回致命错误码。

// runtime异常状态查询StatusQueryStreamStatus(StreamHandle stream){StreamImpl*s=(StreamImpl*)stream;if(s->last_error!=SUCCESS){returns->last_error;}if(s->is_device_fault){returnDEVICE_ERROR;}returnSUCCESS;}

QueryStreamStatus把Stream的内部状态封装成对外查询接口，而不是让上层直接访问StreamImpl的成员变量。这样做有两个直接好处。上层不需要关心Stream内部的状态数据结构，只需要调用一个简单的查询函数就能知道当前执行流的状态。runtime可以在QueryStreamStatus内部额外加入状态收敛逻辑——比如多个算子连续失败时只保留第一个失败的错误码，避免错误信息被覆盖。is_device_fault字段的存在说明runtime区分了算子级别的错误和设备级别的错误，这两种错误的处理方式完全不同。

这种分级处理保证了非关键错误不会导致整个应用崩溃，同时关键错误不会被忽略。应用程序不需要在每个算子调用后都检查返回值。

runtime与CUDA Runtime的设计差异

使用过CUDA的开发者看到CANN runtime时容易产生类比联想，但两者的设计差异不小于相似点。

CUDA Runtime是CUDA软件栈中最上层的用户态接口，涵盖了设备管理、内存管理、流管理、事件管理、内核启动等几乎所有功能。CUDA Runtime的下层是CUDA Driver API，两者之间是普通函数调用关系。

CANN runtime的功能范围更窄。设备管理的功能下沉到了sip层，runtime不直接参与设备发现和固件加载。runtime聚焦于算子执行和资源管理的中间层，它的职责边界比CUDA Runtime更清晰。

另一个重要的差异是Stream的实现。CUDA Stream是一个轻量级的执行队列，创建和销毁的开销很小。CANN的Stream创建涉及更多的资源分配工作，包括TaskQueue的内存预分配、硬件调度器相关资源的注册等。这意味着CANN中Stream的创建成本更高，但对应的，每个Stream的任务管理能力更强，支持更复杂的依赖关系和优先级控制。

CANN runtime没有类似CUDA动态并行（Dynamic Parallelism）的机制——在CUDA中，GPU kernel可以自己启动子kernel，创建递归执行。CANN runtime不支持这种模式，所有算子必须由CPU端提交。这个差异的背后是CANN架构设计的一个哲学选择：执行层只管执行，调度决策留在上层。

仓库地址：https://atomgit.com/cann/runtime

查看全文

http://www.jsqmd.com/news/995209/