当前位置：首页 > news >正文

Onnxruntime之多个EP类型

news 2026/3/27 2:17:17

ONNX Runtime中不同类型的Execution Provider，主要分成三大类，每类的实现机制和典型代表如下：

📊 三大类Execution Provider对比

类别	核心机制	Kernel注册	执行方式	典型代表	特点
编译型EP	整个子图编译成二进制	只注册D2H/H2D + 可能注册`FuncCall`	执行预编译的二进制	NPU、TensorRT、OpenVINO、QNN	第一次慢（编译），后续极快；完全接管子图
解释型EP	每个算子独立执行	为每个支持的算子注册Kernel	逐算子调用Kernel	CPU、CUDA、ROCm、DirectML	灵活，支持动态图；无编译开销
委托型EP	节点分配后调用其他EP的内核	只注册少量管理类Kernel	通过KernelLookup调用其他EP	某些"代理"EP、部分实验性EP	作为图分区器，实际计算靠别人

🏗️ 各类型EP的架构图解

1. 编译型EP（NPU）

2. 解释型EP（CUDA/CPU）

3. 委托型EP（代理模式）

🔍 主要EP的具体分类

1. 编译型EP（与你当前场景最相关）

EP名称	目标硬件	编译产物	特点
NPU	NPU	NBG文件	你正在用的，调用`vsi_nn_GenerateNBG()`
TensorRT	NVIDIA GPU	TensorRT引擎	支持TRT 10.9，可加载V3插件
OpenVINO	Intel CPU/GPU/NPU	编译后的网络	支持CPU_FP32/GPU_FP16/MYRIAD_FP16
QNN	Qualcomm HTP/NPU	QNN上下文二进制	支持HTP后端，可生成context binary
Neuron	MediaTek NPU	编译后的NPU网络	需要设置NEURON_FLAG_USE_FP16

2. 解释型EP（每个算子独立Kernel）

EP名称	目标硬件	Kernel注册量	特点
CPU	所有CPU	极多	通用回退EP，支持MLAS优化
CUDA	NVIDIA GPU	多	支持MatMulNBits 8-bit量化
ROCm	AMD GPU	多	AMD GPU支持
DirectML	Windows GPU	多	DirectX 12加速
XNNPACK	ARM CPU	中等	移动端CPU优化

3. 混合型/特殊EP

EP名称	类型	行为特点
CoreML	编译+委托	Apple Neural Engine + CPU回退
NNAPI	委托	Android神经网络API（已标记弃用）
TVM	编译	已被移除代码库

💡 为什么会有这些区别？

1.硬件特性决定

GPU（CUDA/TensorRT）：通用并行计算，既可以逐算子执行，也可以整体优化
NPU（Neuron/QNN）：专用硬件，需要整体编译才能发挥最大效率
CPU：最灵活，可以逐指令执行

2.优化目标不同

# 解释型EP适合： - 动态形状模型 - 调试和开发 - 算子级优化 # 编译型EP适合： - 生产部署 - 固定形状 - 极致性能 - 低功耗场景（NPU）

3.NPU为何是编译型

NPU类硬件的标准工作模式：一次编译，多次执行。

🔧 如何判断一个EP属于哪类？

方法1：看KernelRegistry

// 在你的Provider中 GetKernelRegistry() { // 如果只返回 D2H/H2D Kernel → 极可能是编译型EP // 如果返回几十个算子Kernel → 解释型EP }

方法2：看GetCapability返回值

GetCapability() { // 如果返回包含整个图的SubGraph → 编译型EP // 如果返回多个小SubGraph → 解释型/委托型 // 如果返回空 → 可能只是代理 }

GetCapability()返回的是一个std::vector<std::unique_ptr<ComputeCapability>>。要让“整个图归你管”，核心就是返回一个ComputeCapability，其中包含一个描述整个计算图的IndexedSubGraph。

🧩`ComputeCapability`的核心组成

每个ComputeCapability对象主要包含以下几个关键部分，用于告诉 ONNX Runtime 你的 Provider 能处理哪些节点，以及如何处理：

组成部分	类型	描述
`sub_graph`	`std::unique_ptr<IndexedSubGraph>`	核心部分。这是一个指向`IndexedSubGraph`对象的指针，它通过节点索引列表，精确地圈定你的 Provider 想要执行的子图范围。
`compile_callback`	`std::function`(可选)	一个回调函数。如果你的 EP 需要在图分区后进行自定义编译（就像你之前看到的 Vivante NPU 那样），可以在这里指定。
`unique_id`	整数 (可选)	一个可选的唯一标识符，用于区分同一个 EP 返回的多个`ComputeCapability`。
`nodes_to_optimize`	(不常用)	用于更复杂的 EP 内部图优化场景。

方法3：看执行日志

# 编译型EP日志 [Info] Compiling model to binary... [Info] Cache miss, generating engine... # 解释型EP日志 [Info] Assigning MatMul kernel to CUDA EP [Info] Assigning Add kernel to CUDA EP