当前位置：首页 > news >正文

CANN Triton GE后端实现

news 2026/5/10 1:20:06

README

【免费下载链接】triton-inference-server-ge-backendge-backend基于triton inference server框架实现对接NPU生态，快速实现传统CV\NLP等模型的服务化。项目地址: https://gitcode.com/cann/triton-inference-server-ge-backend

新版本特性 v2.3.0

支持对全局、session、graph 的options进行添加，从而进一步调优模型，相关案例请参考性能调优方法论。
支持采用分档模式将符合条件模型转化为静态图，提高吞吐性能。
补充如何采用分档模式+锁核+调整精度，进一步提高性能。

在AscendHub下载镜像时需确认好版本，若使用旧版本镜像，需要手工下载源码编译生成新的backend后才能支持新特性。

版本特性 v2.2.0

支持从onnx文件读取模型输入输出信息, config中若无指定input，output，将会自动从文件中读取；
调整动态图在多实例下使用多Session方式，提高并发吞吐(显存占用会增高)；
支持动态batch场景小batch动态合并特性，配合多Session，提高吞吐；
补充调优方法论以及cnclip模型的最佳实践；
支持多模型特性，可支持同时拉起多个模型，提高现存利用率；
支持非0轴动态shape场景；
支持TensorFlow的pb文件。

介绍

ge-backend基于triton inference server框架实现对接NPU生态，快速实现传统CV\NLP模型的服务化。
triton inference server相关介绍请参考： https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/index.html

实现原理

triton inference server 提供了Custom backend 接口，允许通过自定义backend实现NPU设备接入。

将本工程编译的backend文件libnpu_ge.so安装到 {Triton-server源码安装目录}/backends/npu_ge/, 启动triton-inference-server服务端, server在拉起模型过程中根据模型设置，选择npu_ge后端对推理请求进行分发。
ge_backend 采用 GE组图方式进行推理，基于C++实现，支持GE的图优化、UB融合、多流并行等诸多特性，以便更好的为服务化模型提供更高吞吐。
模型在使用该框架时需要统一转换为Onnx格式，并基于triton-inference-server规范，配置模型相关config以及版本信息。

特性支持情况

特性名称	介绍	支持情况
多模型	可支持一个server启动多个模型	√
多实例	模型可同时处理多个请求，此特性需搭配多流并行或多卡使用	√
多卡支持	一个模型可同时跑在多张卡上，每张卡可配置>1 的实例	√
多卡负载均衡	多卡情况下能根据每张卡上任务数量动态分配请求	目前仅支持所有请求shape一致场景
动态batch	支持input、output 的0轴为可变场景	√
GE静态图	通过shape固定，实现初始化图时分配好所有显存，提高图执行效率	√
多流并行	多实例场景下NPU支持多Stream，提高NPU利用率	√
锁核	配置每一条stream使用Cube以及Vector核心数量，以便多stream情况下提高吞吐	√
非0轴动态	支持非0轴情况下的动态shape	√ *
自动配置	支持onnx模型自动读取input、output免配置	√ *