当前位置：首页 > news >正文

写给前端的 CANN-GraphCompiler：昇腾图编译器到底是啥？

news 2026/7/23 11:58:14

写给前端的 CANN-GraphCompiler：昇腾图编译器到底是啥？

之前有兄弟问：“哥，PyTorch 模型怎么在昇腾上跑？中间有什么编译过程？”

好问题。今天一次说清楚。

GraphCompiler 是啥？

GraphCompiler 是昇腾的图编译器。把计算图编译成 NPU 可执行的代码。

一句话说清楚：GraphCompiler 是昇腾的图编译器，把模型计算图编译成 NPU 执行代码，优化性能。

你说气人不气人，同样的模型，GraphCompiler 编译后能快 2-3 倍。

为什么需要 GraphCompiler？

模型执行流程

PyTorch 模型 ↓ 导出计算图（ONNX/TorchScript） ↓ GraphCompiler 编译 ↓ 生成 OM 模型 ↓ NPU 执行

GraphCompiler 负责：解析计算图、优化、生成可执行代码。

GraphCompiler 核心能力

1. 图解析

解析不同框架的计算图。

importgraph_compilerasgc# 解析 ONNXmodel=gc.load_onnx("model.onnx")# 解析 TorchScriptmodel=gc.load_torchscript("model.pt")# 解析 TensorFlowmodel=gc.load_tensorflow("model.pb")# 查看图结构print(model.graph)

2. 图优化

优化计算图性能。

importgraph_compilerasgc model=gc.load_onnx("model.onnx")# 应用优化optimizer=gc.GraphOptimizer()# 算子融合optimizer.fuse_ops(model.graph)# 死代码消除optimizer.eliminate_dead_code(model.graph)# 常量折叠optimizer.fold_constants(model.graph)# 内存优化optimizer.optimize_memory(model.graph)# 查看优化后的图print(model.graph)

3. 算子映射

映射到昇腾算子。

importgraph_compilerasgc model=gc.load_onnx("model.onnx")# 算子映射mapper=gc.OpMapper()mapper.map_to_ascend(model.graph)# 查看映射结果fornodeinmodel.graph.nodes:print(f"{node.op_type}->{node.ascend_op}")

4. 内存规划

规划内存使用。

importgraph_compilerasgc model=gc.load_onnx("model.onnx")# 内存规划planner=gc.MemoryPlanner()memory_plan=planner.plan(model.graph)print(f"Total memory:{memory_plan.total_memory/1024/1024:.2f}MB")print(f"Peak memory:{memory_plan.peak_memory/1024/1024:.2f}MB")

5. 编译生成

生成 OM 模型。

importgraph_compilerasgc# 编译model=gc.load_onnx("model.onnx")compiler=gc.Compiler()om_model=compiler.compile(model)# 保存om_model.save("model.om")# 查看模型信息print(f"Input shape:{om_model.input_shape}")print(f"Output shape:{om_model.output_shape}")print(f"Model size:{om_model.size/1024/1024:.2f}MB")

编译选项

优化级别

importgraph_compilerasgc compiler=gc.Compiler()# O0: 无优化compiler.set_opt_level(gc.OptLevel.O0)# O1: 基础优化compiler.set_opt_level(gc.OptLevel.O1)# O2: 标准优化（默认）compiler.set_opt_level(gc.OptLevel.O2)# O3: 激进优化compiler.set_opt_level(gc.OptLevel.O3)

精度模式

importgraph_compilerasgc compiler=gc.Compiler()# FP32compiler.set_precision(gc.Precision.FP32)# FP16compiler.set_precision(gc.Precision.FP16)# 混合精度compiler.set_precision(gc.Precision.MIXED)

动态 Shape

importgraph_compilerasgc compiler=gc.Compiler()# 静态 Shapecompiler.set_dynamic_shape(False)# 动态 Shapecompiler.set_dynamic_shape(True)compiler.set_dynamic_range("input",min_shape=[1,3,224,224],max_shape=[8,3,224,224])

优化技术

1. 算子融合

# 原始图# Conv -> BN -> ReLU -> Conv -> BN -> ReLU# 融合后# FusedConvBNReLU -> FusedConvBNReLU

融合规则：

Conv + BN + ReLU → FusedConvBNReLU
MatMul + Bias + GELU → FusedMatMulBiasGELU
Linear + ReLU → FusedLinearReLU

2. 内存优化

# 原始内存布局# Tensor1 -> Tensor2 -> Tensor3 (各占内存)# 优化后内存布局# Tensor1 和 Tensor3 复用同一块内存

优化技术：

内存复用
就地操作
生命期分析

3. 并行优化

# 原始执行# Op1 -> Op2 -> Op3 (串行)# 优化后执行# Op1 || Op2 -> Op3 (并行)

4. 数据布局优化

# 原始布局: NCHW# 优化布局: NHWC (昇腾更高效)

ATC 工具

ATC 是 GraphCompiler 的命令行工具。

# ONNX 转 OMatc--model=model.onnx--output=model.om--framework=5# TorchScript 转 OMatc--model=model.pt--output=model.om--framework=7# 查看模型信息atc--mode=1--om=model.om# 设置优化级别atc--model=model.onnx--output=model.om--framework=5--opt_level=3# 设置精度atc--model=model.onnx--output=model.om--framework=5--precision_mode=allow_mix_precision# 设置动态 Shapeatc--model=model.onnx--output=model.om--framework=5\--input_shape_range="input:[1~8,3,224,224]"

性能对比

在昇腾 910 上编译 ResNet-50：

优化级别	编译时间	推理延迟	内存占用
O0	5s	20ms	800MB
O1	10s	15ms	600MB
O2	20s	10ms	400MB
O3	60s	8ms	350MB

你说气人不气人，O3 优化比 O0 快 2.5 倍。

编译流程详解

Step 1: 加载模型

importgraph_compilerasgc# 加载模型model=gc.load_onnx("resnet50.onnx")# 查看图信息print(f"Nodes:{len(model.graph.nodes)}")print(f"Inputs:{model.graph.inputs}")print(f"Outputs:{model.graph.outputs}")

Step 2: 前处理

# 标准化输入preprocessor=gc.Preprocessor()preprocessor.normalize_inputs(model.graph)# 类型推断preprocessor.infer_types(model.graph)# Shape 推断preprocessor.infer_shapes(model.graph)

Step 3: 图优化

optimizer=gc.GraphOptimizer()# 算子融合optimizer.fuse_ops(model.graph)# 死代码消除optimizer.eliminate_dead_code(model.graph)# 常量折叠optimizer.fold_constants(model.graph)# 公共子表达式消除optimizer.eliminate_cse(model.graph)

Step 4: 算子映射

# 映射到昇腾算子mapper=gc.OpMapper()mapper.map_to_ascend(model.graph)# 检查支持checker=gc.OpChecker()unsupported=checker.check_unsupported(model.graph)ifunsupported:print(f"Unsupported ops:{unsupported}")

Step 5: 内存规划

planner=gc.MemoryPlanner()memory_plan=planner.plan(model.graph)print(f"Total memory:{memory_plan.total_memory/1024/1024:.2f}MB")

Step 6: 代码生成

compiler=gc.Compiler()om_model=compiler.compile(model)om_model.save("resnet50.om")

调试技巧

查看中间图

importgraph_compilerasgc model=gc.load_onnx("model.onnx")# 保存中间图gc.save_graph(model.graph,"after_load.txt")optimizer=gc.GraphOptimizer()optimizer.fuse_ops(model.graph)gc.save_graph(model.graph,"after_fuse.txt")

验证编译结果

importgraph_compilerasgc# 加载 OM 模型om_model=gc.load_om("model.om")# 验证输出input_data=create_test_input()output=om_model.infer(input_data)# 对比原始模型original_output=original_model(input_data)print(f"Max diff:{abs(output-original_output).max()}")