当前位置：首页 > news >正文

从模型到部署：手把手教你用Sophon SAIL在BM1684X上跑通第一个Python推理Demo

news 2026/6/24 22:24:32

从模型到部署：手把手教你用Sophon SAIL在BM1684X上跑通第一个Python推理Demo

当你在BM1684X上成功安装Sophon SAIL后，那种"环境终于跑通"的兴奋感可能很快会被"接下来该做什么"的迷茫取代。别担心，这篇文章将带你完成从模型准备到推理部署的完整闭环，用不到100行代码实现一个真实的图像分类Demo。我曾花了两天时间摸索这个流程，现在你可以用30分钟走完这段路。

1. 模型准备：从ONNX到BModel的转换魔法

在开始编码之前，我们需要一个能在BM1684X上运行的模型。Sophon芯片使用专用的BModel格式，但大多数开发者习惯用ONNX作为中间格式。这里我们以经典的ResNet18图像分类模型为例。

1.1 获取预训练模型

首先通过PyTorch获取预训练模型并导出为ONNX：

import torch import torchvision.models as models # 加载预训练模型 model = models.resnet18(pretrained=True) model.eval() # 创建示例输入 dummy_input = torch.randn(1, 3, 224, 224) # 导出ONNX模型 torch.onnx.export(model, dummy_input, "resnet18.onnx", input_names=["input"], output_names=["output"], dynamic_axes={"input": {0: "batch"}, "output": {0: "batch"}})

1.2 使用bmnet工具转换模型

将ONNX转换为BModel需要使用比特大陆提供的编译工具链。假设你已经配置好BMNNSDK环境：

bmneto --model=resnet18.onnx \ --target=BM1684X \ --shapes=[1,3,224,224] \ --opt=2 \ --dyn=False \ --outdir=./compilation

关键参数说明：

--target指定芯片型号
--shapes定义输入张量形状
--opt设置优化级别（2为最高）

转换完成后，你会在输出目录得到compilation/compilation.bmodel文件，这就是我们需要的推理模型。

2. 环境检查：确保SAIL准备就绪

在进入正式开发前，让我们快速验证SAIL安装是否正确：

import sophon.sail as sail # 检查SAIL版本 print(sail.get_version()) # 创建空引擎测试 engine = sail.Engine(0) print(engine)

如果看到版本号输出且没有报错，说明环境正常。常见问题排查：

报错ImportError：检查Python路径是否包含SAIL模块
报错libsophon not found：确认LD_LIBRARY_PATH包含libsophon路径

3. 构建推理Pipeline：一个完整的图像分类示例

现在我们来构建端到端的推理流程。这个Demo将实现：

图像预处理
模型加载与推理
后处理与结果展示

3.1 初始化SAIL引擎

import cv2 import numpy as np import sophon.sail as sail # 初始化引擎 handle = sail.Handle(0) engine = sail.Engine(handle) # 加载BModel engine.load("./compilation/compilation.bmodel") # 获取模型信息 input_names = engine.get_input_names() output_names = engine.get_output_names() print(f"Input names: {input_names}, Output names: {output_names}")

3.2 图像预处理函数

BM1684X芯片对输入数据格式有严格要求，我们需要将图像转换为正确的NHWC格式：

def preprocess(img_path): # 读取并调整大小 img = cv2.imread(img_path) img = cv2.resize(img, (224, 224)) # 归一化 (使用ImageNet均值标准差) mean = [0.485, 0.456, 0.406] std = [0.229, 0.224, 0.225] img = (img / 255.0 - mean) / std # 转换通道顺序 HWC -> CHW img = img.transpose((2, 0, 1)) # 添加batch维度并转为float32 img = np.expand_dims(img, axis=0).astype(np.float32) return img

3.3 执行推理与结果解析

# 准备输入数据 input_data = {input_names[0]: preprocess("test.jpg")} # 执行推理 output = engine.process(input_data) # 获取输出结果 probabilities = output[output_names[0]][0] # 取出batch中的第一个结果 # 解析分类结果 with open("imagenet_classes.txt") as f: classes = [line.strip() for line in f.readlines()] top5_idx = np.argsort(probabilities)[-5:][::-1] top5_classes = [(classes[i], probabilities[i]) for i in top5_idx] print("Top5 predictions:") for cls, prob in top5_classes: print(f"{cls}: {prob:.4f}")

4. 性能优化与实用技巧

在实际部署中，我们还需要考虑性能优化和异常处理。以下是几个实战经验：

4.1 批处理加速

BM1684X支持批量推理，能显著提升吞吐量：

# 修改预处理支持batch def batch_preprocess(img_paths): batch = [] for path in img_paths: batch.append(preprocess(path)) return np.concatenate(batch, axis=0) # 使用时指定batch size engine.set_io_mode(sail.IOMode.SYSIO) # 使用系统内存 input_data = {input_names[0]: batch_preprocess(["1.jpg", "2.jpg", "3.jpg"])}

4.2 使用TPU Kernel加速预处理

SAIL提供了专门的图像处理函数，比OpenCV更快：

decoder = sail.Decoder(handle) img = decoder.read("test.jpg") resizer = sail.Resizer(handle) img = resizer.resize(img, 224, 224)

4.3 常见问题解决方案

问题现象	可能原因	解决方案
推理结果异常	输入数据范围错误	检查预处理是否符合模型要求
内存不足	batch size过大	减小batch size或优化模型
性能不达标	未启用INT8	编译时添加`--enable_int8`

5. 进阶：构建生产级推理服务

当Demo跑通后，你可能需要将其转化为可持续运行的服务。这里分享一个简单的HTTP服务实现：

from flask import Flask, request, jsonify import base64 app = Flask(__name__) @app.route('/infer', methods=['POST']) def infer(): # 接收base64编码的图像 img_data = base64.b64decode(request.json['image']) with open("temp.jpg", "wb") as f: f.write(img_data) # 执行推理 input_data = {input_names[0]: preprocess("temp.jpg")} output = engine.process(input_data) # 返回结果 return jsonify({ "predictions": [ {"class": cls, "probability": float(prob)} for cls, prob in top5_classes ] }) if __name__ == '__main__': app.run(host='0.0.0.0', port=5000)

将这个服务部署到BM1684X开发板上，你就可以通过REST API调用推理能力了。在实际项目中，还需要考虑：