当前位置：首页 > news >正文

C#与ONNX Runtime实现YOLO工业视觉检测部署

news 2026/7/4 11:58:39

1. 项目概述

在计算机视觉领域，YOLO(You Only Look Once)系列模型因其出色的实时目标检测性能而广受欢迎。作为一名长期深耕工业视觉检测的开发者，我经常需要在生产环境中部署和优化YOLO模型。传统方案通常依赖Python生态，但在某些对性能和资源占用敏感的场合，C#结合ONNX Runtime的方案展现出独特优势。

最近在部署一个生产线瑕疵检测系统时，我完整走通了C#环境下使用ONNX Runtime加载和解析YOLO模型的流程。与Python方案相比，这套技术栈在Windows平台有着更好的线程管理和内存控制表现，特别适合需要与WPF/Winform等桌面应用深度集成的场景。下面我将分享从模型准备到结果解析的完整实现细节。

2. 环境准备与工具链选型

2.1 开发环境配置

推荐使用Visual Studio 2022作为开发环境，社区版即可满足需求。关键NuGet包包括：

Microsoft.ML.OnnxRuntime (1.15.1+)
Microsoft.ML.OnnxRuntime.GPU (如需GPU加速)
OpenCvSharp4 (4.7.0+) 用于图像预处理

注意：如果使用GPU版本，请确保系统已安装匹配的CUDA和cuDNN。我遇到过CUDA 11.7与ONNX Runtime 1.14不兼容的问题，建议使用CUDA 11.8+版本。

2.2 YOLO模型转换

官方YOLOv5/v8模型需要先转换为ONNX格式：

python export.py --weights yolov5s.pt --include onnx --opset 12

转换时需特别注意：

添加--opset 12确保算子兼容性
对于动态输入尺寸，使用--dynamic参数
检查输出节点名称，后续C#代码需要对应

3. 核心实现流程

3.1 模型加载与会话创建

var options = SessionOptions.MakeSessionOptionWithCudaProvider(0); // 使用GPU using var session = new InferenceSession("yolov5s.onnx", options); // 获取输入输出信息 var inputMeta = session.InputMetadata; var outputMeta = session.OutputMetadata;

关键点解析：

MakeSessionOptionWithCudaProvider指定GPU设备索引
输入输出元数据包含关键的维度信息
建议封装为单例模式避免重复加载

3.2 图像预处理优化

不同于Python常用的numpy方案，C#端可采用OpenCV实现高效预处理：

Mat NormalizeImage(Mat src, Size targetSize) { // 转换为RGB Cv2.CvtColor(src, src, ColorConversionCodes.BGR2RGB); // 保持宽高比的resize var scale = Math.Min(targetSize.Width / (float)src.Width, targetSize.Height / (float)src.Height); var newSize = new Size((int)(src.Width * scale), (int)(src.Height * scale)); Mat resized = new Mat(); Cv2.Resize(src, resized, newSize); // 填充到目标尺寸 Mat padded = new Mat(targetSize.Height, targetSize.Width, MatType.CV_8UC3, new Scalar(114, 114, 114)); resized.CopyTo(new Mat(padded, new Rect(0, 0, resized.Width, resized.Height))); // 归一化并转置为CHW格式 padded.ConvertTo(padded, MatType.CV_32FC3, 1.0 / 255); return padded; }

预处理耗时直接影响整体性能，实测表明：

纯CPU处理：约15ms/帧 (1080p输入)
使用OpenCV的UMat：可降至8ms左右

3.3 推理执行与结果解析

YOLOv5/v8的输出需要特殊处理：

float[] RunInference(Mat normalizedImage) { // 准备输入Tensor var inputTensor = new DenseTensor<float>(new Memory<float>(normalizedImage.Data), new[] { 1, 3, normalizedImage.Height, normalizedImage.Width }); var inputs = new List<NamedOnnxValue> { NamedOnnxValue.CreateFromTensor("images", inputTensor) }; // 执行推理 using var results = session.Run(inputs); // 获取输出 var output = results.First().AsTensor<float>(); return output.ToArray(); }

输出解析需要处理三个关键点：

坐标反算：将归一化坐标转换回原图尺寸
置信度过滤：通常取0.5以上
NMS处理：消除重叠框

4. 性能优化实战技巧

4.1 内存管理最佳实践

ONNX Runtime在C#中的内存管理需要特别注意：

避免频繁创建/销毁InferenceSession
使用ArrayPool重用float数组
对视频流处理时，复用Mat对象

实测案例：在连续处理1000帧时：

普通实现：内存增长到1.2GB
优化后实现：稳定在300MB左右

4.2 多线程处理方案

C#的线程池特性可以很好利用：

Parallel.For(0, batchSize, i => { var result = RunInference(images[i]); // 后续处理... });

但需要注意：

每个线程需要独立的InferenceSession实例
GPU模式下注意CUDA上下文竞争
建议使用生产者-消费者模式

4.3 模型量化加速

使用ONNX的量化工具：

python -m onnxruntime.quantization.preprocess \ --input yolov5s.onnx --output yolov5s_quant.onnx

量化后模型：

体积减少4倍（从14MB到3.5MB）
CPU推理速度提升2-3倍
精度损失约1-2% mAP

5. 典型问题排查指南

5.1 输入输出维度不匹配

常见错误现象：

[Error] Input name 'images' has dimension ['batch', 3, 'height', 'width']...

解决方案：

检查模型导出时的--opset版本
确认C#端输入的维度顺序
使用Netron工具可视化模型结构

5.2 GPU推理速度异常

可能原因排查：

检查CUDA/cuDNN版本匹配
使用NVIDIA Nsight监控GPU利用率
尝试禁用Windows TDR（超时检测）

5.3 内存泄漏定位

诊断步骤：

使用VS的诊断工具抓取内存快照
检查未释放的IDisposable对象
重点关注Mat和Tensor对象

6. 工业场景下的扩展应用

在实际的工业质检系统中，我们进一步扩展了该方案：

多模型级联：将分类模型与检测模型串联

var defectBoxes = detector.RunInference(image); foreach(var box in defectBoxes) { var patch = CropImage(image, box); var clsResult = classifier.RunInference(patch); // ... }