当前位置：首页 > news >正文

零 Python 依赖！用 JavaCV + ONNX Runtime 把 YOLO 塞进生产环境

news 2026/7/11 19:19:15

上周五快下班的时候，运维老张突然冲进办公室，手里还拎着半杯凉透的枸杞茶。

“兄弟，客户那边又炸了！”他把杯子往桌上一墩，“那个 PCB 缺陷检测系统，Python 推理服务又崩了。这周第三次了，人家产线停一分钟就是几万块，再这样下去合同都要黄。”

我叹了口气。这事我知道——那套系统是去年搭的，YOLO 模型用 Python 写，通过 HTTP 接口给 Java 主系统提供检测结果。一开始图快，觉得“能跑就行”，结果现在成了定时炸弹：内存泄漏、GIL 锁卡死、CUDA 驱动版本冲突……每次出问题都得我俩半夜爬起来救火。

“要不……咱们彻底干掉 Python？”我试探着说。

老张眼睛一亮：“Java 能跑 YOLO？不是说性能差得要死吗？”

“谁说的？”我打开 IDE，“只要用对工具，纯 Java 不仅能跑，还能比 Python 快。”

别被“Java 慢”骗了，ONNX Runtime 是关键

很多人以为 Java 做 AI 推理天生慢，那是没用对工具。核心就一句话：别碰 PyTorch Java bindings，直接上 ONNX Runtime for Java。

为什么？

PyTorch 的 Java API 只是个 JNI 封装，底层还是调 C++，启动慢、内存管理混乱。
ONNX Runtime 是微软搞的工业级推理引擎，原生支持 Java，CPU/GPU 加速都有，而且跨平台部署极其简单——Windows、Linux、macOS，甚至 ARM64，一个 JAR 包全搞定。

我去年在汽车零部件厂落地的螺丝检测项目，就是靠它活下来的。客户工控机是 Windows 10 IoT，IT 部门死活不让装 Python 环境，说怕影响跑了五年的 MES 系统。最后我们只扔了个 JAR 包进去，依赖 JDK 8+，直接跑，稳如老狗。

环境搭建：三行 Maven 依赖搞定

先别急着写代码，把依赖配对。这是最容易踩坑的地方。

<dependencies><!-- ONNX Runtime Java 核心库 --><dependency><groupId>com.microsoft.onnxruntime</groupId><artifactId>onnxruntime</artifactId><version>1.18.0</version></dependency><!-- JavaCV：处理图像 I/O 和 OpenCV 操作 --><dependency><groupId>org.bytedeco</groupId><artifactId>javacv-platform</artifactId><version>1.5.11</version></dependency></dependencies>

注意两点：

不要手动下载 native 库！javacv-platform这个 artifact 已经包含了 Windows/Linux/macOS 的所有 native 依赖，Maven 会自动适配你的系统。
ONNX Runtime 版本建议 >=1.18.0，对 YOLOv8/v11 的算子支持更完整。

我之前试过javacv而不是javacv-platform，结果在 Linux 服务器上死活加载不了 OpenCV 动态库，折腾半天才发现少了个-platform后缀。这种坑，能避就避。

模型准备：从 .pt 到 .onnx，一步到位

YOLO 官方模型都是.pt（PyTorch）格式，Java 不能直接用。得先转成 ONNX。

假设你有 YOLOv8n 的模型文件yolov8n.pt，用官方 Ultralytics 库导出：

fromultralyticsimportYOLO model=YOLO("yolov8n.pt")model.export(format="onnx",imgsz=640,dynamic=False)

关键参数：

imgsz=640：固定输入尺寸。虽然 YOLO 支持动态输入，但 Java 端处理起来麻烦，不如固定尺寸省事。
dynamic=False：禁用动态 batch。很多 Java 开发者在这里栽跟头——ONNX Runtime Java 对 dynamic shape 支持有限，容易报ORT_INVALID_GRAPH。

导出后你会得到yolov8n.onnx，把它扔到项目的resources/models/目录下就行。

核心代码：预处理 + 推理 + 后处理

这才是重头戏。Java 没有现成的 YOLO API，所有逻辑都得自己撸。

1. 图像预处理（JavaCV）

YOLO 要求输入是(1, 3, 640, 640)的 float tensor，而 JavaCV 默认读出来的是 BGR 格式的 Mat。得转：

importorg.bytedeco.opencv.opencv_core.*;importstaticorg.bytedeco.opencv.global.opencv_imgproc.*;publicfloat[]preprocess(Matimage){// 调整尺寸到 640x640，保持宽高比，其余填充灰色Matresized=newMat();resizeKeepAspectRatio(image,resized,newSize(640,640),newScalar(114,114,114));// BGR -> RGBMatrgb=newMat();cvtColor(resized,rgb,COLOR_BGR2RGB);// 归一化到 [0,1]rgb.convertTo(rgb,CV_32F,1.0/255.0);// HWC -> CHWfloat[]chw=newfloat[3*640*640];float[]hwc=newfloat[640*640*3];rgb.createIndexer().get(0,0,hwc);for(intc=0;c<3;c++){for(inti=0;i<640*640;i++){chw[c*640*640+i]=hwc[i*3+c];}}returnchw;}

这里有个巨坑：OpenCV 的resize默认不保持宽高比！直接拉伸会导致目标变形，检测率暴跌。必须自己实现resizeKeepAspectRatio（网上有现成代码，就不贴了）。

2. ONNX 推理

加载模型、创建 session、喂数据：

OrtEnvironmentenv=OrtEnvironment.getEnvironment();OrtSession.SessionOptionsopts=newOrtSession.SessionOptions();// 关键：启用 CPU 并行opts.setExecutionMode(OrtSession.SessionOptions.ExecutionMode.PARALLEL);OrtSessionsession=env.createSession("models/yolov8n.onnx",opts);// 构造输入 tensorfloat[]inputData=preprocess(inputMat);OnnxTensorinputTensor=OnnxTensor.createTensor(env,newlong[]{1,3,640,640},FloatBuffer.wrap(inputData));// 推理Map<String,OnnxTensor>results=session.run(Collections.singletonMap("images",inputTensor));OnnxTensoroutput=results.get("output0");// YOLOv8 输出节点名

注意ExecutionMode.PARALLEL——这是性能提升的关键。默认是串行，多核 CPU 根本跑不满。

3. 后处理：解析 YOLO 输出

YOLOv8 的输出是个(1, 84, 8400)的 tensor，84 = 4(box) + 80(class)，8400 是 anchor 数量。

得自己写 NMS（非极大值抑制）：

publicList<Detection>postprocess(float[][]output){List<Detection>detections=newArrayList<>();floatconfidenceThreshold=0.5f;floatnmsThreshold=0.45f;// 先过滤低置信度for(inti=0;i<8400;i++){floatmaxClassScore=-1;intclassId=-1;for(intc=4;c<84;c++){if(output[c][i]>maxClassScore){maxClassScore=output[c][i];classId=c-4;}}floatboxConfidence=output[4][i]*maxClassScore;if(boxConfidence>confidenceThreshold){// 解码 box 坐标（YOLOv8 用的是 xywh 格式）floatx=output[0][i];floaty=output[1][i];floatw=output[2][i];floath=output[3][i];Rectbox=newRect((int)(x-w/2),(int)(y-h/2),(int)w,(int)h);detections.add(newDetection(box,classId,boxConfidence));}}// 执行 NMSreturnapplyNMS(detections,nmsThreshold);}