当前位置：首页 > news >正文

工业场景YOLO落地踩坑实录：光照、遮挡、小目标的“三板斧”解法

news 2026/6/25 15:01:33

写在前面
在实验室里跑COCO数据集，mAP刷到80%+很容易；但把模型搬到工厂产线上，你会发现精度可能直接腰斩。工业视觉和通用检测完全是两个世界：光源会衰减、工件会反光、零件会重叠、缺陷只有几个像素大。
过去两年，我先后参与了3C组装件外观检、新能源电池极片检测、汽车零部件分拣三个项目的YOLO落地。这篇文章不讲论文里的SOTA，只聊我们在产线上真金白银砸出来的工程解法。每一个方案背后，都是几十次误报停线和被客户追着骂的教训。

一、光照问题：不是“调亮”那么简单

1.1 工业现场的光照到底有多野？

很多人以为工业检测都有标准光源箱，实际情况是：

金属件镜面反射：同一个工件，正面看是亮的，侧面5°就变成纯白过曝区，缺陷直接被高光吞掉；
环境光干扰：车间顶灯老化、窗户透光、隔壁工位焊接弧光，都会导致画面亮度在一天内波动±40%；
光源衰减：LED环形灯用了半年，中心亮度下降15%，边缘下降30%，模型训练时的数据分布已经漂移了。

1.2 我们试过的方案与效果

方案	实施成本	效果	适用场景	备注
全局CLAHE	低	⭐⭐	均匀暗场	对局部过曝无效，反而增强噪声
Retinex增强	中	⭐⭐⭐	阴影/不均匀照明	计算量大，Orin上增加8ms延迟
多曝光融合	高	⭐⭐⭐⭐	高动态范围金属件	需相机支持触发频闪，帧率减半
域自适应预处理	中	⭐⭐⭐⭐⭐	通用	最终采用方案
硬件偏振滤光	高	⭐⭐⭐⭐⭐	镜面反射	治本，但需重新设计光路

1.3 最终落地：轻量级自适应预处理管线

我们没有用重型图像增强算法，而是设计了一个“感知-决策-处理”三段式管线，核心思想是：不盲目增强，只在必要时对必要区域做最小干预。

关键实现细节：

classAdaptivePreprocessor:def__init__(self,highlight_thresh=240,dark_thresh=40):self.highlight_thresh=highlight_thresh self.dark_thresh=dark_threshdefevaluate(self,img_gray):"""快速评估光照状态，耗时<0.1ms"""mean_val=np.mean(img_gray)highlight_ratio=np.sum(img_gray>self.highlight_thresh)/img_gray.size dark_ratio=np.sum(img_gray<self.dark_thresh)/img_gray.sizeifhighlight_ratio>0.05:return"local_highlight"elifmean_val>200:return"global_overexposed"elifmean_val<60:return"global_dark"elifdark_ratio>0.1andhighlight_ratio>0.02:return"uneven"else:return"normal"defprocess_local_highlight(self,img):"""只对高光区域做色调映射，保留其他区域原始信息"""hsv=cv2.cvtColor(img,cv2.COLOR_BGR2HSV).astype(np.float32)mask=hsv[:,:,2]>self.highlight_thresh# 仅对V通道高光区域做压缩hsv[mask,2]=self.highlight_thresh-(hsv[mask,2]-self.highlight_thresh)*0.3hsv=np.clip(hsv,0,255).astype(np.uint8)returncv2.cvtColor(hsv,cv2.COLOR_HSV2BGR)

为什么不用端到端的光照鲁棒性训练？试过。在训练数据中加入各种光照增强后，模型在正常光照下的精度反而下降了2-3个点。数据增强不是万能的，它会让模型学到“忽略光照特征”这个捷径，而不是真正理解缺陷本身。预处理归预处理，检测归检测，职责分离才是正道。

二、遮挡问题：从“看见全貌”到“看见就够了”

2.1 工业遮挡的三种典型形态

自遮挡：异形工件自身结构导致的视角盲区（如L型支架的内角）；
互遮挡：料框中零件堆叠、传送带上工件间距过小；
设备遮挡：夹具、吸盘、传感器支架固定遮挡部分视野。

这三种遮挡的应对策略完全不同，混为一谈是新手最常犯的错。

2.2 分层应对策略

针对自遮挡：多视角融合 > 单模型硬扛

一个工件如果有3个面需要检测，不要试图用一个相机+一个模型搞定。我们的做法是：

相机A（顶视） → 模型A → 结果A ─┐ 相机B（侧视45°）→ 模型B → 结果B ─┼→ NMS融合 → 最终结果 相机C（底视） → 模型C → 结果C ─┘

每个模型只负责自己视角下无遮挡的面，单模型精度从72%提升到94%。融合时用3D标定将不同视角的检测结果投影到统一坐标系，再做3D-NMS去重。

针对互遮挡：修改标注策略 + 损失函数调整

料框抓取场景中，零件堆叠是常态。传统做法是只标注可见部分，但这会导致模型学到“残缺形状=目标”的错误关联。

我们的标注规范改动：

被遮挡>50%的目标：不标注bbox，但标注为ignore区域（训练时不参与正负样本匹配，但也不作为背景惩罚）；
被遮挡<50%的目标：标注完整bbox（脑补被遮挡部分），同时打上occluded=True标签；
损失函数中对occluded=True的样本，box loss权重降为0.5，cls loss权重保持1.0——允许定位有一定误差，但分类必须准确。

# train.yaml 遮挡相关配置ignore_overlap_thr:0.5# ignore区域与anchor的IoU阈值occluded_box_loss_weight:0.5use_complete_bbox_for_occluded:True# 标注完整框而非可见框

实测效果：在堆叠密度30%的测试集上，召回率从68%提升到85%，且误检率没有上升。

针对设备遮挡：ROI掩码 + 负样本注入

夹具遮挡是固定的，最简单有效的方案是在推理时加ROI掩码，屏蔽遮挡区域。但仅这样做不够——训练时模型从未见过遮挡边界附近的特征，上线后容易在掩码边缘产生误检。

正确做法：训练时随机生成与真实夹具形状相似的黑色遮罩，以20%的概率叠加到训练图像上。让模型学会“看到遮罩边缘就知道这不是目标”。

2.3 一个反直觉的经验

不要追求“所有遮挡都能检出来”。
在电池极片检测项目中，我们曾花了两周优化严重遮挡下的检出率，从75%提到82%。但客户反馈：“那些被挡住一半的极片本来就是废品，你检出来也没用，反而增加了分拣机构的无效动作。”
后来我们把遮挡>40%的目标直接标记为“不可判定”，交由下游复检工位处理。整体OEE（设备综合效率）反而提升了3%。工业AI的目标不是mAP最大化，而是产线效率最大化。

三、小目标检测：像素不够，信息来凑

3.1 工业小目标有多小？

PCB焊点缺陷：在4K图像中占8×8像素；
手机屏幕划痕：宽度仅2-3像素，长度可达200像素（极端长宽比）；
轴承表面麻点：直径5像素，且与背景纹理高度相似。

YOLO默认的下采样策略（stride=32）对这些目标几乎是毁灭性的——经过5次下采样后，8px的目标在特征图上只剩0.25个像素，信息完全丢失。

3.2 我们验证过的方案对比

方案	mAP提升	推理开销增加	工程复杂度	推荐度
增大输入分辨率(640→1280)	+8~12%	4倍	低	⭐⭐⭐
添加P2检测头(stride=4)	+10~15%	2.5倍	中	⭐⭐⭐⭐
SAHI切片推理	+12~18%	4~9倍	低	⭐⭐⭐⭐
切图训练+推理对齐	+15~22%	2倍	中	⭐⭐⭐⭐⭐
Transformer辅助头	+5~8%	3倍	高	⭐⭐
超分预处理	+3~6%	5倍	高	⭐

3.3 最终方案：切图训练 + 推理对齐（详解）

SAHI是好工具，但它只是推理时的trick。如果训练时模型没见过切图后的数据分布，推理时切图的效果会大打折扣。我们的核心改进是：训练和推理使用完全一致的切图策略。

切图参数选择经验：

# 切图参数不是拍脑袋定的，需要根据目标尺寸分布计算defcompute_slice_params(target_size_stats,image_size):""" target_size_stats: 训练集中目标尺寸的统计信息 原则：切片边长 ≥ 目标最大尺寸的4倍，确保上下文充足 """max_target=target_size_stats['p95']# 用95分位而非最大值slice_size=max(640,int(max_target*4))# overlap至少为目标最大尺寸的1.5倍，避免目标被切断overlap=max(100,int(max_target*1.5))# 对齐到32的倍数（YOLO stride要求）slice_size=(slice_size//32)*32overlap=(overlap//32)*32returnslice_size,overlap

加权NMS融合的关键：普通NMS在切片重叠区会把同一个目标的多次检测当作冗余删掉，但实际上边缘切片的检测置信度通常低于中心切片。我们用距离加权替代固定阈值：

defweighted_nms(predictions,slice_centers,sigma=100):""" 对同一目标的多次检测，按距切片中心的距离加权融合置信度 靠近切片中心的检测结果权重更高 """forpredinpredictions:dist=np.linalg.norm(pred.center-slice_centers[pred.slice_id])pred.weight=np.exp(-(dist**2)/(2*sigma**2))# 融合后再做标准NMSmerged=merge_weighted_predictions(predictions)returnstandard_nms(merged,iou_thr=0.45)

这套方案在PCB焊点检测项目上，8×8像素目标的召回率从61%提升到89%，推理耗时从单张4K的120ms增加到240ms（4切片并行），仍在产线节拍要求内。

3.4 小目标的另一个杀手锏：合成数据

当真实缺陷样本太少（<200张）时，与其纠结数据增强，不如直接合成。我们用Blender搭建了工件3D模型，渲染出带精确标注的合成缺陷图像，与真实数据按1:1混合训练。

注意事项：

合成数据的纹理、光照必须与真实数据做域对齐（用CycleGAN或简单的颜色迁移）；
合成比例不超过50%，否则模型会过拟合渲染器的artifacts；
必须在纯真实数据上做最终评测，合成数据只参与训练。

四、工程层面的“隐形坑”

技术问题总有解法，但以下这些非技术因素，才是项目延期甚至失败的主因：

4.1 数据标注的一致性比数量重要10倍

三个标注员对“划痕”的理解不同，一个标了轻微擦痕，另一个只标深度划伤。模型学到的就是混乱的决策边界。花一周时间制定标注SOP、做交叉验证、计算标注员间Kappa系数，比多标5000张图有用得多。我们的标准是：Kappa<0.8的数据批次全部返工。

4.2 别在开发机上训完就直接部署

开发机用的是RTX 4090，产线用的是Jetson Orin。同样的ONNX模型，在不同硬件上的数值精度可能有微小差异，这些差异经过NMS放大后，可能导致边界case的结果翻转。务必在目标部署硬件上做完整的精度回归测试，而不仅仅是速度benchmark。

4.3 建立线上数据回流闭环

产线运行3个月后，光源老化、工件换型、新工艺引入……模型一定会退化。提前设计好：

低置信度样本自动保存；
人工复核结果回传标注平台；
每月自动触发增量训练+精度对比；
新版本灰度发布机制（新旧模型并行跑一段时间，对比结果一致才切换）。

没有数据回流的工业AI项目，交付之日就是衰退之始。

五、总结：工业YOLO落地的思维转变

学术思维	工业思维
mAP越高越好	满足产线CT和良率要求即可
数据越多越好	数据质量>数量，标注一致性是生命线
模型越新越好	部署稳定、生态成熟、可维护性优先
一个模型解决所有问题	分治策略：多视角、多模型、预处理解耦
调参靠直觉	调参靠数据分析+AB测试+业务指标反馈
交付模型文件	交付可持续迭代的系统