【RT-DETR实战】164、工业缺陷检测综合项目:数据集处理与基线建立
下午三点,产线质检工位报警又响了。
现场工程师电话打过来,语气里透着无奈:“模型又把氧化痕误判成划伤了,这周第三次了。” 我盯着监控画面里那个模糊的灰色条状区域,心里清楚——问题不在模型调参,而在数据本身。我们用的公开数据集“干净”得不像真实产线,光照均匀、背景整洁、缺陷形态标准。可实际产线上,油污反光、零件姿态随机、缺陷大小可能只有几个像素。
这就是今天要啃的硬骨头:如何从一堆“不完美”的工业图像里,构建一个能让RT-DETR真正学会分辨缺陷的数据基础。
一、脏数据清洗:先别急着标注
拿到原始图像包,第一件事不是打开标注工具,而是写脚本快速过一遍数据。很多团队在这里栽跟头,标注完了才发现30%的图片根本不能用。
defscan_data_issues(image_dir):""" 快速扫描常见数据问题 产线传过来的图啥都有:半张图、全黑图、格式损坏的... """p