【YOLOv11】088、YOLOv11与图神经网络:当检测器学会“看关系”
一、从一次诡异的漏检说起
上周在调试一个交通监控项目时,遇到个头疼的问题:YOLOv11在密集车流中,对部分被严重遮挡的车辆总是漏检。
明明车尾灯还露出一角,边界框也隐约可见,但模型就是“视而不见”。加大训练数据、调高输入分辨率、甚至用更重的Backbone,效果都不明显。
直到某天盯着可视化特征图发呆时突然意识到——模型在独立处理每个网格的预测,它看到的是像素块,而不是物体之间的空间关系。两辆车并排时,即便一辆只露出三分之一,另一辆的完整轮廓其实已经暗示了它的存在。这种“结构感知”能力,正是传统检测器的盲区。
于是想到了图神经网络(GNN)。能不能让YOLO在推理时,不仅看像素,还能“看懂”物体之间的拓扑关系?
二、GNN能为YOLO带来什么?
图神经网络的核心思想很直观:将物体视为图中的节点,物体之间的关系(空间距离、尺度比例、类别关联等)作为边,通过消息传递机制让节点之间交换信息。对于检测任务,这意味著:
- 遮挡推理:被遮挡物体的特征可以通过相邻物体的特征进行增强
- 上下文感知:工地场景的“人”旁边很可能有“安全帽”,模型可以利用这种共现关系
- 几何一致性约束:车辆不会悬空在树梢,GNN可以隐式学习这种物理约束
但问题来了:YOLO是典型的一阶段密集预测模型,GNN通常处理的是稀疏图结构。怎么把这两者拧到一起?
<
