当前位置：首页 > news >正文

告别Anchor Boxes：手把手带你用PyTorch复现FCOS目标检测模型（附完整代码）

news 2026/7/13 23:10:48

告别Anchor Boxes：手把手带你用PyTorch复现FCOS目标检测模型（附完整代码）

在目标检测领域，Anchor Boxes曾是许多主流模型的核心组件，从Faster R-CNN到YOLOv3都依赖这一设计。但近年来，一种名为FCOS（Fully Convolutional One-Stage）的Anchor-Free方法正在改变这一局面——它不仅简化了检测流程，更在COCO数据集上达到了与Anchor-Based方法相当甚至更好的性能。本文将带你从零实现这一前沿模型，过程中你会理解：

如何用纯卷积网络实现像素级目标定位
FPN特征金字塔如何解决多尺度检测难题
Centerness机制如何替代传统NMS的后处理逻辑
比Anchor-Based方法少30%的参数量的精简设计

1. 环境配置与数据准备

1.1 开发环境搭建

推荐使用conda创建隔离的Python环境，避免依赖冲突：

conda create -n fcos python=3.8 conda activate fcos pip install torch==1.9.0 torchvision==0.10.0 pip install opencv-python pycocotools matplotlib

关键组件版本要求：

PyTorch ≥1.7（支持AMP混合精度训练）
CUDA ≥10.2（如需GPU加速）
COCO API（用于加载标准数据集）

1.2 数据集处理

使用COCO 2017数据集为例，目录结构应组织为：

coco/ ├── annotations │ ├── instances_train2017.json │ └── instances_val2017.json ├── train2017 │ └── *.jpg └── val2017 └── *.jpg

实现自定义数据集类时，需特别注意FCOS特有的标签格式转换：

class CocoDetection(torchvision.datasets.CocoDetection): def __getitem__(self, idx): img, targets = super().__getitem__(idx) # 转换COCO标注为FCOS格式 boxes = [target['bbox'] for target in targets] classes = [target['category_id'] for target in targets] # 生成FPN多尺度标签 fcos_targets = self._build_fcos_targets(boxes, classes) return img, fcos_targets

提示：FCOS的标签生成比传统方法复杂，需要为每个FPN层级单独计算正负样本区域

2. 模型架构深度解析

2.1 骨干网络改造

FCOS默认采用ResNet-50作为Backbone，但需进行以下关键修改：

class ResNetWithFPN(nn.Module): def __init__(self): super().__init__() resnet = torchvision.models.resnet50(pretrained=True) # 提取中间特征层 self.layer1 = nn.Sequential(resnet.conv1, resnet.bn1, resnet.relu, resnet.maxpool, resnet.layer1) self.layer2 = resnet.layer2 # stride=8 self.layer3 = resnet.layer3 # stride=16 self.layer4 = resnet.layer4 # stride=32 def forward(self, x): c3 = self.layer1(x) c4 = self.layer2(c3) c5 = self.layer3(c4) return [c3, c4, c5] # 输出多尺度特征

特征图尺寸变化示例（输入800×600）：

层级	输出尺寸	感受野
C3	100×75	56×56
C4	50×38	104×104
C5	25×19	200×200

2.2 特征金字塔网络实现

FPN通过自上而下的路径融合多尺度特征：

class FPN(nn.Module): def __init__(self, in_channels): super().__init__() # 1x1卷积统一通道数 self.lateral_convs = nn.ModuleList([ nn.Conv2d(ch, 256, 1) for ch in in_channels]) # 3x3卷积消除上采样伪影 self.output_convs = nn.ModuleList([ nn.Conv2d(256, 256, 3, padding=1) for _ in range(5)]) def forward(self, inputs): # 自底向上路径 p5 = self.lateral_convs[2](inputs[2]) p4 = self._upsample_add(p5, self.lateral_convs[1](inputs[1])) p3 = self._upsample_add(p4, self.lateral_convs[0](inputs[0])) # 输出多尺度特征 return [self.output_convs[i](p) for i, p in enumerate([p3, p4, p5])]

FPN各层级的检测分工：

P3（stride=8）：检测小物体（面积<32×32）
P4（stride=16）：检测中等物体
P5（stride=32）：检测大物体

3. 核心算法实现细节

3.1 正负样本分配策略

FCOS通过空间位置和尺度范围双重约束确定正样本：

def get_positive_samples(self, locations, gt_boxes): # 计算每个位置点与GT框的边界距离 l = locations[:, None, 0] - gt_boxes[..., 0] t = locations[:, None, 1] - gt_boxes[..., 1] r = gt_boxes[..., 2] - locations[:, None, 0] b = gt_boxes[..., 3] - locations[:, None, 1] reg_targets = torch.stack([l, t, r, b], dim=2) # 判断位置是否在GT框内 inside_flags = reg_targets.min(dim=2)[0] > 0 # 根据FPN层级过滤 max_reg_targets = reg_targets.max(dim=2)[0] level_flags = (max_reg_targets >= self.fpn_strides[level] * 4) & \ (max_reg_targets < self.fpn_strides[level] * 8) return inside_flags & level_flags

正样本分配过程可视化：

将特征点映射回原图坐标
检查是否落在任何GT框内
根据目标尺寸分配到合适FPN层级
对ambiguous样本采用中心优先策略

3.2 Centerness机制解析

Centerness预测头用于抑制低质量检测框：

class CenternessHead(nn.Module): def __init__(self): super().__init__() self.conv = nn.Conv2d(256, 1, 3, padding=1) def forward(self, x): return torch.sigmoid(self.conv(x)) def compute_target(self, reg_targets): # 计算centerness真值 left_right = reg_targets[:, [0, 2]] top_bottom = reg_targets[:, [1, 3]] centerness = (left_right.min(dim=-1)[0] / left_right.max(dim=-1)[0]) * \ (top_bottom.min(dim=-1)[0] / top_bottom.max(dim=-1)[0]) return torch.sqrt(centerness)

Centerness效果对比（COCO val集）：

指标	带Centerness	不带Centerness
AP@0.5	42.1	39.7
AR@100	57.4	54.2

4. 训练技巧与调试经验

4.1 损失函数实现

FCOS采用多任务联合损失：

def compute_loss(self, preds, targets): # 分类损失（Focal Loss） cls_loss = sigmoid_focal_loss( preds['cls'], targets['labels'], reduction='mean') # 回归损失（GIoU Loss） reg_loss = giou_loss( preds['reg'], targets['reg_targets'], reduction='none') reg_loss = reg_loss.sum(dim=-1) * targets['pos_mask'] reg_loss = reg_loss.sum() / max(1, targets['pos_mask'].sum()) # Centerness损失（BCE Loss） cnt_loss = F.binary_cross_entropy_with_logits( preds['centerness'], targets['centerness'], reduction='mean') return {'cls': cls_loss, 'reg': reg_loss, 'cnt': cnt_loss}

关键超参数设置：