当前位置：首页 > news >正文

用Deeplabv3在Cityscapes上做语义分割：从数据预处理到可视化测试的全流程保姆级教程

news 2026/8/1 0:30:56

用Deeplabv3在Cityscapes上实现语义分割：从数据解析到效果优化的全链路实践

当你第一次面对Cityscapes数据集里3000多张高分辨率街景图像时，可能会被复杂的目录结构和几十种物体类别搞得晕头转向。作为自动驾驶领域最权威的语义分割基准数据集，Cityscapes对初学者来说既是宝藏也是挑战。本文将带你用PyTorch版的Deeplabv3+，从数据预处理开始一步步构建完整的语义分割流水线，重点破解那些官方教程里不会告诉你的实战细节。

1. 深入理解Cityscapes数据集结构

Cityscapes数据集解压后呈现的目录树就像一座精心设计的迷宫。在leftImg8bit文件夹里，train/val/test三个子目录分别存放着训练集、验证集和测试集图像，而每个子目录下又按城市名称进一步分类。这种层级结构看似繁琐，实则暗藏玄机：

cityscapes ├── gtFine │ ├── train │ │ ├── aachen │ │ │ ├── aachen_000000_000019_gtFine_color.png │ │ │ ├── aachen_000000_000019_gtFine_instanceIds.png │ │ │ └── ... │ └── val └── leftImg8bit ├── train │ ├── aachen │ │ ├── aachen_000000_000019_leftImg8bit.png │ │ └── ... └── val

关键点在于图像文件名中的编码规则：以aachen_000000_000019_leftImg8bit.png为例，aachen表示城市名，第一个数字串000000是序列号，第二个000019是帧编号。这种命名方式保证了图像与标注的严格对应关系。

注意：Cityscapes的标注图像有四种类型：_color（可视化标注）、_instanceIds（实例ID）、_labelIds（分类ID）和_polygons.json（多边形坐标）。我们只需要_labelIds.png用于语义分割训练。

2. 数据预处理的黑盒解密

大多数教程会直接让你运行preprocess_data.py，却很少解释这个脚本到底在做什么。实际上，它完成了三个关键转换：

将原始的_labelIds.png转换为训练所需的单通道掩码图
根据cityscapesscripts提供的映射表，把34个原始类别合并为19个训练类别
生成与输入图像同名的掩码文件到label_imgs目录

以下代码片段展示了关键的类别映射逻辑：

# 原始34类到19训练类的映射表 id_to_trainid = { 0: 0, 1: 0, 2: 0, 3: 0, 4: 0, 5: 0, 6: 0, 7: 1, 8: 2, 9: 0, 10: 0, 11: 3, 12: 4, 13: 5, 14: 0, 15: 0, 16: 0, 17: 6, 18: 7, # ...省略部分映射 255: 255 }

常见坑点在于路径配置。建议采用绝对路径，并确保目录结构如下：

your_project ├── cityscapes_data │ ├── leftImg8bit │ └── gtFine └── label_imgs # 预处理后自动生成

3. Deeplabv3模型架构调优实战

原版Deeplabv3采用ResNet-101为主干网络，但对于Cityscapes这样的复杂场景，我们可以尝试以下改进：

改进方案	优点	实现难度
更换为ResNet-152	提升特征提取能力	★★★☆☆
添加SE模块	增强通道注意力	★★☆☆☆
使用空洞空间金字塔	多尺度特征融合	★★★★☆
深度可分离卷积	减少参数量	★★☆☆☆

在model/deeplabv3.py中，关键修改点是调整ASPP模块的空洞率：

class ASPP(nn.Module): def __init__(self, in_channels, out_channels=256): super(ASPP, self).__init__() self.conv1 = nn.Sequential( nn.Conv2d(in_channels, out_channels, 1, bias=False), nn.BatchNorm2d(out_channels), nn.ReLU() ) self.conv2 = nn.Sequential( nn.Conv2d(in_channels, out_channels, 3, padding=6, dilation=6, bias=False), # 调整dilation rate适应Cityscapes场景 nn.BatchNorm2d(out_channels), nn.ReLU() ) # 其他分支...

4. 训练策略与指标监控

Cityscapes的官方基准使用交叉熵损失，但在实际训练中，我们发现结合Dice损失能提升小物体的分割效果：

class HybridLoss(nn.Module): def __init__(self, weight=None): super().__init__() self.ce_loss = nn.CrossEntropyLoss(weight=weight) def forward(self, pred, target): ce = self.ce_loss(pred, target) pred = F.softmax(pred, dim=1) dice = 1 - dice_coeff(pred, target) return ce + dice*0.3 # 加权组合

训练过程中需要重点监控以下指标：

mIoU（平均交并比）：各类别IoU的平均值，主评估指标
Pixel Accuracy：整体像素准确率
Class Accuracy：每个类别的独立准确率

建议使用TensorBoard记录训练曲线，以下是一个典型的学习率调度策略：

scheduler = torch.optim.lr_scheduler.OneCycleLR( optimizer, max_lr=0.01, steps_per_epoch=len(train_loader), epochs=50, pct_start=0.3 )

5. 可视化分析与效果优化

run_on_seq.py脚本的核心在于将模型输出转换为直观的可视化结果。这个过程包含三个关键步骤：

模型推理：输入图像经过前向传播得到预测张量
类别映射：将预测的类别ID转换为Cityscapes官方配色
结果融合：将分割结果与原图叠加显示

对于自定义测试集，需要特别注意图像尺寸必须与训练尺寸一致（默认1024×2048）。如果输入分辨率不同，可以使用以下预处理代码：

transform = transforms.Compose([ transforms.Resize((1024, 2048)), # 保持宽高比 transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ])

典型的问题场景与解决方案：