当前位置：首页 > news >正文

训练语义分割模型的理解

news 2026/3/27 4:35:39

简单来说，图像分类是给整张图片打一个标签（比如“这是一只猫”），而语义分割是给图片中的每一个像素点打标签（比如“这个像素属于猫，那个像素属于背景”）。这就决定了网络的输出必须是一张和原图大小一致的“特征图”。

场景：只提取一种目标，比如你的“Unet分割肝脏”。类别只有两个：肝脏（前景，标签为1）和非肝脏（背景，标签为0）。

1. 网络的输入 (Input)
- 格式：RGB彩图或灰度图。
- 维度：Batch_size * 3 * H * W（3代表RGB三个通道，H和W是高和宽）。
2. 网络的输出 (Output/Logits)
- 格式：单通道的特征图。
- 维度：Batch_size * 1 * H * W。
- 含义：输出的数值是实数（可正可负），代表每个像素是前景的“倾向程度”。
3. 真实标签 (Ground Truth / Label)
- 格式：单通道灰度图（只包含0和1）。
- 维度：Batch_size * 1 * H * W。
4. 损失函数 (Loss)
- 最优解：nn.BCEWithLogitsLoss()
- 为什么不用nn.BCELoss？：BCEWithLogitsLoss内部自动包含了Sigmoid激活层，不仅代码更简洁，而且在计算梯度时底层做了优化，能有效防止数值溢出（也就是防止Loss变成NaN）。因此，网络最后一层千万不要再加Sigmoid了！

场景：同时提取多个目标，比如自动驾驶中的“道路、车辆、行人、天空”。假设一共有NNN个类别。

1. 网络的输入 (Input)
- 维度：Batch_size * 3 * H * W。
2. 网络的输出 (Output/Logits)
- 格式：多通道的特征图。
- 维度：Batch_size * N * H * W（注意：输出的通道数等于类别数NNN）。
- 含义：你可以把它理解为NNN张单通道图叠在一起，第iii张图代表了图片中每个像素属于第iii类的“得分”。
3. 真实标签 (Ground Truth / Label)
- 格式：单通道的索引图。
- 维度：Batch_size * H * W（**注意：这里没有通道维度了！**或者通道为1）。
- 含义：图上的像素值不再是0到255，而是0,1,2,...,N−10, 1, 2, ..., N-10,1,2,...,N−1这样的类别索引（比如0代表背景，1代表车，2代表树）。
4. 损失函数 (Loss)
- 最优解：nn.CrossEntropyLoss()
- 小白最容易踩坑的点：PyTorch的交叉熵损失函数非常智能，它不需要你手动把标签转换成One-hot编码格式。你直接把Batch_size∗H∗WBatch\_size * H * WBatch_size∗H∗W的标签丢给它，它内部会自动帮你和Batch_size∗N∗H∗WBatch\_size * N * H * WBatch_size∗N∗H∗W的输出进行对齐计算。此外，它内部已经自带了Softmax运算，所以网络最后一层千万不要加Softmax**。

训练完模型，怎么知道它到底厉不厉害？我们不看Loss，而是看评价指标。在说明指标前，先了解四个基本概念（基于二分类说明）：

1. PA (Pixel Accuracy，像素准确率)

2. IoU (Intersection over Union，交并比)

3. mIoU (Mean IoU，平均交并比)

含义：多分类时，分别计算每一个类别的 IoU，然后把所有类别的 IoU 加起来求平均值。
计算流程：
1. 计算“背景”的 IoU。
2. 计算“车”的 IoU。
3. 计算“树”的 IoU。
4. mIoU=(IoU背景+IoU车+IoU树)/3mIoU = (IoU_{背景} + IoU_{车} + IoU_{树}) / 3mIoU=(IoU背景+IoU车+IoU树)/3

模型输出了一堆杂乱无章的张量，我怎么把它变成人类能看懂的彩色图片？

对于二分类（单类别）的预测流程：

对于多分类的预测流程：

取最大索引 (Argmax)：模型输出维度N * H * W（例如4分类就是4 * H * W）。使用torch.argmax(dim=1)。
- 这一步非常神奇：它会像一根针一样穿过这NNN个通道，看哪个通道在同一个像素点上的得分最高，就把那个通道的索引值（0,1,2,...0, 1, 2, ...0,1,2,...）留下来。
- 经过argmax后，维度变成了1 * H * W，里面的数值都是类别的索引（不再是得分或概率了）。
调色板映射 (Color Palette/伪彩色)：
- 你现在得到了一张由0,1,2...0, 1, 2...0,1,2...组成的矩阵。这时候你需要定义一个“调色板字典”。
- 比如：{0: [0,0,0], 1: [255,0,0], 2: [0,255,0]}（0画黑色，1画红色，2画绿色）。
- 通过代码遍历这个矩阵，把对应的索引替换成 RGB 的三通道颜色值，最终生成一张彩色的分割图用于展示。