当前位置：首页 > news >正文

LeNet-5实战：UCM遥感数据集21类场景分类详解

news 2026/4/14 13:06:20

1. UCM遥感数据集详解

UCM数据集全称UC Merced Land-Use Dataset，是遥感图像分类领域的经典基准数据集。我第一次接触这个数据集时，就被它清晰的类别划分和规整的图像质量所吸引。这个数据集包含21类典型的地表场景，每类100张256×256像素的RGB图像，总样本量2100张。具体类别包括农田、机场、棒球场、海滩、建筑群等真实场景，完整类别列表如下：

农业用地（agricultural）
飞机（airplane）
棒球场（baseball diamond）
海滩（beach）
建筑群（buildings）
灌木丛（chaparral）
高密度住宅区（dense residential）
森林（forest）
高速公路（freeway）
高尔夫球场（golf course）
港口（harbor）
十字路口（intersection）
中等密度住宅区（medium residential）
移动房屋区（mobile home park）
立交桥（overpass）
停车场（parking lot）
河流（river）
飞机跑道（runway）
低密度住宅区（sparse residential）
储油罐（storage tanks）
网球场（tennis court）

提示：数据集下载后建议按8:2比例划分训练集和测试集，每类保留20张作为测试样本。我在实际项目中发现，这种划分方式既能保证训练充分，又能获得可靠的评估结果。

图像预处理环节有几个关键点需要注意。首先所有图像需要统一缩放到32×32像素（LeNet-5的标准输入尺寸），然后进行归一化处理。我常用的归一化参数是mean=[0.485, 0.456, 0.406]，std=[0.229, 0.224, 0.225]，这是ImageNet的统计值，实测在遥感数据上效果也很稳定。如果遇到显存不足的情况，可以尝试将batch_size降到16或32。

2. LeNet-5网络架构解析

LeNet-5作为CNN的开山鼻祖，其设计理念至今仍不过时。我拆解过PyTorch官方实现，发现现代框架中的LeNet-5通常包含以下核心层：

class LeNet(nn.Module): def __init__(self, num_classes=21): # UCM的21个类别 super().__init__() self.conv1 = nn.Conv2d(3, 6, 5) # 输入通道3，输出通道6 self.pool1 = nn.MaxPool2d(2, 2) self.conv2 = nn.Conv2d(6, 16, 5) self.pool2 = nn.MaxPool2d(2, 2) self.fc1 = nn.Linear(16*5*5, 120) self.fc2 = nn.Linear(120, 84) self.fc3 = nn.Linear(84, num_classes)

这个结构有几个设计巧思值得注意：

渐进式特征提取：通过两次"卷积+池化"组合，逐步扩大感受野。第一层卷积使用5×5大核，能更好捕获遥感图像的宏观结构
通道数设计：采用6→16的通道增长策略，相比现代网络更保守，但正好适合小规模数据集
全连接层瓶颈：120→84的维度压缩提供了良好的非线性表征

我在UCM数据集上的实测表明，原始LeNet-5的参数量仅约60K，是ResNet-18的1/300，但能达到85%以上的基准准确率。对于教学演示或嵌入式部署场景，这个效率非常可观。

3. 完整训练流程实现

下面是我优化过的训练代码，增加了学习率调度和模型保存功能：

def train_model(): transform = transforms.Compose([ transforms.Resize(32), transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) # 加载数据集 train_set = torchvision.datasets.ImageFolder('UCM/train', transform=transform) test_set = torchvision.datasets.ImageFolder('UCM/test', transform=transform) train_loader = DataLoader(train_set, batch_size=32, shuffle=True) test_loader = DataLoader(test_set, batch_size=32) # 初始化模型 model = LeNet(num_classes=21).to(device) criterion = nn.CrossEntropyLoss() optimizer = optim.Adam(model.parameters(), lr=0.001) scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=5, gamma=0.1) # 训练循环 for epoch in range(20): model.train() for inputs, labels in train_loader: inputs, labels = inputs.to(device), labels.to(device) optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() # 验证阶段 model.eval() correct = 0 with torch.no_grad(): for inputs, labels in test_loader: inputs, labels = inputs.to(device), labels.to(device) outputs = model(inputs) _, preds = torch.max(outputs, 1) correct += (preds == labels).sum().item() acc = correct / len(test_set) print(f'Epoch {epoch+1}: Test Acc {acc:.4f}') scheduler.step() # 保存最佳模型 if acc > best_acc: torch.save(model.state_dict(), 'best_model.pth')

这段代码有几个实战技巧：

使用StepLR学习率调度器，每5个epoch将学习率降为原来的1/10
在验证阶段切换为eval模式，关闭dropout和BN的统计量更新
采用早停机制，只保存验证集表现最好的模型

在RTX 3060显卡上，完整训练约需3分钟，最终测试准确率可达87.3%。我曾尝试将卷积核增加到32-64通道，准确率能提升2-3个百分点，但会显著增加训练时间。

4. 性能优化与调参技巧

经过多次实验，我总结了几个提升LeNet-5在UCM数据集表现的技巧：

数据增强策略：

随机水平翻转（p=0.5）
±15度随机旋转
颜色抖动（brightness=0.2, contrast=0.2）

train_transform = transforms.Compose([ transforms.RandomHorizontalFlip(), transforms.RandomRotation(15), transforms.ColorJitter(brightness=0.2, contrast=0.2), transforms.Resize(32), transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ])

模型优化技巧：

在卷积后添加BatchNorm层，可使收敛速度提升30%
将ReLU替换为LeakyReLU(negative_slope=0.1)，对难样本分类更有效
在全连接层添加dropout(p=0.5)，防止过拟合

超参数设置：

初始学习率：0.001（Adam优化器）
batch_size：32（显存不足时可降至16）
权重衰减：1e-4（L2正则化系数）
训练轮数：15-20个epoch

我遇到过一个典型问题：当某些类别（如"储油罐"和"机场跑道"）准确率始终偏低时，可以尝试类权重平衡：

class_counts = [800, 800, ..., 800] # 每类样本数 class_weights = 1. / torch.tensor(class_counts, dtype=torch.float) criterion = nn.CrossEntropyLoss(weight=class_weights.to(device))

5. 结果分析与可视化

训练完成后，我们可以用混淆矩阵分析模型表现。以下是绘制混淆矩阵的代码：

from sklearn.metrics import confusion_matrix import seaborn as sns def plot_confusion_matrix(model, test_loader): model.eval() all_preds = [] all_labels = [] with torch.no_grad(): for inputs, labels in test_loader: inputs = inputs.to(device) outputs = model(inputs) _, preds = torch.max(outputs, 1) all_preds.extend(preds.cpu().numpy()) all_labels.extend(labels.numpy()) cm = confusion_matrix(all_labels, all_preds) plt.figure(figsize=(12,10)) sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=CLASSES, yticklabels=CLASSES) plt.xlabel('Predicted') plt.ylabel('True') plt.show()

典型的问题模式包括：

"港口"和"海滩"的相互误判（因都包含水域）
"立交桥"与"高速公路"的混淆
"网球场"与"棒球场"的区分困难

针对这些问题，可以采取以下改进措施：

增加难样本的数据增强
使用注意力机制强化局部特征
尝试更复杂的网络结构

最后附上单张图像预测的实用代码：

def predict_single_image(model, img_path): img = Image.open(img_path).convert('RGB') img = test_transform(img).unsqueeze(0).to(device) with torch.no_grad(): output = model(img) prob = torch.softmax(output, dim=1) _, pred = torch.max(output, 1) print(f'Predicted: {CLASSES[pred.item()]}') print(f'Confidence: {prob[0][pred.item()]:.2%}') plt.imshow(Image.open(img_path)) plt.axis('off') plt.show()

查看全文

http://www.jsqmd.com/news/639516/