当前位置：首页 > news >正文

PyTorch 2.8深度学习入门：卷积神经网络（CNN）从理论到实战

news 2026/7/15 20:38:28

PyTorch 2.8深度学习入门：卷积神经网络（CNN）从理论到实战

1. 为什么选择卷积神经网络？

计算机视觉领域最常用的深度学习模型就是卷积神经网络（CNN）。它能自动从图像中提取特征，避免了传统方法需要手工设计特征的麻烦。想象一下，就像教小朋友认动物，我们不会先讲解"耳朵形状"或"毛发纹理"这些抽象概念，而是直接展示大量图片，让大脑自己发现规律——CNN正是这样工作的。

PyTorch 2.8作为当前最流行的深度学习框架之一，提供了更高效的CNN实现。相比早期版本，2.8在卷积运算速度上提升了约30%，内存占用减少了20%，这对处理高分辨率图像特别有帮助。

2. 环境准备与快速开始

2.1 安装PyTorch 2.8

打开终端运行以下命令（以conda环境为例）：

conda install pytorch==2.8.0 torchvision==0.15.0 torchaudio==2.8.0 -c pytorch

验证安装是否成功：

import torch print(torch.__version__) # 应该输出2.8.0 print(torch.cuda.is_available()) # 检查GPU是否可用

2.2 准备数据集

我们将使用CIFAR-10数据集，它包含6万张32x32的彩色图片，分为10个类别：

from torchvision import datasets, transforms transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) train_set = datasets.CIFAR10(root='./data', train=True, download=True, transform=transform) test_set = datasets.CIFAR10(root='./data', train=False, download=True, transform=transform)

3. CNN核心组件详解

3.1 卷积层的工作原理

卷积层就像一个小窗口在图像上滑动，提取局部特征。PyTorch中创建卷积层很简单：

import torch.nn as nn # 输入通道3(RGB), 输出通道6, 卷积核大小5x5 conv1 = nn.Conv2d(3, 6, 5)

实际计算时，每个卷积核会产生一个特征图。比如上面的例子，6个卷积核会生成6个特征图。

3.2 池化层的作用

池化层用于降维和保持平移不变性。最常用的是最大池化：

pool = nn.MaxPool2d(2, 2) # 2x2窗口，步长2

这会将特征图尺寸减半，同时保留最显著的特征。

3.3 全连接层

在提取特征后，全连接层负责最终的分类：

fc1 = nn.Linear(16 * 5 * 5, 120) # 输入尺寸需要根据前面层的输出计算

4. 构建LeNet-5模型

让我们实现经典的LeNet-5架构：

class LeNet(nn.Module): def __init__(self): super(LeNet, self).__init__() self.conv1 = nn.Conv2d(3, 6, 5) self.pool = nn.MaxPool2d(2, 2) self.conv2 = nn.Conv2d(6, 16, 5) self.fc1 = nn.Linear(16 * 5 * 5, 120) self.fc2 = nn.Linear(120, 84) self.fc3 = nn.Linear(84, 10) def forward(self, x): x = self.pool(torch.relu(self.conv1(x))) x = self.pool(torch.relu(self.conv2(x))) x = torch.flatten(x, 1) # 展平除batch外的所有维度 x = torch.relu(self.fc1(x)) x = torch.relu(self.fc2(x)) x = self.fc3(x) return x net = LeNet() print(net)

5. 训练与评估模型

5.1 设置训练参数

import torch.optim as optim criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

5.2 训练循环

from torch.utils.data import DataLoader train_loader = DataLoader(train_set, batch_size=4, shuffle=True) for epoch in range(10): # 训练10轮 running_loss = 0.0 for i, data in enumerate(train_loader, 0): inputs, labels = data optimizer.zero_grad() outputs = net(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() running_loss += loss.item() if i % 2000 == 1999: # 每2000个batch打印一次 print(f'[{epoch + 1}, {i + 1}] loss: {running_loss / 2000:.3f}') running_loss = 0.0

5.3 测试模型

test_loader = DataLoader(test_set, batch_size=4, shuffle=False) correct = 0 total = 0 with torch.no_grad(): for data in test_loader: images, labels = data outputs = net(images) _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() print(f'测试集准确率: {100 * correct / total}%')

6. 模型可视化与改进建议

6.1 可视化卷积核

import matplotlib.pyplot as plt # 获取第一个卷积层的权重 weights = net.conv1.weight.data fig, axs = plt.subplots(2, 3, figsize=(10, 6)) for i in range(6): # 显示6个卷积核 ax = axs[i//3, i%3] ax.imshow(weights[i].permute(1, 2, 0)) ax.axis('off') plt.show()