当前位置：首页 > news >正文

ResNet18迁移学习：自定义数据集训练完整指南

news 2026/3/27 2:39:33

ResNet18迁移学习：自定义数据集训练完整指南

1. 引言：通用物体识别与ResNet-18的工程价值

在计算机视觉领域，通用物体识别是构建智能系统的基础能力之一。从图像内容审核、智能相册分类到自动驾驶环境感知，精准识别图像中的物体类别至关重要。而ResNet-18作为深度残差网络的经典轻量级模型，在精度与效率之间实现了极佳平衡，成为工业界和学术界的首选骨干网络之一。

本文将聚焦于如何基于TorchVision 官方 ResNet-18 模型，实现从预训练模型加载、自定义数据集构建、迁移学习微调，到最终本地部署的全流程实践。特别适用于希望快速搭建高稳定性图像分类服务的开发者。

本方案不仅支持 ImageNet 预训练下的1000类通用物体识别（如动物、交通工具、自然场景等），更可通过迁移学习适配任意自定义分类任务（如工业缺陷检测、医学影像分类、商品识别等）。同时集成轻量级 WebUI，支持 CPU 推理优化，适合资源受限环境部署。

2. 核心技术选型与架构设计

2.1 为何选择 ResNet-18？

ResNet（Residual Network）由微软研究院提出，通过引入“残差连接”解决了深层网络中的梯度消失问题。其中 ResNet-18 是该系列中最轻量的版本，具备以下优势：

参数量小：约 1170 万参数，模型文件仅 40MB+，便于嵌入式或边缘设备部署
推理速度快：在 CPU 上单张图像推理时间可控制在 50ms 内
预训练权重丰富：TorchVision 提供 ImageNet 预训练权重，极大提升迁移学习效果
结构清晰稳定：官方实现无兼容性问题，避免“模型不存在”或“权限不足”等报错

2.2 整体系统架构

本项目采用如下分层架构设计：

[用户上传图片] ↓ [Flask WebUI 接口] ↓ [图像预处理 pipeline] ↓ [ResNet-18 模型推理] ↓ [Top-3 类别 & 置信度输出] ↓ [前端可视化展示]

所有组件均运行于本地，无需联网请求外部 API，确保服务100% 稳定可用。

💡 技术亮点总结：
✅ 内置 TorchVision 原生 ResNet-18 权重，免授权验证
✅ 支持 1000 类通用物体与场景识别（如 alp/雪山、ski/滑雪场）
✅ 极速 CPU 推理，低内存占用，毫秒级响应
✅ 可视化 WebUI，支持上传预览与结果展示

3. 迁移学习实战：自定义数据集训练流程

虽然预训练模型已能识别千类物体，但在实际业务中我们往往需要识别特定领域的类别（如不同品牌手机、零件类型等）。此时需使用迁移学习（Transfer Learning）对模型进行微调。

3.1 数据准备与组织结构

假设我们要训练一个“常见电子设备”分类器，包含三类：smartphone、laptop、tablet。

目录结构要求：

dataset/ ├── train/ │ ├── smartphone/ │ │ ├── img1.jpg │ │ └── ... │ ├── laptop/ │ └── tablet/ └── val/ ├── smartphone/ ├── laptop/ └── tablet/

每类至少准备 100~200 张图像用于训练，可使用爬虫或公开数据集（如 Open Images）获取。

3.2 图像预处理与数据增强

使用torchvision.transforms构建标准化流水线：

import torch import torchvision from torchvision import transforms, datasets # 定义训练集增强 + 标准化 train_transform = transforms.Compose([ transforms.RandomResizedCrop(224), transforms.RandomHorizontalFlip(), transforms.ColorJitter(brightness=0.2, contrast=0.2), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) # ImageNet 统计值 ]) # 验证集仅做缩放与归一化 val_transform = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) # 加载数据集 train_dataset = datasets.ImageFolder('dataset/train', transform=train_transform) val_dataset = datasets.ImageFolder('dataset/val', transform=val_transform) # 创建 DataLoader train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)

🔍说明：
- 使用 ImageNet 的均值和标准差进行归一化，保证输入分布一致
- 训练时加入随机裁剪、翻转、色彩抖动以提升泛化能力
-ImageFolder自动根据子目录名称生成标签

3.3 模型微调：冻结特征提取层 + 替换分类头

import torch.nn as nn from torchvision import models # 加载预训练 ResNet-18 model = models.resnet18(pretrained=True) # 冻结所有卷积层参数 for param in model.parameters(): param.requires_grad = False # 替换最后的全连接层（适应新类别数） num_classes = 3 model.fc = nn.Linear(model.fc.in_features, num_classes) # 将模型移至 GPU（如有） device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model = model.to(device) # 定义损失函数与优化器 criterion = nn.CrossEntropyLoss() optimizer = torch.optim.Adam(model.fc.parameters(), lr=1e-3) # 仅训练最后一层

📌关键技巧：
- 冻结前 90% 层参数，大幅减少训练时间和显存消耗
- 仅对fc层使用较高学习率（1e-3），防止破坏已有特征

3.4 模型训练与验证循环

def train_model(model, train_loader, val_loader, criterion, optimizer, num_epochs=10): for epoch in range(num_epochs): model.train() running_loss = 0.0 correct = 0 total = 0 for inputs, labels in train_loader: inputs, labels = inputs.to(device), labels.to(device) optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() running_loss += loss.item() _, predicted = outputs.max(1) total += labels.size(0) correct += predicted.eq(labels).sum().item() print(f'Epoch [{epoch+1}/{num_epochs}], ' f'Train Loss: {running_loss/len(train_loader):.3f}, ' f'Acc: {100.*correct/total:.2f}%') # Validation model.eval() val_correct = 0 val_total = 0 with torch.no_grad(): for inputs, labels in val_loader: inputs, labels = inputs.to(device), labels.to(device) outputs = model(inputs) _, predicted = outputs.max(1) val_total += labels.size(0) val_correct += predicted.eq(labels).sum().item() print(f'Val Acc: {100.*val_correct/val_total:.2f}%\n') train_model(model, train_loader, val_loader, criterion, optimizer)

训练完成后，保存模型：

torch.save(model.state_dict(), 'resnet18_custom.pth')

4. 集成 WebUI 实现可视化交互

为方便非技术人员使用，我们基于 Flask 构建一个简易 Web 界面。

4.1 后端接口（app.py）

from flask import Flask, request, render_template, redirect, url_for import torch from PIL import Image import torchvision.transforms as T import json app = Flask(__name__) UPLOAD_FOLDER = 'uploads' app.config['UPLOAD_FOLDER'] = UPLOAD_FOLDER # 加载类别标签 with open('class_names.json', 'r') as f: class_names = json.load(f) # 加载模型 model = models.resnet18() model.fc = nn.Linear(512, 3) # 修改为你的类别数 model.load_state_dict(torch.load('resnet18_custom.pth', map_location=device)) model.to(device) model.eval() transform = T.Compose([ T.Resize(256), T.CenterCrop(224), T.ToTensor(), T.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) @app.route('/', methods=['GET', 'POST']) def index(): if request.method == 'POST': file = request.files['image'] if file: filepath = os.path.join(app.config['UPLOAD_FOLDER'], file.filename) file.save(filepath) img = Image.open(filepath).convert('RGB') input_tensor = transform(img).unsqueeze(0).to(device) with torch.no_grad(): output = model(input_tensor) probs = torch.nn.functional.softmax(output[0], dim=0) top3_prob, top3_idx = torch.topk(probs, 3) results = [] for i in range(3): cls_name = class_names[top3_idx[i].item()] confidence = float(top3_prob[i]) * 100 results.append({'class': cls_name, 'confidence': f"{confidence:.1f}%"}) return render_template('result.html', results=results, filename=file.filename) return render_template('upload.html') if __name__ == '__main__': app.run(host='0.0.0.0', port=5000)

4.2 前端页面（templates/upload.html）

<!DOCTYPE html> <html> <head><title>AI 图像分类</title></head> <body> <h2>📷 上传图片进行分类</h2> <form method="post" enctype="multipart/form-data"> <input type="file" name="image" accept="image/*" required /> <button type="submit">🔍 开始识别</button> </form> </body> </html>

启动后访问http://localhost:5000即可上传图片并查看 Top-3 分类结果。

5. 性能优化与部署建议

5.1 CPU 推理加速技巧

启用 TorchScript 或 ONNX 导出：提升推理速度 20%+
使用torch.set_num_threads(N)：合理设置线程数（推荐 4~8）
开启inference_mode()上下文管理器：减少内存开销

with torch.inference_mode(): output = model(input_tensor)

5.2 模型压缩建议

量化（Quantization）：将 FP32 转为 INT8，体积减半，速度提升 30%
知识蒸馏（Knowledge Distillation）：用 ResNet-18 蒸馏更小模型（如 MobileNetV2）

5.3 多场景适配策略

场景	微调策略
类别相似（如狗品种）	解冻最后几个残差块，联合微调
数据极少（<50张/类）	仅训练 fc 层，增加 dropout
实时性要求高	使用 TensorRT 或 OpenVINO 加速