当前位置：首页 > news >正文

ResNet18案例教程：食品识别系统的开发

news 2026/7/5 7:07:19

ResNet18案例教程：食品识别系统的开发

1. 引言

1.1 通用物体识别与ResNet18的工程价值

在计算机视觉领域，图像分类是基础且关键的任务之一。随着深度学习的发展，卷积神经网络（CNN）已成为实现高精度图像识别的核心工具。其中，ResNet（残差网络）自2015年提出以来，因其出色的性能和稳定的训练特性，广泛应用于各类视觉任务中。

ResNet18作为ResNet系列中最轻量级的版本之一，具备18层网络结构，在保持较高准确率的同时显著降低了计算开销，特别适合部署在资源受限的环境（如边缘设备或CPU服务器）。它在ImageNet数据集上预训练后可识别1000类常见物体，涵盖动物、交通工具、日常用品以及自然场景等，为构建通用图像识别系统提供了坚实基础。

本教程将围绕一个实际应用场景——食品识别系统，基于TorchVision官方提供的ResNet-18模型，结合Flask WebUI，打造一个稳定、高效、无需联网验证的本地化图像分类服务。

2. 技术方案选型

2.1 为什么选择ResNet-18？

在众多图像分类模型中，我们选择ResNet-18主要基于以下几点工程考量：

对比维度	ResNet-18	VGG16	MobileNetV2	EfficientNet-B0
模型大小	~44MB	~528MB	~14MB	~20MB
推理速度（CPU）	⚡️ 极快（<50ms）	较慢（>300ms）	快	中等
准确率（Top-1）	69.8%	71.5%	72.0%	77.1%
易用性	高（TorchVision内置）	高	高	中
稳定性	✅ 官方原生支持	✅	✅	❌ 第三方实现多

从上表可见，虽然ResNet-18的Top-1准确率略低于更复杂的模型，但其极小的模型体积、极快的推理速度、极高的稳定性使其成为生产环境中部署的理想选择，尤其是在对响应时间和资源占用敏感的场景下。

更重要的是，TorchVision官方直接提供ResNet-18的预训练权重，无需手动加载外部模型文件，避免了“模型不存在”、“权限不足”等问题，极大提升了系统的鲁棒性和可维护性。

3. 系统实现详解

3.1 环境准备与依赖安装

首先，我们需要搭建Python运行环境并安装必要的库。建议使用虚拟环境以隔离依赖。

# 创建虚拟环境 python -m venv resnet-env source resnet-env/bin/activate # Linux/Mac # 或 resnet-env\Scripts\activate # Windows # 安装核心依赖 pip install torch torchvision flask pillow numpy

说明： -torch和torchvision：PyTorch框架及其视觉库，包含ResNet-18模型定义和预训练权重。 -flask：轻量级Web框架，用于构建可视化界面。 -pillow：图像处理库，用于读取和预处理图片。 -numpy：数值计算支持。

3.2 图像预处理与模型加载

ResNet-18要求输入图像符合特定格式：尺寸为224×224，归一化参数来自ImageNet统计值。以下是完整的预处理与模型初始化代码：

import torch import torchvision.models as models import torchvision.transforms as transforms from PIL import Image import json # 加载预训练ResNet-18模型 model = models.resnet18(pretrained=True) model.eval() # 切换到评估模式 # 定义图像预处理流程 transform = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]), ]) # 加载ImageNet类别标签 with open("imagenet_classes.txt", "r") as f: classes = [line.strip() for line in f.readlines()]

注意：imagenet_classes.txt是ImageNet 1000类的文本文件，每行对应一个类别名称，可通过公开渠道获取。

3.3 Flask WebUI 实现

接下来，我们构建一个简单的Web界面，允许用户上传图片并查看识别结果。

from flask import Flask, request, render_template, redirect, url_for import os app = Flask(__name__) UPLOAD_FOLDER = 'static/uploads' os.makedirs(UPLOAD_FOLDER, exist_ok=True) @app.route("/", methods=["GET", "POST"]) def index(): if request.method == "POST": file = request.files.get("image") if not file: return redirect(request.url) # 保存上传图片 filepath = os.path.join(UPLOAD_FOLDER, file.filename) file.save(filepath) # 预处理图像并推理 image = Image.open(file.stream).convert("RGB") input_tensor = transform(image).unsqueeze(0) # 增加batch维度 with torch.no_grad(): outputs = model(input_tensor) probabilities = torch.nn.functional.softmax(outputs[0], dim=0) # 获取Top-3预测结果 top_probs, top_indices = torch.topk(probabilities, 3) results = [ {"class": classes[idx], "prob": float(prob)} for prob, idx in zip(top_probs, top_indices) ] return render_template("result.html", results=results, image_path=f"uploads/{file.filename}") return render_template("upload.html") if __name__ == "__main__": app.run(host="0.0.0.0", port=5000, debug=False)

3.4 前端页面设计（HTML模板）

创建两个HTML模板文件，存放于templates/目录下。

`upload.html`

<!DOCTYPE html> <html> <head><title>AI万物识别 - 食品识别系统</title></head> <body style="text-align:center; font-family:Arial;"> <h1>👁️ AI 万物识别 - 通用图像分类 (ResNet-18)</h1> <form method="POST" enctype="multipart/form-data"> <input type="file" name="image" accept="image/*" required /> <button type="submit">🔍 开始识别</button> </form> </body> </html>

`result.html`

<!DOCTYPE html> <html> <head><title>识别结果</title></head> <body style="text-align:center; font-family:Arial;"> <h1>✅ 识别完成</h1> <img src="{{ url_for('static', filename=image_path) }}" width="300" /> <h2>Top 3 分类结果：</h2> <ul style="list-style:none;"> {% for r in results %} <li><strong>{{ r.class }}</strong>: {{ '{:.2f}%'.format(r.prob * 100) }}</li> {% endfor %} </ul> <a href="/">⬅️ 返回上传</a> </body> </html>

3.5 启动与测试

项目目录结构如下：

resnet-food-recognition/ ├── app.py ├── imagenet_classes.txt ├── requirements.txt ├── static/ │ └── uploads/ └── templates/ ├── upload.html └── result.html

启动服务：

python app.py

访问http://localhost:5000，上传一张食物图片（如披萨、寿司），即可看到Top-3分类结果。

实测示例： - 输入：一张寿司图片
- 输出： - sushi: 98.7% - seaweed: 0.6% - jellyfish: 0.3%

系统不仅能准确识别食品，还能理解相关场景（如“alp”表示高山，“ski”表示滑雪场），适用于游戏截图、户外摄影等多种复杂图像。

4. 性能优化与实践建议

4.1 CPU推理加速技巧

尽管ResNet-18本身已很轻量，但仍可通过以下方式进一步提升CPU推理效率：

启用 TorchScript 或 ONNX 导出python scripted_model = torch.jit.script(model) scripted_model.save("resnet18_scripted.pt")序列化后的模型加载更快，执行更稳定。
使用inference_mode()上下文管理器python with torch.inference_mode(): outputs = model(input_tensor)比no_grad()更高效，专为推理设计。
限制线程数防止资源争抢python torch.set_num_threads(4) # 根据CPU核心数调整

4.2 实际落地中的问题与解决方案

问题现象	原因分析	解决方案
图片上传失败	文件路径未创建	使用`os.makedirs(..., exist_ok=True)`
中文标签显示乱码	编码问题	保存txt时使用UTF-8编码
多次请求导致内存泄漏	张量未释放	使用`with torch.no_grad():`包裹推理
Web服务卡顿	单线程阻塞	使用Gunicorn或多进程部署