当前位置：首页 > news >正文

Python计算机视觉实战：从图像处理到目标检测

news 2026/6/12 13:36:48

Python计算机视觉实战：从图像处理到目标检测

前言

大家好，我是第一程序员（名字大，人很菜）。作为一个非科班转码、正在学习Rust和Python的萌新，最近我开始学习计算机视觉。今天我想分享一下Python计算机视觉的实战经验，从图像处理到目标检测。

一、计算机视觉基础

1.1 计算机视觉的基本概念

计算机视觉：让计算机理解和处理图像的学科
图像处理：对图像进行各种操作，如滤波、变换等
图像识别：识别图像中的物体或模式
目标检测：检测图像中的物体并定位
图像分割：将图像分割成不同的区域

1.2 计算机视觉的应用场景

人脸识别：身份验证、安防监控等
物体检测：自动驾驶、安防监控等
图像分类：图像搜索、内容审核等
医学影像：疾病诊断、医学研究等
增强现实：游戏、教育等

二、环境搭建

2.1 安装必要的库

# 安装OpenCV pip install opencv-python # 安装NumPy pip install numpy # 安装Matplotlib pip install matplotlib # 安装Pillow pip install Pillow # 安装深度学习库 pip install torch torchvision

三、基础操作

3.1 图像读取与显示

使用OpenCV读取和显示图像：

import cv2 import matplotlib.pyplot as plt # 读取图像 img = cv2.imread('image.jpg') # 转换颜色空间（OpenCV默认BGR，Matplotlib默认RGB） img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) # 显示图像 plt.imshow(img_rgb) plt.axis('off') plt.show()

3.2 图像处理

图像灰度化、模糊和边缘检测：

import cv2 import matplotlib.pyplot as plt # 读取图像 img = cv2.imread('image.jpg') img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) # 灰度化 gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 模糊处理 blurred = cv2.GaussianBlur(gray, (5, 5), 0) # 边缘检测 edges = cv2.Canny(blurred, 50, 150) # 显示结果 fig, axes = plt.subplots(1, 4, figsize=(20, 5)) axes[0].imshow(img_rgb) axes[0].set_title('Original') axes[0].axis('off') axes[1].imshow(gray, cmap='gray') axes[1].set_title('Grayscale') axes[1].axis('off') axes[2].imshow(blurred, cmap='gray') axes[2].set_title('Blurred') axes[2].axis('off') axes[3].imshow(edges, cmap='gray') axes[3].set_title('Edges') axes[3].axis('off') plt.show()

3.3 图像变换

图像缩放、旋转和翻转：

import cv2 import matplotlib.pyplot as plt # 读取图像 img = cv2.imread('image.jpg') img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) # 缩放 resized = cv2.resize(img, (300, 200)) resized_rgb = cv2.cvtColor(resized, cv2.COLOR_BGR2RGB) # 旋转 (h, w) = img.shape[:2] center = (w // 2, h // 2) M = cv2.getRotationMatrix2D(center, 45, 1.0) rotated = cv2.warpAffine(img, M, (w, h)) rotated_rgb = cv2.cvtColor(rotated, cv2.COLOR_BGR2RGB) # 翻转 flipped = cv2.flip(img, 1) # 1表示水平翻转，0表示垂直翻转，-1表示同时翻转 flipped_rgb = cv2.cvtColor(flipped, cv2.COLOR_BGR2RGB) # 显示结果 fig, axes = plt.subplots(1, 4, figsize=(20, 5)) axes[0].imshow(img_rgb) axes[0].set_title('Original') axes[0].axis('off') axes[1].imshow(resized_rgb) axes[1].set_title('Resized') axes[1].axis('off') axes[2].imshow(rotated_rgb) axes[2].set_title('Rotated') axes[2].axis('off') axes[3].imshow(flipped_rgb) axes[3].set_title('Flipped') axes[3].axis('off') plt.show()

四、实战项目：图像分类

4.1 使用预训练模型进行图像分类

使用ResNet进行图像分类：

import torch import torchvision from torchvision import transforms from PIL import Image import matplotlib.pyplot as plt # 加载预训练模型 model = torchvision.models.resnet18(pretrained=True) model.eval() # 图像预处理 transform = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # 加载图像 img = Image.open('cat.jpg') plt.imshow(img) plt.axis('off') plt.show() # 预处理图像 img_t = transform(img) batch_t = torch.unsqueeze(img_t, 0) # 预测 with torch.no_grad(): outputs = model(batch_t) # 加载标签 with open('imagenet_classes.txt') as f: classes = [line.strip() for line in f] # 获得预测结果 _, indices = torch.sort(outputs, descending=True) percentages = torch.nn.functional.softmax(outputs, dim=1)[0] * 100 # 显示前5个预测结果 print("预测结果:") for i in indices[0][:5]: print(f"{classes[i]}: {percentages[i].item():.2f}%")

五、实战项目：目标检测

5.1 使用YOLO进行目标检测

使用YOLOv5进行目标检测：

import torch import cv2 import matplotlib.pyplot as plt # 加载YOLOv5模型 model = torch.hub.load('ultralytics/yolov5', 'yolov5s') # 加载图像 img = cv2.imread('street.jpg') img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) # 预测 results = model(img) # 显示结果 results.print() # 打印预测结果 results.show() # 显示带检测框的图像 # 保存结果 results.save()

六、实战项目：人脸识别

6.1 使用OpenCV进行人脸识别

使用Haar级联分类器进行人脸识别：

import cv2 import matplotlib.pyplot as plt # 加载人脸识别模型 face_cascade = cv2.CascadeClassifier(cv2.data.haarcascades + 'haarcascade_frontalface_default.xml') # 加载图像 img = cv2.imread('people.jpg') gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 检测人脸 faces = face_cascade.detectMultiScale(gray, 1.3, 5) # 绘制检测框 for (x, y, w, h) in faces: cv2.rectangle(img, (x, y), (x+w, y+h), (255, 0, 0), 2) # 显示结果 img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) plt.imshow(img_rgb) plt.axis('off') plt.show()