当前位置：首页 > news >正文

YOLO12模型与Python入门教程：从零开始学AI目标检测

news 2026/7/15 12:15:16

YOLO12模型与Python入门教程：从零开始学AI目标检测

想学AI目标检测但不知道从哪开始？这篇教程就是为你准备的。不需要任何深度学习基础，只要会一点Python，就能跟着我一步步搭建YOLO12环境，运行第一个目标检测程序。

1. 前言：为什么选择YOLO12？

如果你对计算机视觉感兴趣，肯定听说过YOLO（You Only Look Once）这个神奇的目标检测算法。YOLO12作为这个系列的最新成员，在保持实时检测速度的同时，引入了创新的注意力机制，让检测精度又上了一个台阶。

简单来说，YOLO12能让你用普通电脑就能实时识别图片或视频中的各种物体——行人、车辆、动物，甚至是水下的小目标。这对于想做智能监控、自动驾驶或者内容分析的项目来说，简直是神器。

2. 环境准备：10分钟搞定所有依赖

开始之前，确保你的电脑已经安装了Python（建议3.8或以上版本）。接下来，我们一步步安装必要的库。

打开命令行（Windows用户按Win+R，输入cmd；Mac用户打开终端），依次输入以下命令：

# 创建虚拟环境（可选但推荐） python -m venv yolo12_env # 激活环境 # Windows: yolo12_env\Scripts\activate # Mac/Linux: source yolo12_env/bin/activate # 安装核心库 pip install ultralytics torch torchvision opencv-python

安装过程可能需要几分钟，取决于你的网速。如果遇到网络问题，可以尝试使用国内镜像源，比如在命令后面加上-i https://pypi.tuna.tsinghua.edu.cn/simple。

3. 第一个目标检测程序：识别图片中的物体

环境准备好了，我们来写第一个简单的检测程序。创建一个名为first_detection.py的文件，输入以下代码：

from ultralytics import YOLO import cv2 # 加载预训练的YOLO12模型 model = YOLO('yolo12n.pt') # 自动下载模型 # 读取图片（换成你自己的图片路径） image_path = 'your_image.jpg' image = cv2.imread(image_path) # 运行检测 results = model(image) # 显示结果 result_image = results[0].plot() # 绘制检测框 cv2.imshow('Detection Result', result_image) cv2.waitKey(0) cv2.destroyAllWindows() # 保存结果 cv2.imwrite('result.jpg', result_image) print("检测完成，结果已保存为 result.jpg")

运行这个程序前，记得把'your_image.jpg'换成你电脑上的一张图片路径。第一次运行时会自动下载YOLO12的预训练模型（大约20MB），稍等片刻就能看到检测结果了。

4. 理解代码：每一步在做什么

虽然代码很短，但每一行都很重要：

加载模型：YOLO('yolo12n.pt')创建了一个检测器实例。'yolo12n'中的'n'表示纳米尺寸（最小版本），适合初学者和快速测试。还有's'（小）、'm'（中）、'l'（大）、'x'（超大）版本，越大精度越高但速度越慢。

处理图片：OpenCV的imread函数读取图片，model(image)进行检测，整个过程就这么简单。

显示结果：results[0].plot()会自动在检测到的物体上画框并标注类别，然后用OpenCV显示出来。

5. 试试视频检测：让模型动起来

图片检测太简单？我们来试试实时视频检测。创建另一个文件video_detection.py：

from ultralytics import YOLO import cv2 # 加载模型 model = YOLO('yolo12n.pt') # 打开摄像头（0表示默认摄像头） cap = cv2.VideoCapture(0) while True: # 读取一帧 ret, frame = cap.read() if not ret: break # 检测当前帧 results = model(frame) # 绘制结果 annotated_frame = results[0].plot() # 显示 cv2.imshow('Real-time Detection', annotated_frame) # 按'q'退出 if cv2.waitKey(1) & 0xFF == ord('q'): break # 释放资源 cap.release() cv2.destroyAllWindows()

运行这个程序，你的摄像头就会打开，实时检测画面中的物体。试试在摄像头前放不同物体，看看YOLO12能识别出什么。