当前位置：首页 > news >正文

保姆级教程：用Python+Ultralytics YOLOv8实时识别你电脑屏幕上的任何物体（附完整代码）

news 2026/4/15 23:27:45

零基础实现屏幕动态物体识别：YOLOv8实战指南

想象一下，当你观看游戏直播时，系统能自动标记画面中的装备和角色；或是视频会议中实时识别参会者面前的物品——这一切只需几行Python代码就能实现。本文将带你从零开始，用最简单的代码实现屏幕动态物体识别，无需任何深度学习基础，跟着做就能获得专业级效果。

1. 环境配置与工具准备

在开始编写代码前，我们需要准备好Python环境和必要的库。推荐使用Python 3.8-3.10版本，这些版本对各类AI库的兼容性最好。

必备工具安装（复制以下命令到终端执行）：

pip install opencv-python numpy mss pywin32 ultralytics

常见安装问题解决方案：

报错"Microsoft Visual C++ 14.0 is required"：前往微软官网下载安装"Build Tools for Visual Studio"
CUDA相关错误：如果你没有NVIDIA显卡，可以添加--no-cuda参数安装CPU版本
权限不足：在命令前添加--user参数或使用管理员权限运行

验证安装是否成功：

import cv2 from ultralytics import YOLO print("所有依赖库已正确安装！")

2. 基础屏幕捕获与识别

我们先从最简单的固定区域截屏开始。这段代码会持续捕获屏幕上指定区域的画面，并用YOLOv8进行实时识别。

完整实现代码：

import cv2 import numpy as np from mss import mss from ultralytics import YOLO # 初始化YOLOv8模型（自动下载预训练权重） model = YOLO("yolov8n.pt") # 使用nano版本，速度最快 # 设置捕获区域（左上角坐标和宽高） monitor = {"top": 100, "left": 200, "width": 800, "height": 600} with mss() as sct: while True: # 捕获屏幕区域并转换为OpenCV格式 frame = np.array(sct.grab(monitor)) frame = cv2.cvtColor(frame, cv2.COLOR_BGRA2BGR) # 物体识别并标注 results = model(frame) annotated_frame = results[0].plot() # 显示结果 cv2.imshow("YOLOv8实时识别", annotated_frame) # 按Q键退出 if cv2.waitKey(1) & 0xFF == ord('q'): break cv2.destroyAllWindows()

关键参数调整指南：

参数	说明	推荐值
top	捕获区域上边距	根据屏幕实际位置调整
left	捕获区域左边距	根据屏幕实际位置调整
width	捕获宽度	800-1200像素
height	捕获高度	600-900像素
yolov8n.pt	模型选择	可选s/m/l/x不同尺寸

3. 动态窗口捕获进阶方案

固定区域捕获的局限性很明显——当窗口移动时，识别区域不会自动跟随。下面我们实现更智能的动态窗口捕获方案。

3.1 获取活动窗口位置

首先需要安装Windows系统依赖：

pip install pywin32

改进后的动态捕获代码：

import cv2 import numpy as np import win32gui from mss import mss from ultralytics import YOLO def get_window_rect(): """获取当前活动窗口的位置和尺寸""" hwnd = win32gui.GetForegroundWindow() rect = win32gui.GetWindowRect(hwnd) return { 'top': rect[1], 'left': rect[0], 'width': rect[2] - rect[0], 'height': rect[3] - rect[1] } model = YOLO("yolov8n.pt") sct = mss() while True: # 动态获取当前窗口位置 monitor = get_window_rect() # 捕获+识别流程 frame = np.array(sct.grab(monitor)) frame = cv2.cvtColor(frame, cv2.COLOR_BGRA2BGR) results = model(frame) # 显示结果（窗口标题显示FPS） cv2.imshow(f"动态识别 (FPS: {1/(time.time()-start_time):.1f})", results[0].plot()) if cv2.waitKey(1) == ord('q'): break cv2.destroyAllWindows()

3.2 性能优化技巧

当识别速度较慢时，可以尝试以下优化方案：

1. 模型轻量化选择：

# 不同大小的模型对比 models = { 'nano': 'yolov8n.pt', # 最快，精度较低 'small': 'yolov8s.pt', # 平衡型 'medium': 'yolov8m.pt', # 精度更高 'large': 'yolov8l.pt' # 最精确但最慢 }

2. 帧率控制优化：

# 添加帧率控制 frame_skip = 2 # 每3帧处理1次 frame_count = 0 while True: frame_count += 1 if frame_count % frame_skip != 0: continue # ...其余处理逻辑...

4. 实用功能扩展

基础功能实现后，我们可以添加更多实用特性让项目更具价值。

4.1 识别结果记录与分析

将识别结果保存为CSV文件：

import csv from datetime import datetime def init_logger(): with open('detections.csv', 'w', newline='') as f: writer = csv.writer(f) writer.writerow(['Timestamp', 'Object', 'Confidence', 'Position']) def log_detection(results): timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S") for result in results: for box in result.boxes: cls = model.names[int(box.cls)] conf = float(box.conf) pos = [round(x, 2) for x in box.xywh[0].tolist()] with open('detections.csv', 'a', newline='') as f: writer = csv.writer(f) writer.writerow([timestamp, cls, conf, pos])

4.2 区域聚焦识别

只关注屏幕特定区域的识别结果：

# 在while循环中添加区域过滤 x1, y1, x2, y2 = 100, 100, 400, 400 # 关注区域坐标 for result in results: for box in result.boxes: # 检查物体中心是否在关注区域内 cx, cy = box.xywh[0][0], box.xywh[0][1] if x1 <= cx <= x2 and y1 <= cy <= y2: print(f"发现关注物体: {model.names[int(box.cls)]}")

5. 常见问题与解决方案

在实际使用中，你可能会遇到以下典型问题：

问题1：识别延迟明显

降低输入分辨率：修改捕获区域的width/height
使用更小模型：换用yolov8n.pt或yolov8s.pt
启用GPU加速：确保已安装CUDA版本的PyTorch

问题2：窗口捕获不完整

# 添加窗口边框补偿（某些系统需要） def get_window_rect(): hwnd = win32gui.GetForegroundWindow() rect = list(win32gui.GetWindowRect(hwnd)) rect[0] += 8 # 左边框补偿 rect[2] -= 8 # 右边框补偿 rect[3] -= 8 # 下边框补偿 return { 'top': rect[1], 'left': rect[0], 'width': rect[2] - rect[0], 'height': rect[3] - rect[1] }

问题3：特定物体识别不准

自定义训练：收集特定物体的图片进行模型微调
调整置信度阈值：

results = model(frame, conf=0.6) # 默认0.25

在项目实际部署中，我发现将捕获分辨率控制在720p以内、使用yolov8s模型、每2帧处理1次的配置，能在大多数电脑上达到30FPS的流畅体验。对于需要更高精度的场景，可以尝试yolov8m模型配合1080p分辨率，但要注意这会显著增加GPU负载。

查看全文

http://www.jsqmd.com/news/647163/

2026年4月企业微信SCRM系统TOP7实测榜单：全行业私域增长工具选购指南

官宣！数数科技正式更名为 ThinkingAI

P1618三连击（暴力+枚举）

顶级域名的投资策略——为什么要投资外国域名

字符串处理的艺术：R语言中的正则表达式

3步解决Windows软件乱码问题：Locale Emulator区域模拟终极方案

回流APP正规吗？20亿+成交硬核见证，制度护航打造可信翡翠交易平台

tomcat乱码

深入解析Bezier曲线的导矢计算与de Casteljau算法的几何关联

活动抽奖系统--测试报告

NoteWidget：让OneNote支持Markdown的终极指南，快速提升技术笔记效率80%

BilibiliDown终极指南：如何轻松批量下载B站视频并建立个人视频库

为什么92%的AI团队还在用VQA 1.x？2026奇点大会宣布VQA 3.0强制兼容期仅剩180天！

解决Spring应用中的环境变量配置问题

【架构实战】告别“黑盒”调试：影刀RPA开发多浏览器并发实现店群自动化RPA 系统中的可观测性与全链路监控设计

【2026 职场洗牌系列 16】行政后勤的困局：当“隐形劳动”被算法看见并替代

关闭谷歌浏览器(Google Chrome)自动更新方法

Magika：文件类型检测小模型

冰雪传奇点卡重制版纯月卡公平生态：无VIP装备全靠打经解析

可解释性不是附加功能，而是合规刚需：欧盟AI Act生效倒计时下，多模态模型必须通过的4层可追溯性验证（含审计模板）

SQL中的聚合函数与GROUP BY的配合使用

WPF 打造工业级图像控件：支持海康相机与 ROI 框选

unity TerrainSampleAssets

Agent 系列之 ReWOO：从蓝图规划到高效求解的架构革新

Semtech SX9324 SAR传感器在笔记本电脑中的应用：如何优化WWAN性能与合规性

如何用 objectStore.get 根据主键 ID 获取数据库单条数据

音视频同步与渲染：PTS、VSYNC 与 SurfaceFlinger 的协作之道

保姆级教程：用华为eNSP模拟USG6000V防火墙，手把手配置多区域网络（含完整实验报告）

物流转行网络安全自学经验，零基础自学网络安全，血泪泪的干货分享

BepInEx终极指南：Unity游戏插件框架的完整安装与配置教程