当前位置：首页 > news >正文

基于YOLO与GPT的AI智能体：视觉感知与任务规划的自动化实践

news 2026/5/1 22:44:20

1. 项目概述与核心价值

最近在GitHub上看到一个挺有意思的项目，叫zaunere/code_gpt_yolo。光看名字，就能嗅到一股“缝合怪”的味道——把“Code”（代码）、“GPT”（大语言模型）和“YOLO”（目标检测）这三个看似不搭界的东西硬生生凑到了一起。我第一反应是：这玩意儿到底想干嘛？是让GPT去写YOLO的代码，还是让YOLO去识别GPT生成的文本？好奇心驱使下，我深入扒了扒这个仓库，发现它其实是一个相当精巧的“AI代理”实验，旨在探索如何让大语言模型（GPT）与计算机视觉模型（YOLO）协同工作，自动完成一些需要“看”和“想”的复杂任务。

简单来说，code_gpt_yolo项目的核心思想是：构建一个能“看懂”屏幕内容，并“思考”如何操作，最终“执行”操作的自动化智能体。它不再是我们熟悉的、需要精确坐标录制的“按键精灵”式自动化，而是一个具备初步视觉感知和逻辑推理能力的AI助手。想象一下，你只需要告诉它“帮我把桌面上的截图文件都移动到‘截图’文件夹里”，它就能自己识别出哪些是截图文件，然后执行移动操作。或者，在玩游戏时，你让它“自动拾取地上的金币”，它就能识别金币图标并点击。这个项目就是在尝试实现这种级别的自动化。

这个项目适合谁呢？首先是对AI应用开发、多模态AI、智能体（Agent）技术感兴趣的开发者。其次，是那些苦于传统自动化工具（如Selenium、PyAutoGUI）过于脆弱、依赖DOM结构或固定坐标，希望构建更鲁棒、更智能的自动化流程的工程师。最后，对于想了解如何将视觉模型与大语言模型结合，创造出“手眼脑”协同应用的爱好者来说，这也是一个绝佳的入门案例。它用相对清晰的代码，展示了如何将OpenAI的GPT API、Ultralytics的YOLOv8模型以及PyAutoGUI等工具粘合在一起，形成一个可运行的闭环。

2. 核心架构与工作流拆解

要理解code_gpt_yolo是怎么工作的，我们得把它拆开来看。整个系统的运行可以概括为“观察-思考-行动”的循环，技术上则对应着“截图-YOLO识别-GPT规划-模拟执行”的流水线。

2.1 系统核心组件与职责

整个项目依赖于几个关键的外部库和API，它们各司其职：

YOLOv8 (Ultralytics)：担任系统的“眼睛”。它的任务是对屏幕截图进行实时目标检测，找出我们关心的UI元素，比如按钮、图标、输入框、特定的游戏物体等。YOLOv8以其速度和精度平衡而闻名，非常适合需要实时或近实时处理的屏幕分析场景。项目通常会使用一个预训练好的模型，或者针对特定应用（如某个软件界面）微调过的模型，来识别自定义的UI元素类别。
OpenAI GPT API (如 gpt-3.5-turbo 或 gpt-4)：担任系统的“大脑”。它接收来自“眼睛”（YOLO）的观察报告——即当前屏幕上识别到了哪些物体，它们的位置在哪里。然后，结合用户给定的高级指令（例如“点击登录按钮”），GPT需要理解指令，分析当前状态，并规划出一系列具体的、可执行的低级操作步骤。例如，它可能会输出：[{'action': 'move', 'x': 320, 'y': 150}, {'action': 'click', 'button': 'left'}]。这里的核心是让大语言模型进行状态理解和任务规划。
PyAutoGUI / pynput：担任系统的“手”。它负责忠实地执行“大脑”（GPT）发出的动作指令。这些指令通常是模拟人类的输入操作，包括鼠标移动 (moveTo)、点击 (click)、双击 (doubleClick)、拖拽 (dragTo)，以及键盘输入 (typewrite、press)。PyAutoGUI 是跨平台的，使得这个智能体理论上能在Windows、macOS、Linux上运行。
Pillow (PIL) / mss：担任系统的“取景器”。用于捕获屏幕截图。mss库在速度上通常优于PIL的ImageGrab，尤其是在需要高频率截屏时，这对于保持智能体反应的流畅性很重要。

2.2 端到端工作流程详解

一个完整的工作循环通常遵循以下步骤，我们可以通过一个“自动登录某个桌面客户端”的例子来串联理解：

初始化与配置：脚本启动，加载预训练的YOLO模型（例如ui_elements.pt），设置OpenAI API密钥，并定义好需要识别的UI元素类别（如['button', 'text_field', 'icon']）。
观察阶段（Seeing）：
- 使用mss捕获整个屏幕或指定区域的截图。
- 将截图送入YOLOv8模型进行推理。
- 模型返回一系列检测框，每个框包含：物体类别标签、置信度分数、边界框的坐标(x_center, y_center, width, height)。
- 系统将这些检测结果整理成一份结构化的“场景描述”。例如：
```
{ “detections”: [ {“label”: “button”, “confidence”: 0.95, “bbox”: [300, 200, 80, 30]}, {“label”: “text_field”, “confidence”: 0.98, “bbox”: [300, 250, 200, 25]}, {“label”: “icon”, “confidence”: 0.90, “bbox”: [50, 50, 40, 40]} ] }
```
思考与规划阶段（Thinking）：
- 将用户指令（“请帮我登录，账号是test，密码是123456”）和上一步生成的“场景描述”一起，构造一个提示词（Prompt），发送给GPT API。
- 提示词的设计是关键。一个有效的提示词会明确告诉GPT它的角色（一个控制鼠标键盘的AI）、可用的动作清单、输入数据的格式以及输出的格式要求。例如：
  “你是一个桌面自动化AI。当前屏幕识别到以下元素：[上面生成的JSON]。请根据指令‘请帮我登录，账号是test，密码是123456’，生成一系列操作步骤。你只能输出一个JSON数组，每个元素是一个动作对象。可选动作：move(需x,y坐标),click,doubleClick,rightClick,drag,type(需text字符串),press(需单个键名),hotkey(需键名列表)。坐标应基于检测框的中心点计算。”
- GPT根据这个上下文进行推理，并输出一个规划好的动作序列。它可能会这样回复：
```
[ {"action": "move", "x": 340, "y": 215}, // 移动到“账号输入框”中心 {"action": "click"}, {"action": "type", "text": "test"}, {"action": "move", "x": 340, "y": 262.5}, // 移动到“密码输入框”中心 {"action": "click"}, {"action": "type", "text": "123456"}, {"action": "move", "x": 340, "y": 215}, // 移动到“登录按钮”中心 {"action": "click"} ]
```
  注意：这里坐标是示例，实际应由GPT根据输入的bbox计算得出，或者由后续逻辑计算。
执行阶段（Acting）：
- 系统解析GPT返回的JSON动作序列。
- 遍历每个动作，调用PyAutoGUI的相应函数来执行。例如，遇到{"action": "move", "x": 340, "y": 215}，就执行pyautogui.moveTo(340, 215)。
- 在每个动作之间，通常会添加短暂的延迟（如time.sleep(0.5)），以模拟人类的操作速度，并让界面有反应时间。
循环与终止：
- 执行完一系列动作后，智能体可以暂停，等待新的用户指令。
- 或者，对于更复杂的任务，它可以再次进入“观察”阶段，捕获执行后的新屏幕状态，发送给GPT进行下一轮评估和规划，形成一个持续的感知-决策-执行闭环。例如，点击登录后，观察是否有“登录成功”的提示框弹出。

实操心得：提示词工程是灵魂这个项目的成败，一半在YOLO模型的识别准确率，另一半就在给GPT的提示词设计上。你必须清晰地定义它的“行动边界”和输出格式。最初我尝试时，GPT经常输出自然语言描述，如“首先移动到账号框并点击”，这根本无法被程序解析。后来在提示词中强制规定“只输出JSON数组”，并给出了完整的Schema例子，才稳定下来。另外，让GPT基于bbox计算坐标点（如中心点）是一个更可靠的策略，直接让它输出像素值容易出错。

3. 关键技术细节与实现要点

理解了宏观流程，我们深入到几个关键的技术实现环节，这些地方往往是决定项目稳定性和可用性的核心。

3.1 YOLO模型的选择与训练

code_gpt_yolo的“视力”完全依赖于YOLO模型。这里有几个关键决策点：

模型尺寸选择：YOLOv8提供了n、s、m、l、x不同尺寸的模型。对于屏幕识别这种对实时性要求高，但目标（UI元素）相对固定的场景，YOLOv8s 或 YOLOv8m通常是甜点选择。v8n最快但精度可能不足，v8l/x精度高但速度慢，可能影响自动化流畅度。
数据集准备：这是最耗时但最重要的一步。你需要为你想要自动化的软件或游戏收集截图，并用标注工具（如LabelImg、Roboflow）标注出其中的UI元素。
- 类别设计：类别并非越细越好。例如，对于按钮，你可以统一标为button，也可以细分为login_button,submit_button,close_button。更细的类别有助于GPT进行更精确的规划，但需要更多的标注数据和更复杂的提示词来教导GPT理解这些类别的含义。从button,input_box,icon,text_label这样的通用类别开始是个好主意。
- 数据多样性：截图应涵盖软件的不同状态、不同窗口大小、不同主题（如果支持）。这能提升模型的泛化能力。
训练与导出：使用Ultralytics框架训练非常方便。关键参数包括epochs（迭代次数，通常100-300轮）、imgsz（图像尺寸，640是平衡速度和精度的常用值）、data（指向你的数据集yaml文件）。训练完成后，将最佳模型导出为model.pt文件备用。

注意事项：屏幕分辨率和缩放一个大坑是Windows的系统缩放设置。如果你的系统缩放不是100%，屏幕坐标和实际像素坐标会产生偏移。这会导致PyAutoGUI点击的位置和YOLO识别的位置对不上。解决方案有两种：1) 在代码中获取系统的缩放因子，并对所有坐标进行换算。2) 更简单粗暴但有效的方法：在运行自动化脚本前，将系统显示缩放暂时设置为100%。这对于开发调试阶段尤其重要。

3.2 GPT提示词的设计与优化

如何让GPT成为一个可靠的“规划者”，而不是一个“幻想家”，提示词至关重要。一个健壮的提示词应包含以下部分：

角色定义：明确告诉GPT它现在是什么。“你是一个桌面自动化助手，能够通过控制鼠标和键盘来操作电脑。”
能力与约束：列出所有可执行的动作，并强调不可做的事情。“你只能生成以下动作：move(x, y), click(button=‘left/right’), type(text), press(key), scroll(amount)。你不能输出任何其他文本。”
输入上下文格式：清晰地描述你会提供给它的“场景描述”是什么结构。“我将提供当前屏幕的JSON描述，包含识别到的元素列表，每个元素有label、confidence、bbox(x_center, y_center, width, height)。”
任务指令：传达用户想要它做什么。“当前用户指令是：[用户指令]。”
规划逻辑要求：指导它如何思考。“请分析当前屏幕状态与用户指令的差距，规划出最短、最直接的操作序列来完成指令。如果所需元素未找到，则输出[{"action": "error", "message": "Element X not found"}]。”
输出格式强制：这是保证可解析性的关键。“你必须且只能输出一个合法的JSON数组，数组的每个元素是一个动作对象。不要有任何额外的解释、标记或文本。”

一个优化后的提示词模板示例：

system_prompt = """你是一个桌面自动化AI代理。你的核心功能是分析屏幕内容并生成鼠标键盘操作序列。 你接收的输入： 1. 一个JSON数组，描述屏幕上识别到的UI元素。每个元素格式：{"label": str, "confidence": float, "bbox": [x_center, y_center, width, height]}。 2. 一条用户指令。 你可以生成的动作类型（ACTION_TYPES）： - move: {"action": "move", "x": int, "y": int} # 移动鼠标到绝对坐标(x,y) - click: {"action": "click", "button": "left"/"right"} # 在当前位置点击 - doubleClick: {"action": "doubleClick"} - type: {"action": "type", "text": str} # 输入字符串 - press: {"action": "press", "key": str} # 按下并释放单个键，如"enter", "tab" - hotkey: {"action": "hotkey", "keys": [str]} # 组合键，如["ctrl", "c"] 规则： 1. 坐标(x,y)必须是整数，且应基于提供的bbox计算（例如，使用中心点）。 2. 操作顺序应合乎逻辑（如先移动再点击）。 3. 如果无法完成指令（如关键元素未识别到），则输出：[{"action": "error", "message": "描述性错误信息"}] 4. 你的输出必须是且只能是一个JSON数组，直接可被Python的json.loads解析。不要有任何前言、后缀或标记。 现在，开始任务。"""

将这个系统提示词与用户指令、检测结果一起发送给GPT，能极大提高返回结果的规范性和可用性。

3.3 坐标转换与动作执行

从YOLO的bbox到屏幕坐标，再到PyAutoGUI的执行，存在一个转换链：

BBox格式：YOLO输出通常是归一化的[x_center, y_center, width, height]，值域在0到1之间，相对于图像尺寸。
转换到像素坐标：假设截图尺寸是(screen_width, screen_height)。
- pixel_x_center = x_center * screen_width
- pixel_y_center = y_center * screen_height
- pixel_x_top_left = pixel_x_center - (width * screen_width / 2)
- pixel_y_top_left = pixel_y_center - (height * screen_height / 2)
坐标选择：通常选择中心点(pixel_x_center, pixel_y_center)作为点击目标，因为它最稳定，受元素大小变化影响小。也可以根据元素类型微调，比如对于很宽的输入框，点击左侧可能更合适。
全局屏幕坐标：如果截图不是全屏，而是屏幕的一个区域，还需要加上该区域的左上角偏移量(region_left, region_top)，才能得到全局坐标。

执行与容错：使用PyAutoGUI执行时，务必加入异常处理和延迟。

import pyautogui import time import json def execute_actions(action_list): for action in action_list: act_type = action.get('action') try: if act_type == 'move': pyautogui.moveTo(action['x'], action['y'], duration=0.2) # 加入移动动画更拟人 elif act_type == 'click': button = action.get('button', 'left') pyautogui.click(button=button) elif act_type == 'type': pyautogui.write(action['text'], interval=0.05) # 模拟打字间隔 # ... 处理其他动作 time.sleep(0.3) # 动作间等待，让界面响应 except KeyError as e: print(f“动作格式错误，缺少键：{e}”) break except pyautogui.FailSafeException: print(“触发了故障安全保护，程序终止。”) break

重要：启用pyautogui.FAILSAFE = True。将鼠标快速移动到屏幕左上角(0,0)，可以紧急终止脚本，防止失控。

4. 项目搭建与实战演练

理论说得再多，不如动手跑一遍。我们来一步步搭建并运行一个简化版的code_gpt_yolo智能体，完成一个“自动打开记事本并输入文字”的经典demo。

4.1 环境准备与依赖安装

首先，创建一个干净的Python虚拟环境（推荐3.8以上版本），然后安装核心依赖。

# 创建并激活虚拟环境 (以conda为例) conda create -n gpt_yolo_agent python=3.10 conda activate gpt_yolo_agent # 安装核心库 pip install openai ultralytics pyautogui pillow mss

openai: 用于调用GPT API。
ultralytics: 官方库，包含了YOLOv8，安装时会连带安装PyTorch等深度学习依赖。
pyautogui: 跨平台的GUI自动化库。
pillow和mss: 用于屏幕捕获。mss速度更快。

4.2 准备YOLO模型（快速开始）

对于演示，我们可以先用YOLOv8自带的预训练模型（如yolov8n.pt）来检测一些通用物体，但这对于UI元素识别不精准。更佳方式是使用一个在UI数据集上微调过的模型。这里为了快速演示，我们假设已经有一个训练好的识别notepad_icon（记事本图标）和text_area（文本区域）的模型ui_model.pt。你可以通过Roboflow等平台找到一些公开的UI数据集进行训练。

将模型文件ui_model.pt放在项目根目录下。

4.3 编写核心智能体脚本

创建一个名为gpt_yolo_agent.py的文件，开始编码。

import json import time import base64 from io import BytesIO from openai import OpenAI from ultralytics import YOLO import pyautogui import mss # 1. 初始化客户端和模型 client = OpenAI(api_key=“你的OpenAI_API_KEY”) # 请替换为你的真实密钥 model = YOLO(“ui_model.pt”) # 加载自定义UI模型 # 2. 定义系统提示词 (使用上一节优化后的版本) SYSTEM_PROMPT = “””... [将上一节的system_prompt完整粘贴到这里] ...“”” def capture_screen(): """使用mss捕获全屏，返回PIL Image对象""" with mss.mss() as sct: monitor = sct.monitors[1] # 通常主显示器 screenshot = sct.grab(monitor) # 将mss截图转换为PIL Image from PIL import Image return Image.frombytes(‘RGB’, screenshot.size, screenshot.bgra, ‘raw’, ‘BGRX’) def analyze_screen(image): """使用YOLO模型分析截图，返回结构化的检测结果""" results = model(image, conf=0.5) # 置信度阈值设为0.5 detections = [] for result in results: boxes = result.boxes if boxes is not None: for box in boxes: # 获取坐标 (xywh格式)，注意是归一化的 x_center, y_center, width, height = box.xywhn[0].tolist() conf = box.conf.item() cls = int(box.cls.item()) label = model.names[cls] detections.append({ “label”: label, “confidence”: round(conf, 3), “bbox”: [x_center, y_center, width, height] }) return detections def plan_actions(user_instruction, detections): """调用GPT，基于用户指令和检测结果规划动作""" # 构造用户消息 user_message = { “instruction”: user_instruction, “detections”: detections } user_message_str = json.dumps(user_message, indent=2, ensure_ascii=False) # 调用ChatCompletion API response = client.chat.completions.create( model=“gpt-3.5-turbo”, # 或 “gpt-4” messages=[ {“role”: “system”, “content”: SYSTEM_PROMPT}, {“role”: “user”, “content”: user_message_str} ], temperature=0.1, # 低温度，保证输出确定性高 max_tokens=500 ) # 解析GPT的回复，期望是纯JSON字符串 reply_content = response.choices[0].message.content.strip() # 尝试提取JSON部分（有时GPT会在前后加```json ```标记） if reply_content.startswith(‘```json’) and reply_content.endswith(‘```’): reply_content = reply_content[7:-3].strip() elif reply_content.startswith(‘```’) and reply_content.endswith(‘```’): reply_content = reply_content[3:-3].strip() try: action_sequence = json.loads(reply_content) return action_sequence except json.JSONDecodeError as e: print(f“GPT返回无法解析为JSON: {reply_content}”) print(f“错误: {e}”) return [{“action”: “error”, “message”: “GPT返回格式无效”}] def execute_actions(action_sequence, screen_width, screen_height): """执行动作序列，需要屏幕尺寸来转换归一化坐标""" for action in action_sequence: act_type = action.get(‘action’) if act_type == ‘error’: print(f“规划阶段出错: {action.get(‘message’)}”) return False try: if act_type == ‘move’: # 假设GPT返回的坐标已经是基于bbox中心计算出的像素坐标 # 如果GPT返回的是归一化坐标，则需要转换 x = action[‘x’] y = action[‘y’] # 这里假设GPT返回的是像素坐标。如果是归一化，则： # x = action[‘x’] * screen_width # y = action[‘y’] * screen_height pyautogui.moveTo(x, y, duration=0.2) elif act_type == ‘click’: pyautogui.click(button=action.get(‘button’, ‘left’)) elif act_type == ‘type’: pyautogui.write(action[‘text’], interval=0.05) elif act_type == ‘press’: pyautogui.press(action[‘key’]) # ... 可以添加其他动作类型的处理 else: print(f“未知动作类型: {act_type}”) continue time.sleep(0.5) # 每个动作后等待 except KeyError as e: print(f“动作数据不完整，缺少键: {e}”) break except Exception as e: print(f“执行动作时发生异常: {e}”) break return True def main(): """主循环""" print(“GPT-YOLO智能体启动。请确保目标应用（如记事本）已打开并可见。”) user_instruction = input(“请输入您的指令 (例如：’打开记事本并输入Hello World‘): “) # 第一步：观察 print(“正在捕获屏幕...”) screen_image = capture_screen() screen_width, screen_height = screen_image.size print(“正在分析屏幕元素...”) detections = analyze_screen(screen_image) print(f“识别到 {len(detections)} 个元素: {detections}”) # 第二步：思考 print(“正在请求GPT进行任务规划...”) action_sequence = plan_actions(user_instruction, detections) print(f“GPT规划的动作序列: {json.dumps(action_sequence, indent=2)}”) # 第三步：执行 if action_sequence and action_sequence[0].get(‘action’) != ‘error’: print(“开始执行自动化操作...”) # 给用户一点准备时间，防止脚本立即开始操作 time.sleep(3) execute_actions(action_sequence, screen_width, screen_height) print(“操作执行完毕。”) else: print(“无法生成有效操作序列。”) if __name__ == “__main__”: main()

4.4 运行与效果演示

将你的OpenAI API密钥填入代码中。
确保你的桌面上有记事本的快捷方式或图标（假设我们的模型能识别notepad_icon），并打开一个记事本窗口（模型能识别text_area）。
在终端运行脚本：python gpt_yolo_agent.py。
当提示输入指令时，输入：“在记事本里输入‘你好，AI世界！’并保存”。

观察过程：

脚本会全屏截图。
YOLO模型会识别出notepad_icon和text_area。
检测结果和指令会发送给GPT。

GPT可能会规划出如下动作（假设）：

[ {"action": "move", "x": 100, "y": 100}, // 移动到记事本图标 {"action": "doubleClick"}, // 双击打开 {"action": "move", "x": 500, "y": 300}, // 移动到文本区域 {"action": "click"}, // 点击聚焦 {"action": "type", "text": "你好，AI世界！"}, // 输入文字 {"action": "press", "key": "ctrl+s"} // 保存 ]

PyAutoGUI 会依次执行这些动作，完成自动化。

实操心得：从Demo到实用的关键一步这个demo跑通很容易，但要让它在复杂场景下可靠工作，关键在于提示词的精炼和动作设计的原子化。最初我让GPT规划“打开文件管理器，找到某文件，双击打开”，它经常出错。后来我把任务拆解：先规划“识别文件管理器图标并打开”，等新窗口出现后，再触发新一轮“观察-思考-行动”，识别搜索框，输入文件名，识别文件，双击。这种分层、循环的规划方式，容错率高得多。另外，给GPT的坐标信息，最好直接提供计算好的像素坐标，而不是bbox让GPT去算，因为GPT的数学计算并不总是可靠。

5. 常见问题、挑战与优化策略

在实际使用和复现code_gpt_yolo这类项目时，你会遇到一系列典型问题。下面是我踩过坑后总结的排查清单和优化建议。

5.1 问题排查速查表

问题现象	可能原因	排查步骤与解决方案
YOLO什么都检测不到	1. 模型未正确加载。 2. 截图尺寸或格式与训练时不符。 3. 置信度阈值 (`conf`) 设置过高。 4. 目标物体不在训练集类别中。	1. 检查模型路径，打印`model.names`看类别列表。 2. 确保截图是RGB格式，尺寸合理。保存截图并用标注工具打开，看目标是否清晰。 3. 降低`conf`参数（如0.25）再试。 4. 确认你要检测的物体类别在`model.names`里。
GPT返回非JSON或乱码	1. 提示词未严格约束输出格式。 2. GPT的`temperature`参数过高。 3. 网络问题导致回复不完整。	1. 强化系统提示词，使用“必须且只能输出JSON数组”等强硬措辞，并给出精确例子。 2. 将`temperature`设为0.1或0，降低随机性。 3. 检查API响应状态码和完整内容。
坐标错误，点击位置不对	1. 屏幕缩放问题（最常见）。 2. BBox坐标转换计算错误。 3. GPT错误理解了坐标含义。	1.将系统显示缩放设置为100%，这是最彻底的解决方案。或代码中通过`ctypes`获取缩放因子进行换算。 2. 打印出原始的bbox和转换后的像素坐标，用画图工具验证。 3. 在提示词中明确要求GPT输出基于bbox中心点的像素坐标，并提供计算示例。
自动化操作太快导致失败	界面响应跟不上脚本速度。	在`execute_actions`函数中每个动作后增加`time.sleep()`，尤其是在点击、输入之后。对于加载慢的界面，可以增加等待时间，或加入“等待特定元素出现”的重试逻辑。
PyAutoGUI触发故障安全	鼠标意外移动到屏幕左上角。	这是安全特性。操作时注意鼠标位置。调试时可以先`pyautogui.FAILSAFE = False`，但正式使用不建议。
GPT规划的逻辑不合理	指令模糊或场景复杂。	1. 将复杂指令拆分成多个简单指令，分步执行。 2. 在提示词中加入更多上下文和约束，比如“如果找不到登录按钮，请先寻找并点击注册按钮”。 3. 考虑使用GPT-4，它在复杂规划和遵循指令上通常比3.5更可靠。

5.2 性能与稳定性优化策略

视觉感知优化：
- 区域截图：如果目标UI只出现在屏幕固定区域（如某个软件窗口），不要截全屏。使用mss指定区域截图，能大幅减少图像数据量，提升YOLO推理速度。
- 模型量化：将训练好的PyTorch模型转换为TensorRT或ONNX格式并进行量化（如FP16），可以显著提升在GPU上的推理速度，满足更高实时性要求。
- 缓存检测结果：对于静态或变化缓慢的界面，不必每轮循环都重新检测，可以缓存上一帧的结果，设置一个合理的刷新间隔。
规划与决策优化：
- 分层任务分解：不要指望GPT一次完成非常长的任务链。设计一个外层循环，将大任务分解为子任务，每次只让GPT规划当前子任务的几步操作，完成后再进入下一轮“观察-思考-行动”。
- 状态记忆：让GPT具备短期记忆。可以在发送给GPT的上下文里，附带之前几步的操作历史和执行结果，帮助它理解当前任务进展。
- 备用规则：对于极其关键且确定性的操作（如“点击已知固定位置的关闭按钮”），可以准备一套基于坐标的硬编码规则作为后备，当GPT规划失败或YOLO未识别时启用。
工程化改进：
- 加入重试与超时机制：对于“等待某个元素出现”这类操作，实现一个带超时和重试次数的循环检测，而不是单次检测失败就放弃。
- 日志与可视化：在开发阶段，将YOLO检测到的框用OpenCV画在截图上保存下来，方便调试识别准确性。同时，详细记录GPT的输入和输出，便于分析规划逻辑。
- 错误处理与恢复：设计一个统一的错误处理流程。当动作执行失败（如点击后无反应），能够触发重新观察和规划，尝试替代方案。