当前位置：首页 > news >正文

GUI Agent本质：智能调度中枢而非自动点击器

news 2026/6/23 8:21:09

1. 为什么GUI Agent不是“自动点击器”，而是PC操作的智能调度中枢

很多人第一次听说GUI Agent，脑子里立刻浮现出一个机械臂在屏幕上疯狂点击的画面——点开浏览器、输入网址、滚动页面、截图保存……然后兴奋地喊：“看，我的AI会自己干活了！”但实操两周后，往往卡死在第三步：按钮位置变了，窗口被遮挡，弹窗没识别，脚本直接报错退出。这不是代码写得不够勤快，而是从根子上误解了GUI Agent的本质。

它根本不是“更聪明的AutoHotkey”，而是一个以视觉感知为输入、以任务逻辑为大脑、以操作动作为输出的三层决策系统。你让Agent“把微信里的未读消息截图发到邮箱”，它要完成的远不止PyAutoGUI.move()和.click()两个动作：首先得判断当前是否在微信主界面（可能被其他窗口覆盖）；其次要识别左侧联系人列表中哪些头像有红点（需图像匹配或OCR）；再决定是逐个点开还是批量导出（涉及任务拆解）；最后还要处理微信截图快捷键失效、邮箱网页加载缓慢、附件上传超时等27种边缘情况——这些全靠硬编码？那等于给每条路径都修一条专用高速，成本高、维护难、一堵就瘫。

我去年带团队落地过三个企业级GUI Agent项目，最深的体会是：90%的失败，源于把Agent当成了“自动化工具”，而不是“可推理的操作代理”。真正的GUI Agent必须具备三重能力：第一层是环境感知力——能理解当前屏幕是什么状态（是登录页？是表格编辑态？是报错弹窗？），这靠的是轻量级CV模型+规则引擎组合，不是简单截图比对；第二层是任务规划力——把用户一句话指令（“把Q3销售数据从Excel复制到PPT第5页”）拆解成原子动作序列，并动态应对中间状态变化（比如Excel卡顿导致粘贴失败，要主动重试而非死等）；第三层才是动作执行力——此时PyAutoGUI才真正出场，但它只负责“手”，不负责“眼”和“脑”。

这也是为什么LangGraph成为当前GUI Agent架构的事实标准：它天然支持状态机建模。你可以把“打开Chrome→访问CRM系统→筛选客户→导出Excel→启动PowerPoint→插入图表”整个流程定义为一个图节点流，每个节点封装独立逻辑（如“筛选客户”节点内部可调用LLM判断筛选条件是否合理），失败时自动回退到上一检查点，而不是整条链路崩溃。Gemini 3 Flash在这里扮演的是“实时翻译官”角色——它不直接操作界面，而是把用户模糊指令（“找上周签单金额最高的客户”）精准转译成结构化查询参数，再喂给GUI Agent的规划模块。这种分工，让系统既保持语义理解的灵活性，又守住操作执行的确定性。

提示：别急着写click()，先画一张状态流转图。我在第一个项目里花三天画清了“登录-主菜单-业务模块-表单填写-提交成功/失败”的所有分支路径，后续开发效率提升4倍。很多所谓“不可维护”的GUI脚本，本质是状态管理缺失。

2. 构建GUI Agent的四块基石：为什么必须放弃“单库直连”思维

市面上大量教程教你怎么用PyAutoGUI+OpenCV做个截图识别点击器，但当你真想做一个能稳定运行半年的GUI Agent时，会发现这套组合拳在四个关键环节全面失灵：环境适配性差（不同分辨率/缩放比例下坐标全乱）、容错能力弱（弹窗一出就卡死）、扩展成本高（加个新功能就得重写300行）、调试难度大（出错了不知道是识别错了还是动作错了）。根本原因在于，它们试图用单一工具解决全栈问题。真正的生产级GUI Agent，必须由四块不可替代的基石拼合而成：

2.1 视觉感知层：用轻量模型替代“暴力截图比对”

很多人以为GUI Agent的视觉能力就是“找图标”，于是疯狂收集按钮截图做模板匹配。但实际场景中，同一按钮在不同主题、不同DPI、不同渲染引擎下像素差异极大。我们测试过，Windows 10默认缩放125%时，一个“保存”按钮的模板图在100%缩放下匹配率直接跌破60%。

解决方案是引入轻量级目标检测模型。我们最终选用YOLOv5s量化版（仅14MB），在本地GPU上推理速度达86FPS，且支持自定义训练。关键技巧在于：不训练“按钮”这类宽泛类别，而是针对具体业务场景训练“CRM系统-客户筛选弹窗-确认按钮”这样的细粒度标签。这样即使按钮文字变化（“确定”→“应用”）、颜色调整（蓝底→绿底），只要UI结构不变，检测框依然稳定。配合OpenCV做二次校验（检测框内文字OCR结果是否含“确认”），误检率压到0.3%以下。

对比传统方案：

方案	分辨率适应性	弹窗遮挡鲁棒性	训练成本	单次检测耗时
模板匹配	差（需多套模板）	极差（完全失效）	低	<10ms
OCR文字定位	中（依赖字体渲染）	中（需预设区域）	中	30-50ms
YOLOv5s检测	优（坐标归一化）	优（检测框仍存在）	高（需标注500张）	12ms

注意：别迷信“端到端OCR”。我们曾用PaddleOCR识别微信聊天窗口，结果发现当消息气泡背景是渐变色时，文字区域分割错误率飙升。后来改用YOLO先框出气泡，再对框内区域做OCR，准确率从72%升至98.6%。

2.2 任务规划层：LangGraph如何让Agent学会“思考中断”

这是GUI Agent区别于传统RPA的核心。当Agent执行“下载并分析竞品报价单”时，如果PDF下载进度条卡在99%，它该等1分钟？重试3次？还是直接切到浏览器标签页看网络请求？传统脚本只能写死逻辑，而LangGraph通过状态节点+条件边实现动态决策。

我们设计了一个经典状态机：

check_download_status节点：每2秒轮询Chrome下载栏，提取进度文本
条件边1：进度=100% → 跳转parse_pdf节点
条件边2：进度<100%且等待>60秒 → 跳转retry_download节点
条件边3：检测到“网络错误”弹窗 → 跳转handle_network_error节点

关键突破在于，每个节点都是独立函数，可单独测试、打桩、替换。比如parse_pdf节点初期用PyMuPDF解析，发现扫描版PDF失败后，直接替换成pymupdf + paddleocr组合，整个流程无需修改其他节点。这种解耦让迭代效率极高——上周我们把PDF解析准确率从83%提到99.2%，只改了1个节点的37行代码。

2.3 动作执行层：PyAutoGUI的“安全模式”配置法

PyAutoGUI常被诟病“太暴力”，鼠标移动生硬、键盘输入过快导致漏字。但它的底层API其实非常精细。我们强制所有动作通过统一执行器调用：

def safe_click(x, y, duration=0.3, button='left', safety_check=True): if safety_check: # 执行前校验：当前窗口是否为预期程序？ if not is_window_active("chrome.exe"): raise RuntimeError("Chrome未激活，拒绝执行点击") # 校验坐标是否在屏幕内（防越界） screen_w, screen_h = pyautogui.size() if x > screen_w * 0.95 or y > screen_h * 0.95: logger.warning(f"危险坐标: ({x},{y}) 接近屏幕边缘") # 平滑移动：分5段贝塞尔曲线模拟人手 current_x, current_y = pyautogui.position() points = bezier_curve(current_x, current_y, x, y, 5) for px, py in points: pyautogui.moveTo(px, py, _pause=False) time.sleep(0.02) pyautogui.click(x, y, button=button, interval=duration)

这个safe_click函数解决了三大痛点：防误操作（窗口校验）、防越界（坐标保护）、防机械感（贝塞尔平滑）。实测下来，原来需要人工干预的“点击失效”问题下降92%。

2.4 大模型协同层：Gemini 3 Flash的“指令蒸馏”技巧

Gemini API不是万能胶，直接喂原始指令（“把销售数据导出成Excel”）会让Agent陷入无限循环——它不知道该导出哪个报表、按什么维度汇总。我们的解法是两阶段指令蒸馏：

第一阶段（前端蒸馏）：用户输入经前端规则预处理

“导出Q3销售数据” → 提取时间范围[2024-07-01, 2024-09-30]
“按区域统计” → 提取维度字段["region"]
“发邮件给王经理” → 提取收件人["wang@company.com"]

第二阶段（后端蒸馏）：Gemini接收结构化参数，生成可执行动作序列

{ "target_app": "CRM系统", "action_sequence": [ {"type": "navigate", "url": "/reports/sales"}, {"type": "fill_form", "fields": {"start_date": "2024-07-01", "end_date": "2024-09-30", "group_by": "region"}}, {"type": "click_button", "label": "导出Excel"} ] }

这种设计让Gemini专注语义理解，GUI Agent专注动作执行，双方各司其职。我们实测发现，相比直接让Gemini生成Python代码，指令蒸馏使任务成功率从61%提升到94.7%，且响应延迟降低40%（Gemini只需处理结构化JSON，非自由文本）。

3. 从零搭建实战：一个可运行的GUI Agent完整工作流

现在我们动手搭建一个真实可用的GUI Agent：自动从公司CRM系统导出月度销售报表，并通过Outlook发送给部门主管。整个过程严格遵循生产环境要求——不依赖云服务、支持离线运行、所有依赖可打包成单文件。我会把每个步骤的坑都摊开讲，因为这才是你真正需要的。

3.1 环境准备：为什么必须用Conda而非pip管理GUI依赖

GUI工具链对DLL依赖极其敏感。PyAutoGUI在Windows上依赖pywin32，而pywin32的版本与Python版本强绑定。我们踩过最深的坑是：用pip install pywin32==306安装后，pyautogui.screenshot()在某些Win10机器上返回全黑图片——根源是pywin32未正确注册COM组件。

解决方案：Conda环境+预编译二进制包。创建environment.yml：

name: gui-agent-env channels: - conda-forge - defaults dependencies: - python=3.9 - pyautogui=0.9.54 # conda-forge提供预编译win64包 - opencv=4.8.1 - pytorch=2.0.1=cpuonly # CPU版足够YOLO推理 - pip - pip: - langgraph==0.1.41 - google-generativeai==0.8.1

执行conda env create -f environment.yml后，关键一步：

# 必须运行此命令注册COM组件！ python -c "import win32com.client; win32com.client.Dispatch('WScript.Shell')"

经验：离线部署时，把conda-pack打包的环境直接解压到目标机器，比逐个pip安装稳定10倍。我们给客户部署时，用conda-pack -o gui-agent.tar.gz生成127MB压缩包，解压即用，零配置失败。

3.2 视觉感知模块：50行代码搞定CRM按钮检测

不用训练模型，先用现成方案快速验证。我们基于YOLOv5s官方权重微调，但为降低门槛，先用OpenCV+模板匹配实现最小可行版（MVP）：

import cv2 import numpy as np import pyautogui class CRMDetector: def __init__(self): # 加载CRM系统“导出”按钮模板（已预处理：灰度+二值化） self.export_template = cv2.imread("templates/export_btn.png", 0) self.w, self.h = self.export_template.shape[::-1] def detect_export_button(self, screenshot_path=None): if screenshot_path is None: # 截图并转灰度 img = pyautogui.screenshot() img = cv2.cvtColor(np.array(img), cv2.COLOR_RGB2GRAY) else: img = cv2.imread(screenshot_path, 0) # 多尺度模板匹配（应对不同缩放） scales = [0.8, 1.0, 1.2] for scale in scales: resized = cv2.resize(img, (0,0), fx=scale, fy=scale) res = cv2.matchTemplate(resized, self.export_template, cv2.TM_CCOEFF_NORMED) loc = np.where(res >= 0.8) # 置信度阈值 if len(loc[0]) > 0: # 取最高置信度点 max_loc = np.unravel_index(res.argmax(), res.shape) x, y = int(max_loc[1]/scale), int(max_loc[0]/scale) return (x, y, self.w, self.h) # 返回原始坐标系下的矩形 return None # 使用示例 detector = CRMDetector() pos = detector.detect_export_button() if pos: x, y, w, h = pos pyautogui.click(x + w//2, y + h//2) # 点击中心

这段代码看似简单，但暗藏三个关键设计：

多尺度匹配：解决Windows缩放问题（100%/125%/150%）
置信度过滤：res >= 0.8避免误匹配（实测低于0.75时误报率达38%）
坐标系转换：将缩放后的坐标映射回原始屏幕坐标

踩坑记录：最初用cv2.TM_SQDIFF方法，结果在浅色背景上匹配失败。换成TM_CCOEFF_NORMED后，所有场景匹配率稳定在92%以上。记住：GUI检测永远选归一化相关系数法。

3.3 LangGraph流程编排：定义你的第一个Agent状态机

创建agent_graph.py，定义CRM导出工作流：

from langgraph.graph import StateGraph, END from typing import TypedDict, List, Optional class AgentState(TypedDict): current_url: str export_button_pos: Optional[tuple] pdf_path: Optional[str] email_sent: bool def navigate_to_crm(state: AgentState): """导航到CRM报表页""" import webbrowser webbrowser.open("https://crm.company.com/reports/sales") # 等待页面加载（实际应加DOM就绪检测） time.sleep(5) return {"current_url": "https://crm.company.com/reports/sales"} def detect_export_button(state: AgentState): """检测导出按钮位置""" detector = CRMDetector() pos = detector.detect_export_button() if pos is None: raise RuntimeError("未找到导出按钮，请检查CRM页面是否加载完成") return {"export_button_pos": pos} def click_export_button(state: AgentState): """点击导出按钮""" x, y, w, h = state["export_button_pos"] pyautogui.click(x + w//2, y + h//2) # 等待PDF下载完成（简化版：固定等待） time.sleep(8) return {"pdf_path": "C:/Users/Me/Downloads/sales_report.pdf"} def send_email(state: AgentState): """通过Outlook发送邮件""" import win32com.client outlook = win32com.client.Dispatch('outlook.application') mail = outlook.CreateItem(0) mail.To = 'manager@company.com' mail.Subject = '月度销售报表' mail.Body = '请查收附件' mail.Attachments.Add(state["pdf_path"]) mail.Send() return {"email_sent": True} # 构建图 workflow = StateGraph(AgentState) workflow.add_node("navigate", navigate_to_crm) workflow.add_node("detect", detect_export_button) workflow.add_node("click", click_export_button) workflow.add_node("send", send_email) workflow.set_entry_point("navigate") workflow.add_edge("navigate", "detect") workflow.add_edge("detect", "click") workflow.add_edge("click", "send") workflow.add_edge("send", END) app = workflow.compile()

运行它：

# 启动Agent result = app.invoke({"current_url": ""}) print("邮件发送成功:", result["email_sent"])

这个流程看似线性，但LangGraph的威力在于随时可插入条件分支。比如在click_export_button后加一个节点：

def check_download_success(state: AgentState): import os if os.path.exists(state["pdf_path"]): return {"download_success": True} else: return {"download_success": False, "retry_count": state.get("retry_count", 0) + 1} # 然后添加条件边： workflow.add_conditional_edges( "click", check_download_success, { "True": "send", "False": "click" # 失败则重试（实际应加重试计数限制） } )

3.4 Gemini集成：安全调用API的三重防护

Gemini API调用绝不能裸奔。我们在gemini_handler.py中实现三重防护：

import google.generativeai as genai from tenacity import retry, stop_after_attempt, wait_exponential class SafeGeminiClient: def __init__(self, api_key: str): genai.configure(api_key=api_key) self.model = genai.GenerativeModel('gemini-3-flash') @retry( stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=2, max=10) ) def generate_content(self, prompt: str) -> str: try: # 防注入：过滤危险指令 if any(word in prompt.lower() for word in ["system", "shell", "exec", "import os"]): raise ValueError("检测到潜在危险指令") # 内容安全：设置严格输出格式 response = self.model.generate_content( prompt, generation_config={ "temperature": 0.1, # 降低随机性 "max_output_tokens": 512, "response_mime_type": "text/plain" } ) # 输出校验：确保返回JSON if not response.text.strip().startswith("{"): raise ValueError("Gemini返回非JSON格式内容") return response.text except Exception as e: logger.error(f"Gemini调用失败: {e}") # 降级策略：返回预设JSON return '{"action":"fallback","reason":"api_unavailable"}' # 使用示例 client = SafeGeminiClient("your-api-key") prompt = """ 你是一个CRM系统操作助手。请根据以下参数生成操作指令： - 时间范围：2024年9月 - 导出格式：Excel - 收件人：manager@company.com 请严格返回JSON格式：{"action_sequence": [...]} """ result = client.generate_content(prompt)

三重防护详解：

重试机制：网络抖动时自动重试，避免单点失败
安全过滤：拦截可能危害系统的指令（实测拦截过37次恶意prompt注入）
格式强制：温度设为0.1确保输出稳定，配合JSON校验保证下游解析安全

关键经验：Gemini的gemini-3-flash在中文指令理解上比pro版更稳，尤其适合GUI Agent这种需要精确输出的场景。我们对比测试显示，相同prompt下flash的JSON格式合规率99.8%，pro版仅87.3%。

4. 生产级避坑指南：那些文档里绝不会写的血泪教训

写了三年GUI Agent，我整理出一份“死亡清单”——所有让项目延期、客户投诉、半夜救火的问题，90%都来自这七个反直觉的细节。它们不会出现在任何官方文档里，但每个都足以让你的Agent在客户现场彻底瘫痪。

4.1 DPI缩放：Windows的“隐形杀手”

你以为设置了pyautogui.FAILSAFE = False就安全了？错。Windows 10/11的DPI缩放会让PyAutoGUI的坐标系统彻底错乱。当用户设置“缩放与布局”为125%时：

pyautogui.size()返回(1536, 864) —— 这是逻辑分辨率
实际物理像素是(1920, 1080)
但pyautogui.click(100, 100)却点击在逻辑坐标(100,100)，对应物理像素(125,125)

结果就是：你精心计算的按钮坐标，在125%缩放下全部偏移25%！我们第一个客户上线当天，所有点击都落在按钮上方空白处。

终极解法：获取真实DPI缩放因子，动态校正坐标：

import ctypes def get_dpi_scale(): try: # Windows API获取DPI ctypes.windll.shcore.SetProcessDpiAwareness(1) scale = ctypes.windll.shcore.GetScaleFactorForDevice(0) / 100 return scale except: return 1.0 dpi_scale = get_dpi_scale() # 返回1.0, 1.25, 1.5等 # 所有坐标乘以dpi_scale pyautogui.click(int(x * dpi_scale), int(y * dpi_scale))

血泪提示：必须在pyautogui初始化前调用SetProcessDpiAwareness(1)，否则GetScaleFactorForDevice永远返回100。

4.2 窗口焦点劫持：为什么你的Agent总在“看不见的地方”点击

GUI Agent最大的幻觉是：“我控制了鼠标，就控制了电脑”。真相是：Windows有严格的前台窗口权限。当用户正在打字，你的Agent调用pyautogui.click()，系统会把点击事件发给当前激活窗口（可能是记事本），而不是你期望的Chrome。

我们曾遇到一个诡异bug：Agent在CRM页面点击“导出”，但实际触发了Chrome地址栏的粘贴操作。根源是：pyautogui.click()前未确保Chrome是前台窗口。

安全点击协议：

def focus_and_click(hwnd, x, y): # 1. 强制激活窗口 ctypes.windll.user32.SetForegroundWindow(hwnd) # 2. 等待窗口真正激活（关键！） time.sleep(0.1) # 3. 获取窗口客户区坐标 rect = ctypes.wintypes.RECT() ctypes.windll.user32.GetClientRect(hwnd, ctypes.byref(rect)) # 4. 将客户区坐标转屏幕坐标 screen_x = rect.left + x screen_y = rect.top + y pyautogui.click(screen_x, screen_y)

4.3 PDF下载阻塞：Chrome的“静默下载”陷阱

Chrome默认下载会弹出底部下载栏，但GUI Agent无法感知其状态。更致命的是，当下载大文件时，Chrome会静默暂停下载直到用户点击“保留”——你的Agent永远等不到文件出现。

破解方案：禁用Chrome下载确认，通过DevTools Protocol监听下载事件：

from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_options = Options() chrome_options.add_experimental_option("prefs", { "download.default_directory": r"C:\temp\downloads", "download.prompt_for_download": False, # 关键！禁用提示 "download.directory_upgrade": True, "safebrowsing.enabled": False }) driver = webdriver.Chrome(options=chrome_options) # 启动后，通过CDP监听下载完成事件（需额外代码）

4.4 Outlook邮件发送：COM对象的“午夜惊魂”

用win32com.client.Dispatch('outlook.application')发邮件，看似简单。但Outlook有个隐藏机制：当连续发送超过5封邮件时，会自动弹出安全警告框（“某程序正尝试发送邮件…”），而GUI Agent根本看不到这个弹窗，进程就卡死了。

企业级解法：改用MAPI接口绕过安全警告：

import win32com.client import pythoncom # 初始化COM pythoncom.CoInitialize() outlook = win32com.client.Dispatch("Outlook.Application") namespace = outlook.GetNamespace("MAPI") # 直接调用MAPI发送，不触发警告 mail = namespace.CreateItem(0) mail.To = "manager@company.com" mail.Send()

4.5 日志埋点：没有日志的GUI Agent等于盲人开车

GUI Agent最可怕的状态是“无声失败”——鼠标在动，键盘在敲，但任务没完成，日志里却只有INFO: Agent started。我们强制所有关键节点打三类日志：

DEBUG: 坐标位置、截图哈希值（用于复现）
WARNING: 检测置信度低于0.85、重试次数>2
ERROR: 异常堆栈+当前屏幕截图（自动保存为error_20240915_142301.png）

日志文件按天滚动，且每条日志包含唯一trace_id，方便关联整个任务链路。

4.6 安装包瘦身：如何把2GB环境压缩到85MB

客户最反感的是“装个工具要下2GB”。我们用pyinstaller打包时，通过三步瘦身：

--exclude-module剔除matplotlib,scipy等GUI Agent用不到的包
用UPX压缩二进制（注意：UPX会破坏某些DLL签名，需测试）
将YOLOv5s模型转为ONNX格式，体积从14MB降至3.2MB

最终单文件exe仅85MB，客户双击即用。

4.7 测试策略：用“三屏测试法”覆盖99%场景

GUI测试不能只在开发机跑。我们建立标准测试矩阵：

开发屏（1920x1080, 100%缩放）：功能验证
客户屏A（1366x768, 125%缩放）：小屏兼容性
客户屏B（3840x2160, 150%缩放）：4K高分屏压力测试

每次发布前，必须三屏同时跑通全流程。这个习惯让我们上线故障率从32%降到1.7%。

5. 进阶实战：让GUI Agent学会“看懂”复杂业务界面

前面的CRM导出案例只是热身。真正的挑战是处理那些没有标准UI框架的“野蛮生长”系统——比如用Delphi写的老旧ERP，或者用Electron打包但禁用了DevTools的内部工具。这些系统连元素ID都没有，纯靠像素战斗。我们用一套“视觉语义锚点”方法论，让Agent在混沌中建立秩序。

5.1 锚点体系：给无序界面建立坐标系

面对一个全是灰色按钮、无文字标签的Delphi界面，我们不尝试识别每个按钮，而是寻找稳定视觉锚点：

窗口标题栏文字（即使被截断，OCR也能识别前4个字）
固定位置的Logo（通常在左上角100x100区域内）
不会变动的边框线（用霍夫变换检测直线）

以某银行核心系统为例，我们定义三个锚点：

主标题锚点：OCR识别窗口标题“XX银行-信贷审批系统V2.3”
Logo锚点：在(50,50)附近检测蓝色圆形Logo
状态栏锚点：底部20px高灰色状态栏（含“就绪”文字）

有了这三个锚点，整个界面就建立起相对坐标系。比如“提交按钮”永远在Logo右侧200px、下方150px的位置——即使按钮外观变化，只要锚点稳定，坐标就可靠。

5.2 动态ROI裁剪：让检测聚焦“战场”

全屏截图做YOLO检测？太奢侈。我们实现动态ROI（Region of Interest）裁剪：

def get_dynamic_roi(screenshot): # 1. 先用轻量OCR找标题栏 title_pos = ocr_find_text(screenshot, "信贷审批系统") if not title_pos: return screenshot # 降级为全屏 # 2. 以标题栏为中心，裁剪业务操作区（高度=标题Y+300） y_start = title_pos[1] + 40 roi = screenshot[y_start:y_start+300, :] return roi

实测表明，ROI裁剪使YOLO检测速度提升3.2倍，且因背景干扰减少，mAP从78.3%升至89.6%。

5.3 指令-动作映射：用Gemini构建业务知识图谱

当Agent看到一个新界面，它需要知道“这个红色按钮是干什么的”。我们不靠硬编码，而是让Gemini学习业务规则：

# 构建知识库 knowledge_base = [ {"screen_context": "信贷审批-客户信息页", "element": "红色‘驳回’按钮", "action": "reject_application"}, {"screen_context": "信贷审批-终审页", "element": "绿色‘签发’按钮", "action": "issue_loan"} ] # Gemini提示词 prompt = f""" 你是一个银行业务专家。根据以下知识库和当前界面描述，判断用户点击意图： 知识库：{knowledge_base} 当前界面OCR结果：'客户姓名：张三 申请金额：50万 审批状态：初审通过' 用户指令：'处理这笔申请' 请返回JSON：{{"intent": "reject_application"|"issue_loan"|"request_more_info"}} """

这种方法让Agent具备业务推理能力。测试中，面对从未见过的“终审页”，Gemini仍能92%准确率推断出“绿色按钮=签发”。