当前位置：首页 > news >正文

Open-AutoGLM实战：基于大语言模型的复杂移动端自动化测试

news 2026/6/26 10:06:32

1. 项目概述与问题引入

做移动端自动化测试的朋友，对Appium一定不陌生。它就像一把瑞士军刀，覆盖了绝大部分的UI交互场景，从点击、输入到滑动、长按，都能搞定。但这些年，我踩过的坑告诉我，真实的业务场景远比标准控件复杂。比如，教务管理系统里那个动态生成的课程表，元素ID每次刷新都变；又比如，金融App里需要识别验证码图片中的扭曲文字才能继续操作；再或者，游戏界面里那些非标准控件、Canvas绘制的元素，Appium的定位策略直接失效。这些就是所谓的“复杂测试场景”，它们往往涉及动态内容、图像识别、非标准控件或需要一定逻辑推理的交互流程。

最近，一个叫Open-AutoGLM的项目进入了我的视野。它不是一个传统的UI自动化框架，而是一个基于大语言模型（LLM）的智能体框架。简单说，它能“看懂”屏幕，理解你的指令，并像真人一样去操作。这让我眼前一亮：那些让Appium头疼的场景，是不是可以用这种“视觉+推理”的方式来解决？这个项目，就是一次从零开始的探索，目标很明确：用Open-AutoGLM来搞定那些Appium覆盖不了或处理起来极其别扭的复杂测试场景。无论你是被动态元素折磨的测试工程师，还是对AI应用落地的开发者，这篇从环境搭建到实战对抗的完整记录，或许能给你一些新的思路。

2. 核心思路：为什么是Open-AutoGLM？

在深入代码之前，我们必须先想清楚：为什么是Open-AutoGLM？它和Appium的根本区别在哪里？理解了这一点，才能用好它。

Appium的核心是“控件驱动”。它通过UIAutomator2（Android）或XCUITest（iOS）等底层引擎，获取当前屏幕的控件树（一个XML结构）。我们的自动化脚本，本质上是根据控件的resource-id、text、xpath等属性来定位元素，然后执行预设的点击、输入等操作。这个模式非常高效、稳定，但它的天花板就是控件树。一旦界面元素无法被标准控件树捕获（如游戏、部分Flutter/React Native控件、自定义绘制视图），或者元素的属性动态变化难以定位，Appium就无能为力了。

Open-AutoGLM走的是另一条路：“视觉-语言驱动”。它不关心底层的控件树是什么，它只处理两样东西：屏幕截图和你的自然语言指令。其工作流程可以概括为：

观察：通过ADB或其他方式获取设备当前的屏幕截图。
理解：将截图和你的指令（如：“登录教务系统”）一起输入给大语言模型（通常是多模态模型）。
规划：大模型分析截图，理解当前界面状态和你的目标，然后规划出下一步操作（如：“点击用户名输入框”）。
执行：框架将规划出的操作（通常是坐标点击、滑动、输入文本）通过ADB指令发送给设备执行。
循环：执行后，再次截图，观察结果，继续下一步规划，直到任务完成。

这个模式的巨大优势在于泛化能力。只要模型能“看懂”屏幕上是什么，它就能操作。动态生成的图表、验证码图片、游戏界面里的虚拟按钮，对人眼来说是可识别的，对训练好的多模态模型来说，同样可以识别。这就绕开了控件树这个瓶颈。

当然，它也有代价：执行速度慢且成本高。每一步都需要调用大模型进行推理，相比Appium的直接控件操作，耗时更长，且如果使用云端API会产生费用。因此，Open-AutoGLM不是用来替代Appium的，而是作为其强有力的补充，专门攻坚那些Appium的“盲区”场景。

注意：Open-AutoGLM的成功极度依赖所选用的多模态大模型的能力。模型对图像的理解精度、对指令的遵循能力，直接决定了自动化任务的成败。目前，项目主要支持GLM系列、Qwen-VL等开源模型，也可以接入GPT-4V等闭源API。

3. 环境搭建与核心工具链解析

工欲善其事，必先利其器。用Open-AutoGLM做移动端自动化，需要搭建一个融合了AI模型和移动设备操控的环境。下面是我一步步搭建的详细过程，其中有不少需要注意的坑。

3.1 基础移动端测试环境

这部分和传统Appium环境有重叠，是必须的基石。

Android开发环境（ADB）：确保adb命令可用。这是与手机通信的桥梁。连接你的真机或启动模拟器（如Android Studio的AVD），通过adb devices确认设备已连接。
Python环境：建议使用Python 3.8+。创建一个独立的虚拟环境（conda create或venv）来管理依赖，避免包冲突。
待测应用：以“教务管理系统”为例。你需要准备好该应用的APK文件，并通过adb install安装到设备上。同时，你最好能拿到一些测试账号。

3.2 Open-AutoGLM项目部署

Open-AutoGLM是一个开源项目，我们需要将其克隆到本地并进行配置。

# 克隆项目仓库 git clone https://github.com/OpenBMB/Open-AutoGLM.git cd Open-AutoGLM # 安装项目依赖 pip install -r requirements.txt

这里可能会遇到第一个坑：依赖冲突。特别是torch（PyTorch）的版本，需要与你的CUDA版本（如果使用GPU）匹配。如果遇到问题，建议先根据官方PyTorch网站的命令安装匹配的torch和torchvision，然后再安装其他依赖。

3.3 多模态大模型准备（核心）

这是项目的“大脑”。Open-AutoGLM支持多种模型，我们需要选择并加载一个。

方案一：使用开源轻量模型（推荐入门）：例如Qwen-VL-Chat。它模型较小，可以在消费级GPU甚至CPU上运行，适合快速验证想法。
```
# 安装Qwen-VL的Python库 pip install qwen-vl
```
然后在代码中指定模型路径（如果从ModelScope或Hugging Face下载）。
方案二：使用云端API（稳定，但有成本）：例如OpenAI的GPT-4V。这种方式无需本地GPU资源，响应稳定，但需要API Key并支付费用。你需要在项目配置文件中设置你的API Key。
方案三：使用GLM系列模型：项目对GLM支持较好，如果你有GLM-4V等模型的权限，可以按照项目文档配置。

我个人的经验是，初期验证和简单场景，用Qwen-VL-Chat足矣。它的识别精度对于标准的App界面元素（按钮、输入框、文字）已经不错。等到需要处理更复杂的图像（如验证码）时，再考虑换用更强大的模型。

3.4 辅助工具：Appium Inspector（可选但重要）

虽然我们最终不用Appium执行，但Appium Inspector仍然是一个 invaluable 的工具。为什么？因为Open-AutoGLM在开发调试阶段，我们经常需要知道屏幕某个位置的坐标，或者验证模型识别得对不对。

启动Appium Server和Inspector，连接到你的设备。
在Inspector里点击你想要操作的元素，右侧的详细信息中通常会包含该元素的坐标（bounds属性）。
这个坐标信息，可以用来和我们Open-AutoGLM模型输出的点击坐标进行对比验证，是调试的黄金标准。

环境搭好后，你的工具链应该是：Python脚本 <-> Open-AutoGLM框架 <-> 多模态模型 <-> ADB <-> 手机设备。同时，Appium Inspector作为“坐标校验器”在一旁待命。

4. 实战对抗：攻克教务系统登录与动态课表

理论说再多，不如一行代码。我们以“教务管理系统”的两个核心场景为例，看看Open-AutoGLM如何实战。

4.1 场景一：带有验证码的登录模块

这是一个经典难题。假设教务系统登录界面有用户名、密码输入框，和一个动态生成的图形验证码。Appium处理验证码通常需要OCR服务介入，流程割裂。而Open-AutoGLM可以尝试“端到端”解决。

第一步：定义任务指令我们的指令需要足够清晰。不要只说“登录”，而是描述最终状态。

task_instruction = “使用账号‘student01’和密码‘test123456’登录教务管理系统，并正确输入图片中显示的验证码。”

第二步：编写执行脚本下面是一个高度简化的示例代码框架，展示了核心流程：

import os from autoglm import AutoGLM # 假设这是框架的主要类 from PIL import Image import subprocess import time # 1. 初始化AutoGLM智能体，指定使用的模型 agent = AutoGLM(model_name='qwen-vl-chat', device='cuda:0') # 或使用‘cpu’ # 2. 启动教务管理系统App app_package = “com.example.edusys” subprocess.run([“adb”, “shell”, “monkey”, “-p”, app_package, “-c”, “android.intent.category.LAUNCHER”, “1”]) time.sleep(3) # 等待App启动 # 3. 定义主循环 max_steps = 20 for step in range(max_steps): # 3.1 获取当前屏幕截图 subprocess.run([“adb”, “shell”, “screencap”, “-p”, “/sdcard/screen.png”]) subprocess.run([“adb”, “pull”, “/sdcard/screen.png”, “./current_screen.png”]) current_screen = Image.open(“./current_screen.png”) # 3.2 让智能体观察屏幕并决定下一步动作 # 这里需要根据框架的具体API来调用，以下为示意 action = agent.observe_and_plan(current_screen, task_instruction) # action 可能是一个字典，如：{‘action_type’: ‘click’, ‘coordinates’: (x, y)} 或 {‘action_type’: ‘type’, ‘text’: ‘abc’} print(f“Step {step}: {action}”) # 3.3 执行动作 if action[‘action_type’] == ‘click’: x, y = action[‘coordinates’] subprocess.run([“adb”, “shell”, “input”, “tap”, str(x), str(y)]) elif action[‘action_type’] == ‘type’: text = action[‘text’] # ADB输入文本需要特殊处理，可能要先点击输入框聚焦 subprocess.run([“adb”, “shell”, “input”, “text”, text]) elif action[‘action_type’] == ‘done’: print(“任务完成！”) break time.sleep(2) # 等待操作执行和界面响应

第三步：调试与优化实际运行中，模型可能不会一次成功。常见问题及对策：

问题1：模型点击位置不准。用Appium Inspector获取正确坐标，与模型输出对比。如果偏差有规律，可以在代码里加入一个校准偏移量。更根本的方法是提供更详细的指令，例如：“点击屏幕上方中央偏右的那个蓝色‘登录’按钮”。
问题2：模型无法识别验证码。这是对模型视觉能力的考验。如果Qwen-VL失败，可以尝试切换至更强大的模型如GPT-4V。或者，可以采用混合策略：用Open-AutoGLM完成用户名、密码的输入和登录按钮的点击，而验证码识别单独用一个专业的OCR服务（如PaddleOCR）来完成，然后将识别结果通过框架的“输入文本”动作填入。这体现了“AI智能体为主，传统工具为辅”的灵活思路。
问题3：任务陷入死循环。模型可能在某些界面困惑。需要设置最大步数（max_steps）防止无限循环，并在指令中增加更明确的成功条件描述。

4.2 场景二：元素属性动态变化的课程表查询

教务系统的课程表页面，很可能是一个WebView或者复杂自定义视图，每天/每周的课程格子DOM结构或控件属性都可能变化。用Appium写XPath或CSS选择器会非常脆弱。

我们的策略是：让Open-AutoGLM进行“视觉查询”。

指令设计：指令需要从“操作型”变为“查询型”。

task_instruction = “查看当前页面的课程表，告诉我下周一（2024-05-20）下午的第一节是什么课，在哪个教室？”

流程调整：智能体不需要执行点击、输入等物理操作，而是需要：
- 观察课程表截图。
- 理解课程表的结构（横轴可能是时间，纵轴可能是星期）。
- 定位到“下周一下午第一节”这个视觉区域。
- 读取该区域内的文本信息（课程名、教室）。
- 将结果以结构化文本（如JSON）或自然语言的形式输出。
框架支持：这要求Open-AutoGLM框架或底层模型支持“视觉问答”（VQA）能力。你需要检查框架是否提供了observe_and_answer这类API，或者通过巧妙的提示词（Prompt）让模型直接输出答案。

这个场景完美体现了Open-AutoGLM的价值：它不关心源码，只关心渲染后的最终视觉呈现。只要课程表对人眼是可读的，理论上模型就能解读它。这省去了我们为动态元素编写和维护脆弱定位器的大量工作。

5. 深入原理：提示词工程与动作空间设计

要让Open-AutoGLM智能体可靠工作，仅仅调用API是不够的。我们需要深入一层，理解它是如何“思考”的，从而更好地引导它。这涉及到两个核心概念：提示词工程和动作空间设计。

5.1 构建有效的系统提示词

系统提示词（System Prompt）定义了智能体的角色、能力和行为规范。一个糟糕的提示词会导致模型行为混乱。对于移动端自动化测试智能体，一个有效的提示词应该包含：

角色定义：“你是一个专业的移动端自动化测试助手，能够通过观察手机屏幕截图来理解界面状态，并执行精确的操作以完成用户指定的任务。”
能力描述：“你可以执行以下类型的操作：点击屏幕指定坐标、在焦点输入框输入文本、向上/下/左/右滑动屏幕、按物理返回键、长按等。”
输出格式约束（至关重要）：“你必须以严格的JSON格式输出你的决策，且只包含以下字段：action_type（只能是 click, type, swipe_up, swipe_down, press_back, long_press, done 中的一个）、coordinates（仅当action_type为click或long_press时存在，格式为[x, y]）、text（仅当action_type为type时存在）、swipe_distance（仅当滑动时存在）。不要输出任何其他解释性文字。”
观察指导：“在决定行动前，仔细分析截图。识别按钮、输入框、文本标签、图标等关键UI元素。描述当前界面，并规划达成目标的最短路径。”
错误处理：“如果当前界面与完成任务无关，或无法理解，输出action_type为done并结束任务。”

实操心得：输出格式的约束是稳定性的关键。大模型喜欢“说话”，但我们需要它“行动”。强制JSON输出能极大提高后续代码解析的可靠性。你可以把这个系统提示词看作给智能体编写的“测试脚本规范”。

5.2 设计合理的动作空间

动作空间（Action Space）定义了智能体可以执行的所有操作集合。Open-AutoGLM默认可能提供一些基础动作，但针对移动端测试，我们需要对其进行设计和扩充，使其更贴合实际。

一个基本的移动端测试动作空间可以包括：

动作类型 (action_type)	参数 (parameters)	ADB命令示例 (示意)	用途
`click`	`{“coordinates”: [x, y]}`	`adb shell input tap x y`	点击屏幕某处
`type`	`{“text”: “要输入的字符串”}`	`adb shell input text “hello”`	输入文本（需先聚焦输入框）
`swipe`	`{“start”: [x1, y1], “end”: [x2, y2], “duration”: ms}`	`adb shell input swipe x1 y1 x2 y2 [duration]`	从一点滑动到另一点
`press_back`	`{}`	`adb shell input keyevent KEYCODE_BACK`	按返回键
`press_home`	`{}`	`adb shell input keyevent KEYCODE_HOME`	按Home键
`long_press`	`{“coordinates”: [x, y], “duration”: 2000}`	`adb shell input swipe x y x y 2000`	长按某处
`done`	`{“reason”: “成功/失败原因”}`	无	任务结束

注意事项：坐标[x, y]必须是基于当前屏幕分辨率的绝对坐标。模型输出坐标后，务必进行边界检查（确保x, y在屏幕宽高范围内），必要时可以加入随机微小偏移（如±5像素）模拟真人操作的不精确性，避免被应用的反爬机制检测。

5.3 迭代式提示词优化

提示词不是一蹴而就的。你需要像一个测试经理训练新人一样，不断优化给智能体的指令。

记录与回放：运行你的自动化脚本，保存每一步的截图、模型接收的指令、模型输出的决策JSON以及最终执行的ADB命令。
分析失败步骤：当任务失败时，查看是哪一步的决策出了问题。是模型没识别出按钮？还是识别错了位置？或者是输出了不符合规定的格式？
修正提示词：
- 如果是识别问题：在系统提示词中加强关于特定UI元素的描述。例如，如果它总是忽略那个灰色的“下一步”按钮，可以在提示词中加入：“特别注意那些颜色对比度可能不高的按钮，例如灰色背景上的深灰色文字按钮。”
- 如果是逻辑问题：在用户指令中增加更多上下文和约束。例如，把“登录”改为“首先确保位于登录页面，然后在用户名输入框输入‘xxx’，在密码输入框输入‘yyy’，最后点击蓝色的‘登录’按钮”。
- 如果是格式问题：再次强调并简化输出格式要求。

这个过程是Open-AutoGLM项目落地的核心工作，需要耐心和细致的观察。我通常会准备一个“提示词版本库”，记录每次修改和对应的效果。

6. 工程化实践：稳定性提升与持续集成

单个脚本跑通只是第一步。要想把Open-AutoGLM用于实际的测试项目，尤其是持续集成（CI） pipeline，我们必须解决稳定性和效率问题。

6.1 增强稳定性：多重保障策略

AI模型具有不确定性，我们不能指望它100%成功。必须建立“安全网”。

动作执行前校验：在将模型输出的坐标发送给ADB前，增加校验逻辑。

def safe_execute_action(action, screen_width, screen_height): action_type = action.get(‘action_type’) if action_type == ‘click’ or action_type == ‘long_press’: x, y = action.get(‘coordinates’, (0, 0)) # 校验1：坐标是否在屏幕内 if not (0 <= x < screen_width and 0 <= y < screen_height): print(f“警告：坐标({x},{y})超出屏幕范围({screen_width},{screen_height})，已置中。”) x, y = screen_width // 2, screen_height // 2 # 校验2：坐标是否在可点击区域？这里可以加入一个简单的历史记录，避免短时间内重复点击同一位置。 # 执行ADB命令...

超时与重试机制：为每个步骤设置合理的超时时间。如果模型在一步卡住（比如done信号一直不出现），或者执行后界面没有发生预期变化（通过图像对比或关键元素检测判断），应触发重试。重试时，可以稍微修改指令（例如，“上次点击似乎没反应，请再尝试一次”）。
关键状态检查点：不要完全依赖模型的自主规划。在流程的关键节点（如登录成功后应进入主页），通过传统的图像模板匹配或OCR，主动检查特定元素（如“欢迎，学生01”字样）是否出现。如果检查失败，则判定当前步骤失败，触发重试或整个用例失败。这相当于在AI自动驾驶的路上设置了几个必须通过的“路标”。
备用方案（Fallback）：对于极其关键且模型识别率不高的步骤，准备一个备用方案。例如，登录时的验证码，如果模型连续3次识别失败，则自动切换到备用OCR服务，并将结果通过type动作输入。

6.2 提升效率：缓存与并行

模型推理是耗时的瓶颈。我们可以从两个方向优化：

截图与推理结果缓存：对于相对静态的界面（如App的启动页、设置菜单），其UI布局是固定的。我们可以建立一个缓存字典，键为界面截图的特征哈希（如PHash），值为该界面下模型对常见指令的响应（如“点击登录按钮”的坐标）。下次遇到相同界面时，直接使用缓存结果，跳过模型推理。这能大幅提升回归测试的速度。
异步并行处理：在CI环境中，可以并行运行多个测试任务。每个任务独占一个手机设备（或模拟器）和一个模型推理实例。需要一套资源调度系统来管理设备池和模型服务。

6.3 集成到CI/CD流程

将Open-AutoGLM测试脚本集成到Jenkins、GitLab CI等工具中，可以实现自动化回归。

环境准备阶段：CI Job开始时，启动一个干净的模拟器或连接专用真机，安装指定版本的待测APK。
测试执行阶段：调用你的Open-AutoGLM主脚本，执行定义好的复杂场景测试用例。将模型输出的决策日志、每一步的截图保存为产物。
结果分析与报告：
- 成功判定：不仅看脚本是否跑完，更要看关键检查点是否通过，以及最终界面是否符合预期（可通过截图对比或OCR验证关键文本）。
- 失败分析：收集失败的截图和日志。由于AI的不确定性，失败可能是“非致命”的（如一次偶然的识别错误）。可以设定一个重试阈值，只有连续失败超过阈值才标记为用例失败。
- 可视化报告：生成HTML报告，展示测试步骤的截图序列，并用高亮框标出模型每次点击的位置，一目了然地看到智能体的“操作轨迹”。
资源清理：测试结束后，卸载App，清理设备，为下一次任务做好准备。

重要提示：在CI中运行，要特别注意模型服务的稳定性和成本控制。如果使用云端API，需设置预算警报。使用本地模型，则需要确保CI机器有足够的GPU内存。

7. 常见问题排查与效能调优实录

在实际把玩Open-AutoGLM的过程中，我遇到了不少“坑”。这里把一些典型问题和解决思路记录下来，希望能帮你节省时间。

7.1 模型相关的问题

问题：模型响应速度极慢，或经常超时。

排查：首先确认是网络问题还是模型本身问题。如果是本地部署的模型，检查GPU使用率（nvidia-smi）和内存占用。可能是模型太大，显存不足导致反复换页。
解决：
1. 尝试量化模型（如使用GPTQ、AWQ等方法），在精度损失可接受的前提下大幅减少显存占用和提升推理速度。
2. 换用更小的模型（如Qwen-VL-Chat-Int4）。
3. 如果是API调用，检查网络延迟，考虑使用国内可访问的镜像或代理（此处需注意合规性，仅指技术上的网络优化）。

问题：模型“看不懂”界面，输出无意义的动作或直接说无法完成。

排查：查看模型接收到的完整提示词（系统提示词+用户指令+历史截图）。可能是截图分辨率太高或太低，导致模型无法识别细节。
解决：
1. 调整截图质量：将截图缩放至模型训练时常见的分辨率（如336x336, 448x448）。Open-AutoGLM框架可能内置了处理，如果没有，需要手动PIL.Image.resize。
2. 增强指令：在用户指令中加入更明确的上下文。例如，不要只说“点击登录”，而是说“在当前这个以蓝色为背景的登录页面，点击右下角那个白色的‘登录’按钮”。
3. 提供示例（Few-Shot）：在系统提示词中，加入一两个成功的操作示例，教模型应该如何输出。例如：“示例1：当屏幕是一个有用户名和密码输入框的界面时，如果目标是输入用户名‘admin’，则应输出{‘action_type’: ‘type’, ‘text’: ‘admin’}。”

7.2 框架与执行相关的问题

问题：ADB命令执行成功，但App没有反应。

排查：最常见的原因是坐标点击在了无效区域。用adb shell getevent或Appium Inspector的“Tap”功能，验证你发送的坐标是否真的对应了可点击元素。
解决：
1. 在代码中增加点击前的日志，打印出即将点击的坐标。用Appium Inspector手动点击该坐标，看是否有反应。
2. 考虑在点击前，先让模型执行一个swipe或press_back等无关操作，“唤醒”一下界面，有时界面元素加载有延迟。
3. 检查应用是否有无障碍模式或特殊权限要求，某些操作可能需要开启。

问题：任务陷入循环，模型在两个状态间来回切换。

排查：这通常是因为模型没有准确感知到界面状态的变化。例如，点击登录按钮后，应该跳转到主页，但模型可能认为还在登录页，于是又去点击登录按钮。
解决：
1. 强制状态刷新：在执行一个预期会引起界面大变动的操作（如点击登录）后，增加一个等待时间（time.sleep(3)），并强制重新截图。
2. 引入状态记忆：让模型在输出动作时，也简单描述一下它认为的当前界面。在下一步的提示词中，把上一步的界面描述和历史截图一起喂给模型，帮助它建立连续记忆。Open-AutoGLM框架可能支持会话历史，需要查阅其文档。
3. 设置状态检查点：如前所述，在关键节点用传统方法验证状态，如果验证不通过，则给模型一个明确的错误反馈，引导它修正。

7.3 效能调优建议

截图频率优化：不是每一步之后都需要立即截图。对于快速连续的操作（如输入一串文字），可以在所有输入完成后再截图，减少模型调用次数。
模型预热：在开始正式测试套件前，先跑一个简单的热身任务（如打开设置菜单），让模型加载到GPU显存中，避免第一个任务因冷启动而超时。
操作聚合：对于一些复杂的、模型不擅长的精细操作（如在文件管理器里按特定顺序选择多个文件），可以将其封装成一个“宏动作”，由传统脚本完成，而对模型只暴露一个高级指令“选择文件A、B、C”。
结果置信度：如果框架支持，可以关注模型输出动作时的置信度分数。对于低置信度的操作（比如模型自己都很犹豫该点哪里），可以触发重试或启用备用方案，而不是盲目执行。

经过这些调试和优化，Open-AutoGLM从一個“有趣的概念验证”，逐渐变成了一个能在特定复杂场景下稳定工作的“特种兵”。它确实无法像Appium那样进行高速、大规模的全量UI遍历，但在攻坚那些动态、非标准、需要视觉理解的测试堡垒时，它展现出了不可替代的独特价值。

查看全文

http://www.jsqmd.com/news/1080695/