当前位置：首页 > news >正文

告别手动点击！Open-AutoGLM手机Agent部署与复杂任务测试

news 2026/7/18 2:50:34

告别手动点击！Open-AutoGLM手机Agent部署与复杂任务测试

前两天，我在手机上刷到一个视频，讲的是AI助手如何自动帮你操作手机App，从打开微信、回复消息，到点外卖、刷短视频，全程无需你动一根手指。当时我就在想，这听起来很酷，但真的靠谱吗？会不会只是实验室里的“玩具”？

直到我亲手部署并测试了智谱开源的Open-AutoGLM，这个疑问才有了答案。它不仅仅是一个概念演示，而是一个真正能理解你意图、看懂手机屏幕、并自动执行复杂任务的“手机智能体”。今天，我就带你从零开始，一步步部署这个AI Agent，并让它完成“点一份麦当劳巨无霸”这样的真实任务，看看它到底有多智能。

1. 什么是Open-AutoGLM手机Agent？

简单来说，Open-AutoGLM手机Agent是一个能“看见”并“操控”你手机的AI助手。它不再局限于和你聊天，而是能真正“动手”帮你做事。

它的工作原理可以拆解为三个核心步骤，就像一位聪明的数字管家：

眼睛（看屏幕）：通过ADB（安卓调试桥）实时获取你手机的屏幕截图。
大脑（想事情）：将截图和你的指令（如“打开小红书搜美食”）一起喂给一个强大的多模态视觉语言模型（如AutoGLM-Phone-9B）。这个模型能同时理解图像和文字，分析出当前屏幕上有什么（图标、按钮、文字），以及你需要它做什么。
手（去执行）：大脑规划好步骤（比如：1. 找到小红书图标 2. 点击 3. 找到搜索框 4. 输入“美食”...），然后通过ADB向手机发送对应的点击、滑动、输入等指令，自动完成整个流程。

整个过程，你只需要用最自然的语言下达命令，剩下的交给AI。这对于自动化测试、无障碍辅助、或者单纯想“偷懒”的用户来说，潜力巨大。

2. 环境准备：连接你的手机与AI大脑

要让AI控制你的手机，我们需要搭建一个“控制中心”。这个中心一端连着安装了AI模型的服务器（大脑），另一端连着你的安卓手机（被控设备）。以下是详细的准备步骤。

2.1 服务器端：部署AI模型（大脑）

这是整个系统的核心，负责运行理解屏幕和规划行动的AI模型。为了最简化流程，我们强烈推荐使用CSDN星图镜像进行一键部署。

为什么选择镜像部署？传统部署需要自己配置Python环境、安装CUDA、下载巨大的模型文件（动辄10GB以上），过程繁琐且容易出错。CSDN星图镜像已经将这些全部打包好，开箱即用。

部署步骤：

访问 CSDN星图镜像广场。
在搜索框中输入“Open-AutoGLM”或“AutoGLM-Phone”。
找到对应的镜像（通常名称为“Open-AutoGLM – 智谱开源的手机端AI Agent框架”），点击“一键部署”。
按照页面提示，选择合适的GPU规格（建议至少8GB显存），等待几分钟，镜像就会自动创建并运行。
部署成功后，记下服务提供的API访问地址（Base URL），通常格式为http://<服务器IP>:<端口>/v1。这个地址后面会用到。

至此，你的“AI大脑”已经在云端就绪，随时可以接受指令。

2.2 客户端与控制端：连接手机与大脑

服务端（大脑）准备好后，我们需要在本地电脑上运行控制程序，让它作为“神经中枢”，连接手机和云端AI。

2.2.1 硬件与环境准备

电脑：Windows、macOS或Linux系统均可。
Python环境：建议使用Python 3.10或以上版本。
安卓设备：一部Android 7.0以上的手机或模拟器（推荐使用真机，体验更真实）。
ADB工具：这是与安卓设备通信的桥梁。
- Windows用户：下载platform-tools，解压后，将解压路径（如C:\platform-tools）添加到系统的环境变量Path中。打开命令提示符，输入adb version能显示版本号即表示配置成功。
- macOS/Linux用户：可以通过Homebrew安装 (brew install android-platform-tools)，或在终端中直接使用。

2.2.2 手机端设置

要让电脑控制手机，需要在手机上开启几个开关：

开启开发者模式：进入手机“设置” -> “关于手机”，连续点击“版本号”7次，直到出现“您已处于开发者模式”的提示。
开启USB调试：返回设置，进入新出现的“开发者选项”，找到并开启“USB调试”。
安装ADB Keyboard（关键步骤）：AI需要通过电脑向手机输入文字。在手机浏览器中搜索并下载ADBKeyboard.apk进行安装。安装后，进入手机“设置” -> “系统” -> “语言与输入法” -> “虚拟键盘”，将“ADBKeyboard”设为默认输入法。

2.2.3 部署控制端代码

在你的电脑上，打开终端或命令提示符，执行以下命令来获取控制程序：

# 1. 克隆Open-AutoGLM项目代码 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. （可选但推荐）创建并激活Python虚拟环境 python -m venv venv # Windows: venv\Scripts\activate # macOS/Linux: source venv/bin/activate # 3. 安装项目依赖 pip install -r requirements.txt pip install -e .

2.2.4 连接你的设备

用USB数据线将手机连接到电脑，或在同一WiFi网络下。

USB连接（最稳定）：
```
adb devices
```
如果连接成功，你会看到类似List of devices attached和你的设备ID（一串字母数字）。记下这个ID。

WiFi连接（更灵活）：

# 先用USB线连接一次，开启网络调试端口 adb tcpip 5555 # 拔掉USB线，使用手机的IP地址连接（在手机WiFi设置中查看） adb connect 192.168.1.100:5555

同样，使用adb devices确认设备已连接。

3. 启动你的第一个AI手机助手任务

万事俱备，现在让我们给AI下达第一个指令！

3.1 通过命令行快速测试

在Open-AutoGLM项目目录下，打开终端，运行以下命令（请替换为你自己的参数）：

python main.py \ --device-id 10.42.0.85:46581 \ # 替换为你的设备ID，从 `adb devices` 获取 --base-url http://10.1.21.133:8000/v1 \ # 替换为你的CSDN星图镜像API地址 --model "autoglm-phone-9b" \ "打开抖音，搜索用户‘科技美学’并关注他"

参数解释：

--device-id: 你的手机在ADB中的标识。
--base-url: 你在第一步中部署的AI模型服务地址。
--model: 指定使用的模型名称，这里使用开源的autoglm-phone-9b。
最后的字符串: 就是你用自然语言下达的指令。

运行后，你会看到终端开始输出日志，同时你的手机会自动亮屏、解锁（如果设置了免密）、找到抖音图标、点击打开、进入搜索页、输入关键词、找到用户并点击关注。整个过程完全自动化，就像有一个隐形的助手在操作。

3.2 通过Python API进行更灵活的控制

如果你希望将AI助手集成到自己的脚本或应用中，可以使用其Python API：

from phone_agent.adb import ADBConnection from phone_agent.agent import PhoneAgent # 1. 连接设备 conn = ADBConnection() success, message = conn.connect("192.168.1.100:5555") # 你的设备IP print(f"连接状态: {message}") if success: # 2. 创建AI代理 agent = PhoneAgent( device_id="192.168.1.100:5555", base_url="http://10.1.21.133:8000/v1", # 你的模型服务地址 model="autoglm-phone-9b" ) # 3. 下达复杂任务 task_result = agent.run("打开美团外卖，找一家最近的麦当劳，点一个巨无霸汉堡套餐，加入购物车") print(f"任务执行结果: {task_result}") # 4. 可以连续执行多个任务 # agent.run("返回桌面") # agent.run("打开微信，给我的置顶联系人发消息说‘外卖点好了’")

这段代码展示了如何以编程方式控制AI助手，为自动化工作流打开了大门。

4. 实战：复杂任务测试与效果评估

光说不练假把式。我设计并测试了几个从简单到复杂的真实场景，来看看Open-AutoGLM的实际能力边界。

4.1 测试一：基础应用导航

指令：“打开B站，在首页向下滑动两次。”
过程观察：AI准确识别了B站图标并点击。进入首页后，它需要理解“滑动”这个操作。通过分析屏幕截图，它找到了可滑动的内容区域，并成功执行了两次下滑操作。耗时约15秒。
结论：对于简单的“打开App+基础操作”指令，完成度很高，速度取决于网络和模型推理时间。

4.2 测试二：跨应用信息查询与决策（高难度）

指令：“帮我对比一下美团和饿了么上麦当劳巨无霸的价格，告诉我哪个便宜。”
过程观察：这是对AI规划能力的终极考验。它需要：
1. 打开美团，搜索“麦当劳巨无霸”，找到价格。
2. 记住这个价格。
3. 返回桌面，打开饿了么，重复搜索流程。
4. 对比两个价格。
5. 生成结论。
实际表现：AI成功打开了美团并完成了搜索。但在返回桌面切换到饿了么时，偶尔会误触其他图标。在价格对比阶段，它需要从屏幕截图中精确提取数字信息，这一步有时会出现识别误差。完整流程耗时约2分钟，成功率约70%。
分析：此任务涉及多步骤规划、状态记忆和精确信息提取，是目前技术的挑战点。Open-AutoGLM能完成大体流程，但在细节精度和鲁棒性上还有提升空间。