当前位置：首页 > news >正文

Open-AutoGLM上手实录：30分钟搞定AI手机代理

news 2026/7/5 16:12:17

Open-AutoGLM上手实录：30分钟搞定AI手机代理

1. 引言：让AI替你操作手机，真的可以这么简单？

你有没有想过，有一天只需要说一句“帮我打开小红书搜美食”，手机就会自动执行——解锁、打开App、输入关键词、点击搜索，一气呵成？这不再是科幻场景，而是Open-AutoGLM已经实现的现实。

Open-AutoGLM 是智谱AI开源的一款基于视觉语言模型（VLM）的手机端AI Agent框架。它能通过多模态理解屏幕内容，结合自然语言指令，自动规划并执行手机操作流程。整个过程无需手动点击，真正实现“AI代劳”。

本文将带你从零开始，30分钟内完成本地控制端部署与真机连接，让你亲眼见证AI如何接管你的安卓手机。全程无需云服务器私有化部署，聚焦最轻量、最快速的上手路径，适合所有想快速体验AI手机代理能力的开发者和爱好者。

2. 核心原理：AutoGLM是如何“学会用手机”的？

在动手之前，先搞清楚它是怎么工作的。理解原理，才能更好调试和扩展。

2.1 三大核心技术模块

Open-AutoGLM 的运行依赖三个核心组件协同工作：

视觉语言模型（VLM）：负责“看懂”手机屏幕。它接收屏幕截图，理解当前界面元素（如按钮、输入框、标题），并识别用户意图。
动作规划引擎：基于模型的理解，生成下一步操作指令，比如“点击坐标(500,800)”或“输入文本‘美食推荐’”。
ADB控制层：通过 Android Debug Bridge（ADB）与手机通信，执行具体操作，包括点击、滑动、输入、启动App等。

整个流程是闭环的：截图 → 理解 → 规划 → 执行 → 再截图 → 再理解……直到任务完成。

2.2 为什么不需要Root？它是怎么输入文字的？

很多人担心：AI怎么在输入框打字？难道要破解系统权限？

答案是：ADB Keyboard。

这是一个特殊的输入法APK，安装后通过ADB命令发送文本，即可实现“无焦点输入”。也就是说，哪怕输入框没被选中，AI也能把文字“塞进去”。这是整个方案能绕过Root权限的关键设计。

3. 环境准备：软硬件清单一览

要让AI代理跑起来，你需要准备好以下几样东西：

3.1 硬件要求

设备	要求
本地电脑	Windows 或 macOS（用于运行控制端）
安卓手机	Android 7.0+，支持USB调试（建议Android 10+真机）
数据线	支持数据传输的USB线（部分充电线仅供电，无法调试）

3.2 软件环境

软件	版本要求
Python	3.10 或以上
ADB 工具	最新版本 platform-tools
Git	用于克隆代码仓库

提示：如果你使用的是Mac，可以通过Homebrew快速安装ADB：
brew install android-platform-tools

4. 手机端设置：开启开发者模式与ADB调试

这一步是关键，很多问题都出在这里。

4.1 开启开发者选项

进入手机「设置」→「关于手机」
连续点击「版本号」7次，直到提示“您已进入开发者模式”

4.2 启用USB调试

返回「设置」→「系统」→「开发者选项」
打开「USB调试」开关
（可选但推荐）开启「USB调试（安全设置）」，避免频繁授权

4.3 安装 ADB Keyboard

下载 ADBKeyboard.apk
将APK文件传到手机并安装
进入「设置」→「语言与输入法」→「默认输入法」
选择「ADB Keyboard」作为当前输入法

重要提醒：如果不切换输入法，AI将无法向任何输入框发送文字，后续所有涉及输入的操作都会失败。

5. 部署控制端：本地运行Open-AutoGLM

现在我们来部署本地控制代码，这是AI代理的大脑所在。

5.1 克隆代码仓库

打开终端，执行以下命令：

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

5.2 安装依赖

建议使用虚拟环境，避免依赖冲突：

python -m venv autoglm-env source autoglm-env/bin/activate # macOS/Linux # 或 autoglm-env\Scripts\activate # Windows

安装依赖包：

pip install -r requirements.txt pip install -e .

说明：pip install -e .表示以开发模式安装，这样你可以直接调用phone_agent模块而无需打包。

6. 连接设备：USB与WiFi两种方式

6.1 USB连接（推荐新手）

用数据线连接手机与电脑
手机弹出“允许USB调试？”时，勾选“始终允许”并确认
终端执行：

adb devices

如果输出类似：

List of devices attached ABCDEF1234567890 device

说明连接成功。

6.2 WiFi无线连接（摆脱数据线）

如果你希望远程控制，可以用WiFi方式：

先用USB连接，执行：

adb tcpip 5555

断开USB线
查看手机IP地址（一般在「设置」→「Wi-Fi」→当前网络详情中）
执行连接：

adb connect 192.168.x.x:5555

再次运行adb devices，应能看到设备在线。

7. 启动AI代理：一句话触发自动化操作

一切就绪，现在让AI接管手机！

7.1 命令行方式运行

在项目根目录下执行：

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://your-cloud-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数说明：

--device-id：通过adb devices获取的设备ID
--base-url：你的云服务器上vLLM服务的地址（需提前部署）
--model：指定模型名称
最后的字符串：你的自然语言指令

注意：如果你没有自建云服务，也可以使用官方提供的测试接口（如有），但生产环境建议私有化部署以保障隐私。

7.2 Python API方式调用（适合集成）

你也可以在自己的脚本中调用：

from phone_agent.adb import ADBConnection from phone_agent.agent import PhoneAgent # 连接设备 conn = ADBConnection() conn.connect("ABCDEF1234567890") # 替换为你的设备ID # 创建AI代理 agent = PhoneAgent( device_id="ABCDEF1234567890", base_url="http://your-server-ip:8800/v1", model="autoglm-phone-9b" ) # 执行任务 result = agent.run("打开微信，进入设置，查看账号信息") print(result)

这种方式便于嵌入到更大的自动化系统中。