当前位置：首页 > news >正文

开发者必看：Open-AutoGLM本地环境部署与真机连接实操手册

news 2026/7/12 4:59:59

开发者必看：Open-AutoGLM本地环境部署与真机连接实操手册

1. 引言

1.1 Open-AutoGLM – 智谱开源的手机端AI Agent框架

随着多模态大模型技术的快速发展，AI智能体（Agent）正逐步从“被动响应”向“主动执行”演进。Open-AutoGLM 是由智谱AI开源的一款面向移动端的AI代理框架，基于视觉语言模型（VLM）构建，专为实现自然语言驱动的手机自动化操作而设计。该框架允许开发者通过简单的自然语言指令，让AI自动理解手机屏幕内容、解析用户意图，并借助ADB完成一系列复杂操作，如应用启动、页面跳转、搜索关注等。

其核心组件 AutoGLM-Phone 和 Phone Agent 构成了完整的手机端AI助理系统。系统以多模态方式感知屏幕图像与UI元素，结合语言理解能力进行任务规划，并通过Android Debug Bridge（ADB）实现对设备的精准控制。整个流程无需手动干预，真正实现了“说一句话，让AI帮你操作手机”。

1.2 核心价值与应用场景

Open-AutoGLM 的最大优势在于降低移动自动化门槛。传统自动化脚本依赖复杂的XPath或坐标定位，开发成本高且维护困难。而该框架通过语义理解+视觉识别的方式，使非专业用户也能轻松定义自动化任务。

典型应用场景包括：

自动化测试：快速验证App在不同状态下的行为逻辑
数据采集：定时打开App抓取信息
用户辅助：帮助老年人或残障人士完成高频操作
营销自动化：批量执行关注、点赞、评论等社交动作（需合规使用）

本文将聚焦于如何在本地环境中部署 Open-AutoGLM 控制端，并实现与真实安卓设备的连接与远程操控，提供一套完整可落地的技术实践路径。

2. 环境准备与依赖配置

2.1 硬件与软件要求

为确保 Open-AutoGLM 正常运行，需满足以下基础环境条件：

类别	要求
操作系统	Windows 10+/macOS Monterey 及以上
Python 版本	3.10 或更高版本
安卓设备	Android 7.0+ 真机或模拟器
ADB 工具	platform-tools 最新版本
网络环境	设备与电脑处于同一局域网（WiFi模式）

注意：建议使用独立显卡（NVIDIA GPU）用于后续服务端模型推理，本地控制端仅负责调度和通信。

2.2 Python环境搭建

推荐使用虚拟环境隔离项目依赖：

# 创建虚拟环境 python -m venv autoglm-env source autoglm-env/bin/activate # macOS/Linux # 或 autoglm-env\Scripts\activate.bat （Windows） # 升级pip pip install --upgrade pip

2.3 ADB工具安装与配置

ADB（Android Debug Bridge）是连接PC与安卓设备的核心工具，属于 Google 提供的 Android SDK Platform Tools 组件。

Windows 配置步骤：

下载 Platform Tools 并解压。
使用Win + R输入sysdm.cpl打开系统属性。
进入“高级” → “环境变量”。
在“系统变量”中找到Path，点击编辑并添加 ADB 解压目录路径（如C:\platform-tools）。
打开命令行输入adb version，若显示版本号则表示配置成功。

macOS 配置方法：

在终端执行以下命令（假设文件解压至 Downloads 目录）：

export PATH=${PATH}:~/Downloads/platform-tools # 可选：写入 shell 配置文件永久生效 echo 'export PATH=${PATH}:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

验证命令：

adb version # 输出示例：Android Debug Bridge version 1.0.41

3. 手机端设置与权限授权

3.1 开启开发者选项与USB调试

进入手机“设置” → “关于手机”。
连续点击“版本号”7次，直到提示“您已进入开发者模式”。
返回设置主界面，进入“开发者选项”。
启用“USB调试”功能。
授权提示出现时，请点击“允许”以完成绑定。

3.2 安装ADB Keyboard输入法

由于部分操作涉及文本输入（如搜索框），但标准ADB无法直接调用第三方输入法，因此需要安装专用的ADB Keyboard来实现无触摸输入。

操作步骤如下：

访问 ADB Keyboard GitHub Release 页面下载最新.apk文件。
将APK传输到手机并安装。
进入“设置” → “语言与输入法” → “当前输入法”。
选择“ADB Keyboard”作为默认输入法。

验证方式：在任意输入框长按，选择“输入法”切换为 ADB Keyboard。

4. 控制端代码部署与依赖安装

4.1 克隆项目仓库

Open-AutoGLM 的控制端代码托管于 GitHub，包含完整的API封装与CLI入口：

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装Python依赖

项目依赖主要分为三类：

ADB通信库（如adb-shell）
多模态数据处理（Pillow, opencv-python）
HTTP客户端与日志工具

执行安装命令：

pip install -r requirements.txt pip install -e . # 安装本地包 phone_agent 模块

若遇到cv2安装失败，可尝试使用预编译版本：
pip install opencv-python-headless

5. 设备连接方式详解

5.1 USB连接模式（推荐初学者）

最稳定的方式是通过USB线直连设备。

使用数据线连接手机与电脑。
手机弹出“允许USB调试？”对话框时，勾选“始终允许”并确认。
在终端运行：

adb devices

预期输出：

List of devices attached ABCDEF1234567890 device

其中ABCDEF1234567890即为设备ID，后续将用于参数传递。

5.2 WiFi无线连接模式（支持远程调试）

适用于远程开发、多设备管理场景。需先通过USB激活TCP/IP模式。

步骤一：启用ADB over TCP/IP

# 使用USB连接后执行 adb tcpip 5555

此命令将ADB监听端口设为5555，设备重启前有效。

步骤二：断开USB，通过IP连接

获取手机局域网IP地址（可在“设置”→“WLAN”中查看），例如192.168.1.100：

adb connect 192.168.1.100:5555

再次运行adb devices应能看到IP形式的设备列表：

List of devices attached 192.168.1.100:5555 device

提示：可通过脚本自动获取设备IP：
adb shell ip route | awk '{print $9}'

6. 启动AI代理并执行指令

6.1 命令行方式运行任务

当服务端模型已部署（假设运行在云服务器10.20.30.40:8800上），即可通过本地控制端发起请求。

执行示例指令：

python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://10.20.30.40:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数说明：

--device-id：目标设备标识，支持序列号或IP:端口格式
--base-url：vLLM或FastChat后端提供的OpenAI兼容接口地址
--model：指定调用的模型名称，需与服务端注册名一致
最后字符串：用户的自然语言指令，支持中文复杂句式

系统工作流如下：

截取当前手机屏幕 → 编码为Base64图像
构造多模态Prompt（图像+文本）发送至服务端
模型返回结构化Action（如CLICK、INPUT、SCROLL）
ADB执行对应操作 → 循环直至任务完成

6.2 使用Python API进行程序化控制

对于集成到其他系统的开发者，可直接调用phone_agent.adb模块实现更细粒度的控制。

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备IP（用于WiFi连接） ip = conn.get_device_ip() print(f"设备当前IP: {ip}") # 启用TCP/IP模式（替代 adb tcpip 命令） success, msg = conn.enable_tcpip(5555) if success: print("TCP/IP模式已启用") # 断开指定设备 conn.disconnect("192.168.1.100:5555")

该API支持：

多设备并发管理
自动重连机制
屏幕截图获取
输入事件注入（KEYCODE、TOUCH）

7. 常见问题与排查指南

7.1 ADB连接失败

现象	可能原因	解决方案
`unauthorized`	未授权调试	重新插拔USB，确认授权弹窗
`offline`	ADB守护进程异常	重启ADB服务：`adb kill-server && adb start-server`
`connection refused`	端口未开放	检查防火墙设置，确认5555端口放行

7.2 模型无响应或乱码

此类问题通常出现在服务端侧，但也可能因客户端参数不匹配导致。

检查点：

确认--base-url地址可达（可用curl测试）
检查服务端是否启用 CORS 和/v1/chat/completions接口
查看模型加载日志是否存在OOM错误
确保max_model_len设置足够大（建议 ≥ 8192）

示例vLLM启动命令参考：

python -m vllm.entrypoints.openai.api_server \ --host 0.0.0.0 --port 8800 \ --model ZhipuAI/autoglm-phone-9b \ --tensor-parallel-size 2 \ --max-model-len 8192