当前位置：首页 > news >正文

实测Open-AutoGLM：AI自动搜索、关注、收藏，解放你的双手

news 2026/3/27 4:57:11

实测Open-AutoGLM：AI自动搜索、关注、收藏，解放你的双手

1. 前言：当AI学会“刷”手机

想象一下这个场景：你正忙着工作，突然想起要在小红书上收藏几篇周末露营的攻略，或者需要在抖音上关注某个新发现的宝藏博主。通常，你需要解锁手机、打开App、搜索、滑动、点击……一套流程下来，几分钟就过去了。但如果告诉你，现在只需要对电脑说一句话，AI就能像真人一样，拿起你的手机，精准地完成所有操作，你会不会觉得不可思议？

这不是科幻电影，而是今天我们要实测的Open-AutoGLM。它是一个由智谱开源的手机端AI智能助理框架。简单来说，它让大模型长出了“眼睛”和“手”——“眼睛”是视觉语言模型，能看懂手机屏幕上的按钮、文字和图片；“手”是ADB（安卓调试桥），能模拟点击、滑动、输入等操作。

你只需要用最自然的语言下达指令，比如“打开小红书搜美食，收藏点赞最多的三篇笔记”，剩下的就交给AI。它不仅能理解你的复杂意图，还能规划出一系列操作步骤，并自动执行。本文将带你从零开始，实测这套系统的完整流程，看看它到底能不能真正解放我们的双手。

2. 核心揭秘：AI Agent如何操控你的手机？

在动手之前，我们先拆解一下Open-AutoGLM（或称AutoGLM-Phone）的工作原理。它的工作流程是一个经典的“感知-决策-执行”循环，但每一步都充满了智能。

2.1 第一步：看见屏幕（视觉感知）

一切始于一张截图。当你下达指令后，系统会通过ADB命令，立刻抓取当前手机屏幕的完整画面。这张截图，就是AI的“视野”。它看到的不是一堆代码，而是和你肉眼所见一模一样的界面：图标的位置、按钮的颜色、输入框里的提示文字、甚至图片的缩略图。

2.2 第二步：理解意图（多模态分析）

接下来，截图和你输入的自然语言指令，会被一起打包发送给云端的大模型（如autoglm-phone-9b）。这个模型是核心大脑，它同时处理图像和文本信息：

图像理解：识别屏幕中的UI元素。哪里是“搜索框”？那个红色图标是不是“收藏按钮”？这篇笔记的标题文字是什么？
意图解析：结合你的指令，理解最终目标。例如，“关注抖音号 dycwo11nt61d 的博主”意味着需要先打开抖音，然后进入搜索，输入ID，找到用户主页，最后点击关注按钮。

2.3 第三步：规划行动（任务分解）

理解了“在哪”和“要干嘛”之后，AI会进行逻辑规划。它会将一个大任务拆解成一系列原子操作，形成一个行动链。例如：

tap(500, 1200)：点击屏幕坐标(500, 1200)处的“抖音”图标。
tap(900, 200)：点击顶部的搜索框。
input_text(“dycwo11nt61d”)：通过ADB键盘输入抖音号。
tap(300, 600)：点击搜索结果中的用户头像。
tap(700, 1800)：点击用户主页的“关注”按钮。

2.4 第四步：执行操作（ADB控制）

规划好的操作指令通过ADB发送到手机。ADB就像是一个遥控器，可以精确地模拟所有触摸屏操作。系统会依次执行点击、输入、滑动等动作，并在此过程中持续截图，观察每一步操作后的界面变化，确保任务按预期进行。整个过程完全自动化，但系统也设计了安全机制，在遇到登录、支付等敏感界面时会暂停，等待人工确认。

3. 环境准备：连接你的手机与AI大脑

要让这套系统跑起来，我们需要搭建一个桥梁：一边是你的安卓手机，另一边是运行在电脑上的控制程序（连接云端AI）。以下是详细的准备清单和步骤。

3.1 硬件与软件清单

电脑：Windows 10/11 或 macOS。对性能要求极低，能流畅运行Python即可。
手机：安卓7.0及以上版本的真实手机（推荐）。安卓模拟器（如夜神、雷电）也可行，但可能遇到兼容性问题。
数据线：用于初始USB连接和调试。
软件：
- Python 3.10 或更高版本。
- ADB工具包（Android Debug Bridge）。
- Open-AutoGLM项目代码。

3.2 配置ADB连接（关键步骤）

ADB是连接电脑和手机的“数据线”。首先，去安卓开发者官网下载独立的“Platform-Tools”工具包。

Windows用户配置步骤：

解压下载的platform-tools文件夹，比如放到C:\adb_tools。
右键点击“此电脑” -> “属性” -> “高级系统设置” -> “环境变量”。
在“系统变量”中找到Path，点击“编辑”。
点击“新建”，将你的ADB路径（如C:\adb_tools）添加进去。
打开命令提示符（CMD）或 PowerShell，输入adb version。如果显示版本号，说明配置成功。

macOS/Linux用户配置步骤：

解压工具包，假设放在~/Downloads/platform-tools。
打开终端，输入以下命令（临时生效）：
```
export PATH=$PATH:~/Downloads/platform-tools
```
为了永久生效，可以将上面这行命令添加到~/.zshrc或~/.bash_profile文件的末尾，然后执行source ~/.zshrc。

3.3 手机端设置（开启调试权限）

开启开发者模式：进入手机“设置” -> “关于手机”，连续点击“版本号”7次，直到出现“您已处于开发者模式”的提示。
启用USB调试：返回设置，找到新出现的“开发者选项”，进入并开启“USB调试”。
安装ADB键盘（关键！）：AI需要通过这个特殊的输入法来打字。
- 下载 ADBKeyboard.apk。
- 将手机用USB连接电脑，在电脑终端执行：
```
adb install /path/to/ADBKeyboard.apk
```
- 安装后，在手机“设置” -> “系统” -> “语言与输入法” -> “虚拟键盘”中，将“ADB Keyboard”设为默认输入法。

完成以上步骤后，在电脑终端运行adb devices。如果看到一串设备ID后面跟着device字样，恭喜你，手机和电脑的桥梁已经搭好了。

4. 实战部署：让AI开始接管

环境就绪，现在让我们把控制程序部署到本地电脑上。

4.1 获取项目代码并安装依赖

打开电脑终端，执行以下命令：

# 1. 克隆智谱开源的Open-AutoGLM仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. （强烈推荐）创建Python虚拟环境，避免依赖冲突 python -m venv venv # Windows激活: venv\Scripts\activate # macOS/Linux激活: source venv/bin/activate # 3. 安装所有必需的Python库 pip install -r requirements.txt # 4. 以可编辑模式安装本项目 pip install -e .

4.2 两种连接方式：有线与无线

方式一：USB直连（最稳定）用数据线连接手机和电脑，运行adb devices确认连接。在后续命令中，--device-id参数就填写这里显示的设备ID。

方式二：WiFi无线连接（更灵活）先通过USB连接一次进行初始化：

adb tcpip 5555

这条命令让手机在5555端口监听TCP/IP连接。然后拔掉数据线，确保手机和电脑在同一个WiFi下。在手机上查看IP地址（通常在“设置”->“关于手机”->“状态信息”里），然后执行：

adb connect 192.168.1.100:5555 # 将IP替换为你手机的IP

连接成功后，你就可以摆脱数据线的束缚了。

4.3 启动AI代理，下达第一个指令

一切准备就绪，是时候给AI下命令了。我们以最直接的命令行方式开始。假设你已经通过智谱AI开放平台申请了API Key（模型服务需自行部署或使用云端API，此处以调用本地/远程部署的服务为例）。

在项目根目录下，运行如下命令：

python main.py \ --device-id <你的设备ID，如 192.168.1.100:5555> \ --base-url http://<你的模型服务IP>:<端口>/v1 \ --model "autoglm-phone-9b" \ "打开抖音，搜索抖音号为‘dycwo11nt61d’的博主，并关注他！"

参数解释：

--device-id：就是adb devices列出的那个ID。
--base-url：你部署的视觉语言模型API的服务地址。如果你使用智谱的云端API，格式类似https://open.bigmodel.cn/api/paas/v4。
--model：指定使用的模型名称。
最后的字符串：就是你用自然语言写的“任务清单”。

按下回车，见证奇迹的时刻就到了。你会看到终端开始滚动日志，同时你的手机屏幕会自己亮起，抖音App被打开，搜索框被点击，ID被输入，页面滑动，最终点击关注。整个过程行云流水，宛如一个隐形助手在操作。

5. 效果实测：复杂任务挑战

为了全面测试它的能力，我设计了几个从简单到复杂的真实场景任务。

5.1 任务一：跨App信息收集（小红书 -> 备忘录）

指令：“打开小红书，搜索‘办公室健身操’，将点赞最高的视频标题和作者名，记录到手机备忘录里。”AI执行流程：

解锁手机，找到并打开小红书App。
点击顶部搜索框，输入“办公室健身操”。
在搜索结果页切换至“视频”标签。
滑动浏览，识别出点赞数最高的视频（通过分析界面上的点赞数文本）。
长按标题文本，选择“复制”。
退出小红书，打开系统“备忘录”App。
新建笔记，粘贴标题，并手动格式化为“标题：xxx 作者：xxx”。实测结果：成功。AI准确识别了点赞数，并完成了跨App的复制粘贴操作。复制作者名时因UI结构略有不同失败一次，但重试后成功。

5.2 任务二：电商平台比价

指令：“打开淘宝，搜索‘无线蓝牙耳机’，按销量排序，告诉我前三名产品的标题和价格。”AI执行流程：

打开淘宝，点击搜索框。
输入“无线蓝牙耳机”，点击搜索。
点击筛选或排序按钮（需要识别具体位置），选择“销量最高”。
滑动页面，截取前三名商品的信息区域。
通过模型分析截图，提取商品标题和价格文本。
在终端或日志中输出结构化信息。实测结果：部分成功。AI能成功完成搜索、排序、滑动浏览。但在“告诉我”这个需要口头或文本反馈的指令上，标准流程主要驱动UI操作，额外的信息提取和反馈能力取决于模型的多轮对话和指令跟随的深度。这展示了当前技术的边界：长于执行，短于复杂的认知总结与主动报告。

5.3 任务三：内容创作与发布（模拟）

指令：“打开相册，选择最新的一张风景照片，用醒图App添加‘春日漫步’滤镜和文字水印，然后分享到微信朋友圈（仅完成到发布页面）。”AI执行流程：

打开系统相册App。
识别并点击最新的一张图片。
点击“编辑”或“更多”按钮，选择“用其他应用打开”。
在应用选择列表中，找到并点击“醒图”。
在醒图内，寻找滤镜功能，在列表中识别并选择“春日漫步”滤镜。
寻找文字工具，输入“春日漫步”并调整位置。
点击保存/完成。
通过系统分享菜单，找到“微信朋友圈”图标并点击，进入发布页面后停止（等待人工确认）。实测结果：这是一个高阶任务，对模型的视觉识别和跨应用操作规划能力要求极高。实测中，AI在步骤3（选择其他应用）和步骤5（在复杂滤镜列表中精确选择）上遇到了挑战，因为不同手机的UI差异很大。这体现了AI Agent在面对高度非标准化界面时的局限性。

6. 优势、局限与实用建议

通过一系列实测，Open-AutoGLM的优势和当前阶段的局限都非常明显。

核心优势：

真正的自动化：超越了简单的宏录制，能基于视觉理解动态应对界面变化。
自然语言交互：无需学习编程或脚本，用说话的方式指挥手机。
解放双手：非常适合处理重复、繁琐的手机操作任务。
强大的可扩展性：理论上可以操作任何安卓应用，潜力巨大。

当前局限与注意事项：

依赖界面稳定性：如果App的UI频繁改版或设计独特，AI可能“找不到”按钮。
处理速度：截图、上传、模型推理、指令返回需要时间，比人手操作慢。
网络依赖：如果使用云端模型，需要稳定的网络连接。
安全边界：涉及支付、密码等敏感操作，务必依赖其内置的暂停机制，或避免自动化。

给新手的实用建议：

从简单指令开始：先尝试“打开某App”、“搜索某关键词”等单步任务，再尝试复杂流程。
保持界面简洁：执行任务时，尽量关闭无关通知，避免弹窗干扰AI“视线”。
使用无线连接：ADB WiFi连接更灵活，但首次设置后，注意手机IP地址不能变。
指令尽可能明确：“打开抖音关注用户A”比“在抖音上关注A”更好。避免歧义。
耐心是关键：给AI足够的时间反应，每一步操作后它都需要时间“观察”屏幕变化。

7. 总结

实测Open-AutoGLM的过程，就像是在亲眼目睹一个数字生命的雏形。它不再仅仅是聊天或生成文本，而是走进了物理世界（ albeit a digital one ），通过“看”和“点”来与我们熟悉的数字环境互动。虽然它在面对复杂、多变的真实应用场景时还会“犯懵”，执行速度也谈不上快，但这条技术路径所揭示的未来是清晰的：AI将越来越擅长接管那些规则明确、重复性高的数字劳动。

对于普通用户来说，它可能是一个帮你自动签到、收藏、整理内容的懒人神器。对于开发者而言，它是一个强大的自动化测试和RPA（机器人流程自动化）原型工具。更重要的是，它以一种非常直观的方式，让我们看到了多模态大模型与具身智能结合的可能性。

技术仍在快速演进，今天的玩具，或许就是明天生产力的核心。现在，你可以亲手搭建并体验它，感受一下让AI替你“刷”手机的奇妙感觉了。