当前位置：首页 > news >正文

Open-AutoGLM效果展示：看AI如何一步步完成复杂手机任务

news 2026/3/27 10:11:43

Open-AutoGLM效果展示：看AI如何一步步完成复杂手机任务

1. 引言：当AI学会“看”和“点”

想象一下，你刚拿到一部新手机，或者需要测试一个全新的App。面对满屏的图标和按钮，你需要一步步摸索：点这里、输入文字、滑动屏幕、返回、再点下一个……这个过程既繁琐又耗时。

现在，有个“数字助手”能帮你完成这一切。它不仅能看懂手机屏幕上的内容，还能理解你的自然语言指令，然后像真人一样操作手机。这就是Open-AutoGLM（AutoGLM-Phone）带来的能力。

Open-AutoGLM 是一个开源的手机端AI智能助理框架。它的核心很简单：你说话，它干活。你只需要告诉它“打开小红书搜美食”，它就能自动完成从解锁、找到App、点击搜索框、输入关键词到浏览结果的全过程。

这篇文章不是教程，也不是部署指南，而是一次纯粹的效果展示。我们将通过几个真实的案例，看看这个AI Agent是如何像人类一样，一步步完成那些看似复杂的手机操作任务的。你会发现，AI操作手机，比想象中更智能、更流畅。

2. 核心能力：AI的“眼睛”和“手”

在展示具体效果前，我们先快速了解一下Open-AutoGLM是怎么工作的。你可以把它想象成一个坐在你对面、帮你操作手机的朋友，只不过这个朋友永远不会累，而且非常听话。

它的工作流程是一个清晰的“感知-思考-行动”循环：

感知（看屏幕）：AI通过ADB（一种连接电脑和安卓设备的工具）获取手机当前的屏幕截图和界面结构信息。它不仅能“看到”画面，还能“读懂”屏幕上每个按钮、文本框的文字和位置。
思考（想步骤）：结合你给的指令（比如“订一杯奶茶”）和看到的屏幕内容，AI会在内部规划完成任务需要哪些步骤。是先打开外卖App，还是先搜索店铺？它会像人一样推理。
行动（动手操作）：思考完成后，AI会输出一个具体的操作指令，比如{"action": "Tap", "element": [520, 1800]}，意思是“点击屏幕坐标(520, 1800)的位置”。然后通过ADB执行这个点击动作。
循环：点击后，屏幕内容变了，AI再次“感知”新屏幕，继续“思考”下一步该做什么，直到任务完成为止。

这个框架的强大之处在于，它依赖一个名为AutoGLM-Phone-9B的多模态大模型。这个模型经过训练，能够将视觉（截图）和语言（你的指令、界面文字）信息结合起来理解，从而做出准确的判断。

3. 效果展示一：从零开始，完成一次外卖订购

让我们看一个最贴近生活的场景：用AI帮你点外卖。任务指令是：“打开美团外卖，找一家评分高于4.5的川菜馆，点一份水煮牛肉，用红包后下单”。

AI的执行日志节选如下：

================================================== 💭 思考过程: 用户想点一份水煮牛肉。我需要先打开美团外卖App。 -------------------------------------------------- 🎯 执行动作: 点击屏幕上的“美团外卖”图标。 { "action": "Tap", "element": [ 210, 850 ] } ================================================== （屏幕变化：美团外卖首页打开） 💭 思考过程: App已打开。现在需要找到搜索或美食分类入口。首页顶部有搜索框。 -------------------------------------------------- 🎯 执行动作: 点击顶部的搜索框。 { "action": "Tap", "element": [ 540, 300 ] } ================================================== （屏幕变化：弹出键盘和搜索历史） 💭 思考过程: 搜索框已激活。我需要输入“川菜”。 -------------------------------------------------- 🎯 执行动作: 输入关键词。 { "action": "Type", "text": "川菜" } ================================================== （屏幕变化：显示川菜搜索结果列表） 💭 思考过程: 列表中有多家餐厅。用户要求评分高于4.5。我需要滑动浏览并找到符合要求的店铺。 先检查第一个店铺的评分...评分是4.3，不符合。 -------------------------------------------------- 🎯 执行动作: 向下滑动屏幕，浏览更多店铺。 { "action": "Swipe", "start": [ 500, 1600 ], "end": [ 500, 1000 ] } ================================================== （屏幕变化：列表滚动，出现更多店铺） 💭 思考过程: 找到了“蜀香阁”，评分4.7。符合要求。点击进入店铺。 -------------------------------------------------- 🎯 执行动作: 点击该店铺条目。 { "action": "Tap", "element": [ 540, 950 ] } ================================================== （后续步骤省略... AI成功在店铺内找到“水煮牛肉”，加入购物车，进入结算页，勾选可用红包，最终点击“提交订单”。）

效果分析：

理解复合指令：AI完美解析了“评分高于4.5的川菜馆”这个过滤条件，并在浏览时主动进行判断。
动态规划路径：它没有预设的固定流程，而是根据实时看到的界面（是否有搜索框、列表内容是什么）来决定下一步是点击、输入还是滑动。
处理不确定性：在列表中寻找特定评分的店铺，需要滑动和视觉判断，AI做到了。

整个过程完全自动化，无需任何人工干预。AI像是一个有耐心、眼神好的助手，一步步帮你筛选、点击、完成支付前的所有操作。

4. 效果展示二：信息搜集与整理

第二个场景更体现AI的“理解”能力：信息搜集。指令是：“在微博上搜索‘人工智能大会’，把前三条热门微博的正文内容复制下来”。

这是一个需要“阅读-判断-执行”的多步任务。

AI的执行关键步骤：

启动与搜索：AI成功打开微博，点击发现页的搜索框，输入“人工智能大会”并点击搜索。
切换标签页：在搜索结果页，AI识别到顶部有“综合”、“热门”、“实时”等标签。它通过“思考”判断用户要的是“热门”微博，于是点击了“热门”标签。
定位与复制：
- AI滑动屏幕，确保前三条微博完全显示。
- 它“看到”第一条微博的正文区域，执行长按操作，触发文本选择菜单。
- 在弹出菜单中，AI准确点击了“复制”按钮。
- （这里有一个亮点）由于微博正文可能较长，AI在复制前会先执行一个“向上轻微滑动”的动作，确保要复制的文本段落完全在屏幕可视区域内，避免复制不全。
循环执行：完成第一条的复制后，AI通过“返回”或继续滑动，定位到第二条微博，重复“长按->复制”流程，直到三条全部完成。

展示的价值：这个任务展示了AI对界面元素功能的深度理解。它知道：

“热门”是一个可点击的标签，能过滤内容。
长按文字区域会弹出操作菜单。
菜单中的“复制”按钮能实现文本提取。
如何通过微调视图确保操作对象准确。

这不再是简单的坐标点击，而是基于语义理解的智能交互。AI真正“看懂”了每个UI元素是干什么用的。

5. 效果展示三：跨应用协作任务

最复杂的场景来了：跨应用协作。指令是：“把相册里最新的一张照片，用微信发给文件传输助手”。

这个任务涉及多个应用（相册、微信）和多个步骤（打开相册、选择图片、切换应用、找到联系人、发送）。

让我们看看AI是如何拆解这个“复杂任务”的：

💭 思考过程: 用户需要发送最新照片。第一步是打开相册App。 （执行：点击相册图标） 💭 思考过程: 已进入相册。界面显示很多相册文件夹和照片缩略图。“最新”的照片应该出现在最前面。我看到了一个“最近项目”的相册，封面就是一张新图片，点击它。 （执行：点击“最近项目”相册） 💭 思考过程: 进入了照片列表。最新的一张应该排在第一位。点击这张大图预览。 （执行：点击第一张照片） 💭 思考过程: 照片全屏显示了。现在需要分享。通常右上角或底部有分享按钮。我看到了一个“发送”图标（一个箭头从盒子里出来）。 （执行：点击分享按钮） 💭 思考过程: 弹出了分享面板。列表里有很多App图标。需要找到微信。 （执行：在分享面板中向左滑动，找到并点击微信图标） 💭 思考过程: 微信被唤起，进入了选择聊天对象的界面。需要找到“文件传输助手”。它在列表比较靠上的位置。 （执行：滑动找到并点击“文件传输助手”） 💭 思考过程: 进入了与文件传输助手的聊天窗口，刚才的照片已作为待发送内容出现。点击“发送”按钮。 （执行：点击发送按钮） ✅ 任务完成：照片已发送。

惊艳之处：

状态记忆与传递：AI知道“最新照片”这个目标，并在相册的多个层级界面（主界面->相册列表->大图预览）中始终保持这个目标，直到成功选中它。
应用间切换与上下文保持：从相册分享到微信，这是一个完整的应用跳转。AI不仅成功发起了分享，还在微信被打开后，准确地将“发送照片”这个任务上下文延续了下去，没有丢失。
对通用UI模式的认知：AI知道“分享功能通常由箭头图标表示”、“微信在分享面板中是一个绿色图标”、“文件传输助手是一个特殊的聊天对象”。这些常识让它能快速定位目标。

这个案例充分证明，Open-AutoGLM能够处理需要多个步骤、跨越不同应用、依赖常见交互模式的复杂任务。它展现出的，是一种接近人类的、基于目标的任务分解和执行能力。

6. 边界与可靠性：AI也不是万能的

当然，AI Agent也有它的边界。在测试中，我们发现它在以下场景会表现得非常“谨慎”或需要帮助：

安全敏感界面：当操作涉及到支付密码输入、银行App登录、系统权限授予等界面时，AI通常会主动输出一个{"action": "Take_over"}的指令，意思是“这里需要人工接管”。这是一种安全设计，防止自动操作带来风险。
极度非标准的UI：对于一些设计非常独特、控件完全自定义的App界面，如果模型从未见过类似元素，可能会犹豫或做出错误判断。不过，对于主流App的标准组件，它的识别准确率非常高。
需要主观判断的任务：比如“找一张好看的照片当壁纸”，什么是“好看”？这种主观性极强的指令，AI目前还难以完美处理，它更擅长执行目标明确、步骤可分解的指令。

从可靠性角度看，在目标清晰、界面规范的日常操作中，Open-AutoGLM的成功率非常高。它的“思考”日志让整个过程透明可控，你可以随时知道它下一步想做什么，以及为什么这么做。

7. 总结

通过以上三个效果展示，我们可以看到Open-AutoGLM所带来的可能性：

它像人一样操作：不是基于死板的坐标脚本，而是基于对屏幕内容的实时理解和推理。
它能处理复杂流程：从简单的打开App，到需要条件判断的信息筛选，再到跨应用的协作任务，它都能一步步拆解并完成。
它的潜力巨大：除了文中展示的日常助手场景，它更是一个强大的自动化测试工具。想象一下，让这个AI 7x24小时不间断地测试你的App，执行各种用户操作路径，自动报告Bug，这将极大提升开发和测试的效率。

Open-AutoGLM的效果告诉我们，AI对物理世界（这里是数字世界）的交互能力正在快速进化。从“能说会道”到“能看会做”，我们正迎来一个AI不仅能回答问题，更能主动帮我们完成任务的崭新阶段。下一次当你觉得手机操作繁琐时，或许可以期待一下，有个AI助手已经准备好为你代劳了。