Open-AutoGLM效果展示:看AI如何一步步完成复杂手机任务
Open-AutoGLM效果展示:看AI如何一步步完成复杂手机任务
1. 引言:当AI学会“看”和“点”
想象一下,你刚拿到一部新手机,或者需要测试一个全新的App。面对满屏的图标和按钮,你需要一步步摸索:点这里、输入文字、滑动屏幕、返回、再点下一个……这个过程既繁琐又耗时。
现在,有个“数字助手”能帮你完成这一切。它不仅能看懂手机屏幕上的内容,还能理解你的自然语言指令,然后像真人一样操作手机。这就是Open-AutoGLM(AutoGLM-Phone)带来的能力。
Open-AutoGLM 是一个开源的手机端AI智能助理框架。它的核心很简单:你说话,它干活。你只需要告诉它“打开小红书搜美食”,它就能自动完成从解锁、找到App、点击搜索框、输入关键词到浏览结果的全过程。
这篇文章不是教程,也不是部署指南,而是一次纯粹的效果展示。我们将通过几个真实的案例,看看这个AI Agent是如何像人类一样,一步步完成那些看似复杂的手机操作任务的。你会发现,AI操作手机,比想象中更智能、更流畅。
2. 核心能力:AI的“眼睛”和“手”
在展示具体效果前,我们先快速了解一下Open-AutoGLM是怎么工作的。你可以把它想象成一个坐在你对面、帮你操作手机的朋友,只不过这个朋友永远不会累,而且非常听话。
它的工作流程是一个清晰的“感知-思考-行动”循环:
- 感知(看屏幕):AI通过ADB(一种连接电脑和安卓设备的工具)获取手机当前的屏幕截图和界面结构信息。它不仅能“看到”画面,还能“读懂”屏幕上每个按钮、文本框的文字和位置。
- 思考(想步骤):结合你给的指令(比如“订一杯奶茶”)和看到的屏幕内容,AI会在内部规划完成任务需要哪些步骤。是先打开外卖App,还是先搜索店铺?它会像人一样推理。
- 行动(动手操作):思考完成后,AI会输出一个具体的操作指令,比如
{"action": "Tap", "element": [520, 1800]},意思是“点击屏幕坐标(520, 1800)的位置”。然后通过ADB执行这个点击动作。 - 循环:点击后,屏幕内容变了,AI再次“感知”新屏幕,继续“思考”下一步该做什么,直到任务完成为止。
这个框架的强大之处在于,它依赖一个名为AutoGLM-Phone-9B的多模态大模型。这个模型经过训练,能够将视觉(截图)和语言(你的指令、界面文字)信息结合起来理解,从而做出准确的判断。
3. 效果展示一:从零开始,完成一次外卖订购
让我们看一个最贴近生活的场景:用AI帮你点外卖。任务指令是:“打开美团外卖,找一家评分高于4.5的川菜馆,点一份水煮牛肉,用红包后下单”。
AI的执行日志节选如下:
================================================== 💭 思考过程: 用户想点一份水煮牛肉。我需要先打开美团外卖App。 -------------------------------------------------- 🎯 执行动作: 点击屏幕上的“美团外卖”图标。 { "action": "Tap", "element": [ 210, 850 ] } ================================================== (屏幕变化:美团外卖首页打开) 💭 思考过程: App已打开。现在需要找到搜索或美食分类入口。首页顶部有搜索框。 -------------------------------------------------- 🎯 执行动作: 点击顶部的搜索框。 { "action": "Tap", "element": [ 540, 300 ] } ================================================== (屏幕变化:弹出键盘和搜索历史) 💭 思考过程: 搜索框已激活。我需要输入“川菜”。 -------------------------------------------------- 🎯 执行动作: 输入关键词。 { "action": "Type", "text": "川菜" } ================================================== (屏幕变化:显示川菜搜索结果列表) 💭 思考过程: 列表中有多家餐厅。用户要求评分高于4.5。我需要滑动浏览并找到符合要求的店铺。 先检查第一个店铺的评分...评分是4.3,不符合。 -------------------------------------------------- 🎯 执行动作: 向下滑动屏幕,浏览更多店铺。 { "action": "Swipe", "start": [ 500, 1600 ], "end": [ 500, 1000 ] } ================================================== (屏幕变化:列表滚动,出现更多店铺) 💭 思考过程: 找到了“蜀香阁”,评分4.7。符合要求。点击进入店铺。 -------------------------------------------------- 🎯 执行动作: 点击该店铺条目。 { "action": "Tap", "element": [ 540, 950 ] } ================================================== (后续步骤省略... AI成功在店铺内找到“水煮牛肉”,加入购物车,进入结算页,勾选可用红包,最终点击“提交订单”。)效果分析:
- 理解复合指令:AI完美解析了“评分高于4.5的川菜馆”这个过滤条件,并在浏览时主动进行判断。
- 动态规划路径:它没有预设的固定流程,而是根据实时看到的界面(是否有搜索框、列表内容是什么)来决定下一步是点击、输入还是滑动。
- 处理不确定性:在列表中寻找特定评分的店铺,需要滑动和视觉判断,AI做到了。
整个过程完全自动化,无需任何人工干预。AI像是一个有耐心、眼神好的助手,一步步帮你筛选、点击、完成支付前的所有操作。
4. 效果展示二:信息搜集与整理
第二个场景更体现AI的“理解”能力:信息搜集。指令是:“在微博上搜索‘人工智能大会’,把前三条热门微博的正文内容复制下来”。
这是一个需要“阅读-判断-执行”的多步任务。
AI的执行关键步骤:
- 启动与搜索:AI成功打开微博,点击发现页的搜索框,输入“人工智能大会”并点击搜索。
- 切换标签页:在搜索结果页,AI识别到顶部有“综合”、“热门”、“实时”等标签。它通过“思考”判断用户要的是“热门”微博,于是点击了“热门”标签。
- 定位与复制:
- AI滑动屏幕,确保前三条微博完全显示。
- 它“看到”第一条微博的正文区域,执行长按操作,触发文本选择菜单。
- 在弹出菜单中,AI准确点击了“复制”按钮。
- (这里有一个亮点)由于微博正文可能较长,AI在复制前会先执行一个“向上轻微滑动”的动作,确保要复制的文本段落完全在屏幕可视区域内,避免复制不全。
- 循环执行:完成第一条的复制后,AI通过“返回”或继续滑动,定位到第二条微博,重复“长按->复制”流程,直到三条全部完成。
展示的价值:这个任务展示了AI对界面元素功能的深度理解。它知道:
- “热门”是一个可点击的标签,能过滤内容。
- 长按文字区域会弹出操作菜单。
- 菜单中的“复制”按钮能实现文本提取。
- 如何通过微调视图确保操作对象准确。
这不再是简单的坐标点击,而是基于语义理解的智能交互。AI真正“看懂”了每个UI元素是干什么用的。
5. 效果展示三:跨应用协作任务
最复杂的场景来了:跨应用协作。指令是:“把相册里最新的一张照片,用微信发给文件传输助手”。
这个任务涉及多个应用(相册、微信)和多个步骤(打开相册、选择图片、切换应用、找到联系人、发送)。
让我们看看AI是如何拆解这个“复杂任务”的:
💭 思考过程: 用户需要发送最新照片。第一步是打开相册App。 (执行:点击相册图标) 💭 思考过程: 已进入相册。界面显示很多相册文件夹和照片缩略图。“最新”的照片应该出现在最前面。我看到了一个“最近项目”的相册,封面就是一张新图片,点击它。 (执行:点击“最近项目”相册) 💭 思考过程: 进入了照片列表。最新的一张应该排在第一位。点击这张大图预览。 (执行:点击第一张照片) 💭 思考过程: 照片全屏显示了。现在需要分享。通常右上角或底部有分享按钮。我看到了一个“发送”图标(一个箭头从盒子里出来)。 (执行:点击分享按钮) 💭 思考过程: 弹出了分享面板。列表里有很多App图标。需要找到微信。 (执行:在分享面板中向左滑动,找到并点击微信图标) 💭 思考过程: 微信被唤起,进入了选择聊天对象的界面。需要找到“文件传输助手”。它在列表比较靠上的位置。 (执行:滑动找到并点击“文件传输助手”) 💭 思考过程: 进入了与文件传输助手的聊天窗口,刚才的照片已作为待发送内容出现。点击“发送”按钮。 (执行:点击发送按钮) ✅ 任务完成:照片已发送。惊艳之处:
- 状态记忆与传递:AI知道“最新照片”这个目标,并在相册的多个层级界面(主界面->相册列表->大图预览)中始终保持这个目标,直到成功选中它。
- 应用间切换与上下文保持:从相册分享到微信,这是一个完整的应用跳转。AI不仅成功发起了分享,还在微信被打开后,准确地将“发送照片”这个任务上下文延续了下去,没有丢失。
- 对通用UI模式的认知:AI知道“分享功能通常由箭头图标表示”、“微信在分享面板中是一个绿色图标”、“文件传输助手是一个特殊的聊天对象”。这些常识让它能快速定位目标。
这个案例充分证明,Open-AutoGLM能够处理需要多个步骤、跨越不同应用、依赖常见交互模式的复杂任务。它展现出的,是一种接近人类的、基于目标的任务分解和执行能力。
6. 边界与可靠性:AI也不是万能的
当然,AI Agent也有它的边界。在测试中,我们发现它在以下场景会表现得非常“谨慎”或需要帮助:
- 安全敏感界面:当操作涉及到支付密码输入、银行App登录、系统权限授予等界面时,AI通常会主动输出一个
{"action": "Take_over"}的指令,意思是“这里需要人工接管”。这是一种安全设计,防止自动操作带来风险。 - 极度非标准的UI:对于一些设计非常独特、控件完全自定义的App界面,如果模型从未见过类似元素,可能会犹豫或做出错误判断。不过,对于主流App的标准组件,它的识别准确率非常高。
- 需要主观判断的任务:比如“找一张好看的照片当壁纸”,什么是“好看”?这种主观性极强的指令,AI目前还难以完美处理,它更擅长执行目标明确、步骤可分解的指令。
从可靠性角度看,在目标清晰、界面规范的日常操作中,Open-AutoGLM的成功率非常高。它的“思考”日志让整个过程透明可控,你可以随时知道它下一步想做什么,以及为什么这么做。
7. 总结
通过以上三个效果展示,我们可以看到Open-AutoGLM所带来的可能性:
- 它像人一样操作:不是基于死板的坐标脚本,而是基于对屏幕内容的实时理解和推理。
- 它能处理复杂流程:从简单的打开App,到需要条件判断的信息筛选,再到跨应用的协作任务,它都能一步步拆解并完成。
- 它的潜力巨大:除了文中展示的日常助手场景,它更是一个强大的自动化测试工具。想象一下,让这个AI 7x24小时不间断地测试你的App,执行各种用户操作路径,自动报告Bug,这将极大提升开发和测试的效率。
Open-AutoGLM的效果告诉我们,AI对物理世界(这里是数字世界)的交互能力正在快速进化。从“能说会道”到“能看会做”,我们正迎来一个AI不仅能回答问题,更能主动帮我们完成任务的崭新阶段。下一次当你觉得手机操作繁琐时,或许可以期待一下,有个AI助手已经准备好为你代劳了。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
