当前位置: 首页 > news >正文

AutoGLMPhone01-项目运行

智谱AI-OpenAutoGLM-开源的手机智能体

针对智谱AI-AutoGLM-开源的手机智能体,整理部署步骤


1-思路整理

  • 1)先把手机和电脑的连接软件安装上【ADB(电脑安装)】+【ADBKeyboard(手机安装)】
  • 2)然后手机打开调试模式->这个电脑的应用就可以直接操作手机
  • 3)配置智谱AI-AutoGLM-开源的手机智能体的模型(模型地址/模型)
  • 4)运行智谱AI-AutoGLM-开源的手机智能体代码->直接操作手机

2-参考网址

  • 智谱AI-AutoGLM-开源的手机智能体代码:https://gitee.com/enzoism/Open-AutoGLM
  • 智谱AI-AutoGLM-开源的手机智能体模型-Phone-9B:https://ai.gitcode.com/zai-org/AutoGLM-Phone-9B
  • AutoGLM: Autonomous Foundation Agents for GUIs论文:https://arxiv.org/pdf/2411.00820
  • Android手机桥接软件ADB(电脑安装-已验证):https://dl.google.com/android/repository/platform-tools-latest-darwin.zip
  • Android手机桥接软件ADBKeyboard(手机安装-已验证):https://gitee.com/enzoism/ADBKeyBoard
  • Google 提供官方的adb/fastboot独立工具包[Win/macOS/Linux]:https://blog.csdn.net/OpenStack_/article/details/87368289
  • adb下载安装及使用教程:https://blog.csdn.net/mowang_hongci/article/details/136358631

3-动手实操

1-安装ADB

# 1-进行代码clone(base)MacBook-Pro:20251216_1_GLM_Phone rong$gitclone https://gitee.com/enzoism/Open-AutoGLM.git Cloning into'Open-AutoGLM'... remote: Enumerating objects:299, done. remote: Counting objects:100%(299/299), done. remote: Compressing objects:100%(147/147), done. remote: Total299(delta152), reused299(delta152), pack-reused0(from0)Receiving objects:100%(299/299),2.58MiB|1008.00KiB/s, done. Resolving deltas:100%(152/152), done.# 2-安装ADB(配置环境变量)(base)MacBook-Pro:20251216_1_GLM_Phone rong$exportPATH=${PATH}:~/Downloads/platform-tools(base)MacBook-Pro:20251216_1_GLM_Phone rong$ adb --version Android Debug Bridge version1.0.41 Version33.0.2-8557947 Installed as /usr/local/bin/adb# 3-查看ADB上连接的设备(当前未连接)(base)MacBook-Pro:20251216_1_GLM_Phone rong$ adb devices * daemon not running;starting now at tcp:5037 * daemon started successfully List of devices attached 2KE5T19B23025905 unauthorized# 4-查看ADB上连接的设备(当前已连接)(base)MacBook-Pro:20251216_1_GLM_Phone rong$ adb devices List of devices attached 2KE5T19B23025905 device

2-项目运行

原项目没有使用UV,个人开发的时候把项目改造为了UV环境管理

1-依赖安装

# 1-Python管理pipinstall-r requirements.txt pipinstall-e.# 2-UV环境管理uv python pin3.11.4 uv venv&&source.venv/bin/activate uv pipinstall-r requirements.txt uv pipinstall-e.

2-执行任务

  • 执行任务
python main.py"打开QQ音乐,播放【30岁的女人】"
  • 执行结果打印
(Open-AutoGLM)(base)MacBook-Pro:Open-AutoGLM rong$ python main.py"打开QQ音乐,播放【30岁的女人】"🔍 检查系统要求... --------------------------------------------------1. 检查ADB安装... ✅ 成功(Android Debug Bridge version1.0.41)2. 检查已连接的设备... ✅ 成功(1个设备: 2KE5T19B23025905)3. 检查ADB键盘... ✅ 成功 -------------------------------------------------- ✅ 所有系统检查通过! 🔍 检查模型API... --------------------------------------------------1. 检查API连通性(https://open.bigmodel.cn/api/paas/v4)... ✅ 成功 -------------------------------------------------- ✅ 模型API检查通过!==================================================Phone Agent - AI-powered phone automation==================================================模型: autoglm-phone 基础URL: https://open.bigmodel.cn/api/paas/v4 最大步骤:100语言: cn 设备: 2KE5T19B23025905==================================================任务: 打开QQ音乐,播放【30岁的女人】==================================================💭 思考过程: -------------------------------------------------- 用户想要打开QQ音乐并播放《30岁的女人》这首歌。当前屏幕显示的是Android系统设置界面,有一个USB连接方式的对话框弹出。 我需要:1. 先关闭当前的USB连接方式对话框(点击取消按钮)2. 然后打开QQ音乐应用3. 在QQ音乐中搜索并播放《30岁的女人》 首先,我需要点击"取消"按钮关闭当前的USB连接方式对话框。==================================================⏱️ 性能指标: -------------------------------------------------- 首 Token 延迟(TTFT):3.093s 思考完成延迟:3.772s 总推理时间:3.988s==================================================-------------------------------------------------- 🎯 执行动作:{"_metadata":"do","action":"Tap","element":[499,926]}====================================================================================================💭 思考过程: -------------------------------------------------- 好的,USB对话框已经关闭,现在我在系统桌面。我可以看到各种应用图标,但我没有看到QQ音乐的图标。我需要滑动屏幕来查找QQ音乐,或者直接使用Launch功能打开QQ音乐。 根据指南,使用Launch功能更直接。我应该使用Launch action来打开QQ音乐。==================================================⏱️ 性能指标: -------------------------------------------------- 首 Token 延迟(TTFT):3.749s 思考完成延迟:4.216s 总推理时间:4.420s==================================================-------------------------------------------------- 🎯 执行动作:{"_metadata":"do","action":"Launch","app":"QQ音乐"}====================================================================================================💭 思考过程: -------------------------------------------------- 好的,QQ音乐已经成功打开了。我现在看到的是QQ音乐的首页,显示了推荐、乐馆、儿童、听书、bubble、金币等标签。页面显示了一些推荐内容和歌单。 现在我需要搜索《30岁的女人》这首歌。我需要找到搜索功能。通常在顶部会有搜索框或搜索图标。让我看看屏幕上是否有搜索功能。 我看到顶部有一个搜索框,显示"你看你看月亮的脸 本周热搜"。我应该点击这个搜索框来输入《30岁的女人》。==================================================⏱️ 性能指标: -------------------------------------------------- 首 Token 延迟(TTFT):3.127s 思考完成延迟:3.988s 总推理时间:4.187s==================================================-------------------------------------------------- 🎯 执行动作:{"_metadata":"do","action":"Tap","element":[499,134]}====================================================================================================💭 思考过程: -------------------------------------------------- 太好了!搜索页面已经打开。我可以看到: - 顶部有一个搜索框,显示"趁黎明来临前说爱吧"- 有"歌手""排行""扑淘商城""听书热播"等标签 - 显示了搜索历史,包括"30岁的女人""风月何用""走不出了这座大山"- 还有搜索发现和热门搜索列表 我注意到在搜索历史中已经有"30岁的女人"了!我可以直接点击这个搜索历史项,或者我也可以在搜索框中输入"30岁的女人"。 让我直接点击搜索历史中的"30岁的女人"==================================================⏱️ 性能指标: -------------------------------------------------- 首 Token 延迟(TTFT):4.540s 思考完成延迟:5.521s 总推理时间:5.713s==================================================-------------------------------------------------- 🎯 执行动作:{"_metadata":"do","action":"Tap","element":[159,245]}====================================================================================================💭 思考过程: -------------------------------------------------- 完美!搜索结果已经显示出来了。我可以看到: - 搜索框中显示"30岁的女人"- 有综合、歌曲、歌单、节目、专辑、歌手、视频等标签 - 显示了歌手"赵雷"- 单曲部分显示了多个版本的《三十岁的女人》:1. 赵雷 - 吉姆餐厅(最多人播,温柔舒缓旋律)2. 谭维维 - 三十岁的女人(《剩者为王》电影宣传曲)3. 赵雷 - 歌手 第6期4. 谭维维 - 蒙面歌王 第4期 第一个单曲"三十岁的女人"是赵雷演唱的,看起来是最受欢迎的版本(最多人播)。我应该点击这首歌来播放它。我可以直接点击歌曲名称或者点击右边的播放按钮。 让我点击第一首歌曲"三十岁的女人"来播放它。==================================================⏱️ 性能指标: -------------------------------------------------- 首 Token 延迟(TTFT):2.949s 思考完成延迟:4.900s 总推理时间:5.098s==================================================-------------------------------------------------- 🎯 执行动作:{"_metadata":"do","action":"Tap","element":[141,532]}====================================================================================================💭 思考过程: -------------------------------------------------- 太好了!歌曲《三十岁的女人》已经开始播放了。我可以看到: - 播放界面显示了一个黑胶唱片的动画效果 - 歌曲名称显示为"三十岁的女人"- 歌手是"赵雷"- 有一个提示"当前音量过低,请调大音量后播放"- 底部有播放控制按钮,包括循环、上一首、暂停/播放、下一首、播放列表等 - 播放进度条显示歌曲正在播放 歌曲已经成功开始播放了!任务完成。==================================================⏱️ 性能指标: -------------------------------------------------- 首 Token 延迟(TTFT):4.386s 思考完成延迟:5.630s 总推理时间:6.215s==================================================-------------------------------------------------- 🎯 执行动作:{"_metadata":"finish","message":"任务完成!我已经成功打开QQ音乐并播放了《三十岁的女人》这首歌。这是赵雷演唱的版本,目前正在播放中。播放界面显示了黑胶唱片的动画效果,底部有完整的播放控制功能。"}==================================================🎉================================================✅ 任务完成: 任务完成!我已经成功打开QQ音乐并播放了《三十岁的女人》这首歌。这是赵雷演唱的版本,目前正在播放中。播放界面显示了黑胶唱片的动画效果,底部有完整的播放控制功能。==================================================结果: 任务完成!我已经成功打开QQ音乐并播放了《三十岁的女人》这首歌。这是赵雷演唱的版本,目前正在播放中。播放界面显示了黑胶唱片的动画效果,底部有完整的播放控制功能。(Open-AutoGLM)(base)MacBook-Pro:Open-AutoGLM rong$
http://www.jsqmd.com/news/107394/

相关文章:

  • 按需付费还是包月订阅?EmotiVoice计费模式对比
  • EmotiVoice语音合成质量评测:MOS评分达4.6+/5.0
  • ctfshow_web9
  • 如何在电脑查询内存硬件的方式
  • EmotiVoice在智慧城市建设中的潜在用途
  • 如何在5分钟内用Mermaid语法轻松生成专业流程图?
  • 终极Grafana监控神器:mcp-grafana让数据可视化变得如此简单
  • 面试官:如何提升AIGC生成的可控性?
  • 现代Python包管理工具效能对比:uv与pip深度评测
  • 16、基于第三方工具包构建增强现实应用指南
  • 【数据结构】主席树 可持久化线段树
  • ImageOptim跨版本兼容性:5个关键问题及其技术解决方案
  • 3、开发环境搭建与iOS设备硬件组件检测
  • Bark语音生成模型:从零到精通的完整实战指南
  • ChromePass终极指南:轻松提取Chrome浏览器保存的密码
  • llama.cpp分布式KV缓存:实现多会话并发推理的性能飞跃
  • 用户需求征集:你希望EmotiVoice增加什么功能?
  • 4、增强现实应用的硬件检测与位置服务使用指南
  • 如何评估EmotiVoice生成语音的质量?专业指标解读
  • 5分钟搞定垃圾分类AI模型:从零开始的实战指南
  • 5、iOS 开发中的位置服务与地图显示
  • YT29A凿岩机张家界实地测评2025
  • Exo分布式AI集群资源管理终极指南:让闲置设备变身高性能AI服务器
  • EmotiVoice在应急广播系统中的备用方案
  • 5分钟搞定实时语音识别:FunASR流式模型实战指南
  • 6、iOS 开发:位置服务与传感器应用
  • Cosmos-Server终极指南:打造最安全的家庭服务器解决方案
  • Draft.js工具栏深度定制:从零构建企业级编辑体验
  • 7、iOS开发中的传感器与音频处理
  • 节日祝福语音定制:EmotiVoice创意玩法