当前位置: 首页 > news >正文

能控制手机屏幕的开源agent多模态工具

之前探索了能控制电脑桌面的开源agent工具。

https://blog.csdn.net/liliang199/article/details/156018145

这里进一步探索能控制手机屏幕的开源agent多模态工具。

1 模拟工具

以下是几款可以实现移动端模拟操作的开源工具。

其中,Open-AutoGLM和Airtest功能较为强大和主流,

1.1 Open-AutoGLM

AI驱动,自然语言交互,多模态理解,面向开发者的高级自动化、智能任务助理

基于视觉语言模型理解屏幕,通过ADB执行操作,可解析用户指令并自动规划任务流程

https://github.com/zai-org/Open-AutoGLM

1.2 Airtest

跨平台,基于图像识别,提供IDE,游戏和App的UI自动化测试、简易脚本录制与回放

通过图像匹配定位UI元素,模拟点击、滑动等操作,支持生成测试报告

https://github.com/AirtestProject/Airtest

1.3 mcp-android-emulator

与AI助手(如Claude)深度集成 作为MCP服务器,将ADB操作(截图、点击、输入等)

通过AI助手直接控制安卓设备进行探索或测试,可以封装为AI可调用的工具

https://github.com/Anjos2/mcp-android-emulator

1.4 Mobile-Env

学术研究导向,强化学习平台,主要用于学术研究、开发与评估交互式AI代理

为训练AI代理与移动应用交互而设计,提供标准化的环境和任务集

https://github.com/stefanbschneider/mobile-env

2 选择工具

可以根据主要目的来选择适合的移动端模拟工具,目标是实现高度智能的自动化任务。

如果用自然语言描述复杂操作流程,应优先选择Open-AutoGLM。

如果主要进行UI自动化测试,如回归测试、兼容性测试,Airtest及其图形化IDE会更简单直接。

如果是探索AI模型控制手机,则选mcp-android-emulator,它能通过对话指挥AI助手操作设备。

如果是学术研究、训练AI模型,则选Mobile-Env,它提供了现成的强化学习实验平台。

在Android平台,则需要配置Android Debug Bridge (ADB) 环境,准备安卓真机或模拟器。

reference

---

能控制计算机桌面的多模态AI agent

https://blog.csdn.net/liliang199/article/details/156018145

http://www.jsqmd.com/news/239925/

相关文章:

  • JVM 内存分区
  • 书匠策AI:颠覆你的课程论文写作体验,从“小白”到“大神”只需一步
  • 统一电能质量变换器(UPQC)Matlab/Simulink仿真:IP-IQ检测与电压电流补偿...
  • 救命神器8个AI论文平台,本科生毕业论文救星!
  • 南芯烧录软件使用
  • 精密的舞步:探秘十字滑台的工业灵魂
  • 制造业企业数据采集系统选型指南:从技术挑战到架构实践
  • 西门子PLC博图与优傲UR机器人的Profinet通讯实战
  • 新手友好的锁相环学习电路:从理论到实践
  • 易语言开发从入门到精通:答疑解惑·踩坑避坑·优化提升·常用资源
  • 【干货收藏】智能体执行一半就终止?大模型上下文窗口超长问题深度解析
  • 梁文锋署名新论文,DeepSeek V4架构首曝?直击Transformer致命缺陷
  • 【开题答辩全过程】以 山河大学奖学金评定系统为例,包含答辩的问题和答案
  • 【必藏】AI Agent完全指南:从ChatGPT到能思考、会行动的智能体革命
  • 径流水土流失监测设备
  • 【开题答辩全过程】以 基于安卓的医疗健康查询系统为例,包含答辩的问题和答案
  • 必藏!一文搞懂Agent开发的三大设计范式:ReAct、Plan Execute与Multi-Agent
  • 人工智能究竟是如何思考的
  • MAC 地址
  • 【开题答辩全过程】以 基于web的拍卖系统设计与实现为例,包含答辩的问题和答案
  • 【开题答辩全过程】以 基于Java的校内美食推荐系统的设计与实现为例,包含答辩的问题和答案
  • 鸿蒙应用的安全审计与合规检测实战:智能待办的安全防护
  • 攻防演练全流程实战指南:红队突破与蓝队防御核心技巧
  • Java实现Html保存为.mhtml文件
  • 3款好玩的台球游戏,玩过的人都说很上头
  • AI Agent企业落地避坑指南:7大致命错误,收藏级干货
  • Google DeepMind :RAG 已死,无限上下文是伪命题?RLM 如何用“代码思维”终结 AI 的记忆焦虑
  • 跨境远控无忧,开启高效跨国连接新时代
  • 语音识别噪声抑制优化实战
  • 8款全场景CRM系统横向对比:从获客闭环到供应链协同的能力矩阵