苹果50年三个CEO,GUI Agent一年走完了从概念到开源
苹果近日完成了成立以来第三次CEO交接:库克卸任,特努斯接班。三位掌门人,跨越半个世纪。
AI领域则是另一种节奏。特别是GUI Agent这个方向——让AI直接操作电脑图形界面,完成点击、输入、应用切换等操作——从一年前学术论文里的早期探索,到现在已经有可以在个人设备上实际使用的开源工具,推进速度相当快。
两种完全不同的时间尺度,但挺有意思的是,它们在Mac这个平台上有了交集。今天从这个角度聊一聊GUI Agent这一年的进展。
一年前的GUI Agent
2024年初,GUI Agent在学术界已经有了不少研究。当时的普遍状态是:模型可以完成一些简单的单步操作(比如点击某个按钮),但面对多步骤、跨应用的复杂任务时,成功率还不够理想。
主要的挑战集中在几个方面:模型对复杂界面布局的理解精度有限,缺少有效的错误恢复机制,以及高质量训练数据的积累不够充分。
这一年的变化
过去一年,GUI Agent领域的几个关键进展值得关注。
视觉理解能力的提升。视觉语言模型在屏幕截图理解方面有了明显进步,不再停留在"识别元素"的层面,而是能够理解界面元素之间的关系、当前操作的上下文、以及在整体任务流程中的位置。
训练范式的更新。从单纯的监督学习到引入强化学习,让模型可以通过不断尝试来优化操作策略,而不仅仅是模仿已有的操作轨迹。
端侧部署变得可行。模型压缩技术的进步,加上Apple Silicon等芯片在AI推理方面的性能提升,使得"在个人设备上跑GUI Agent"从理论走向了实践。
Mano-P:我们的实践
在这些技术趋势下,明略科技开源了 Mano-P——一个面向Mac的纯视觉驱动GUI Agent。
Mano-P的"纯视觉驱动"意味着它直接通过屏幕截图来理解界面,不依赖特定应用的API或系统接口。这样做的好处是通用性强,理论上能操作任何有图形界面的软件。全部运行在本地Mac上,数据不出设备。
评测数据
Mano-P 72B模型在OSWorld评测(GUI Agent领域的标准评测框架,在真实操作系统环境中测试跨应用任务能力)中准确率58.2%,目前排名第一。第二名为45.0%。
端侧性能
Mano-P 4B量化模型(w4a16)在M4 Pro芯片上的实测数据:
- Prefill速度:476 tokens/s
- Decode速度:76 tokens/s
- 峰值内存占用:4.3GB
一台配备M4芯片和32GB内存的Mac即可运行。4.3GB的内存占用对32GB机型来说比较轻松,不影响其他应用的正常使用。
关键技术设计
训练框架:三阶段递进——SFT建立基础的GUI理解和操作映射能力,离线RL从历史数据中提炼操作策略,在线RL在真实环境中持续优化。三个阶段形成一个"模型能力提升 → 数据质量提升 → 模型进一步提升"的正向循环。
推理机制:think-act-verify循环。每执行一步操作后都截屏验证结果,发现异常则回到分析阶段重新规划。这个机制对多步骤长任务的稳定性帮助比较大。
量化方案:w4a16(4-bit权重 + 16-bit激活),在模型体积和推理精度之间取得平衡。
GUI Agent和Mac的交集
GUI Agent需要在用户的桌面环境中长时间运行,实时截屏、分析界面、执行操作。这类应用天然适合部署在用户自己的设备上——操作的是本地应用和文件,交互延迟低,数据也不需要离开设备。
而Mac在最近几年的芯片迭代中,AI推理能力有了实质性的提升。过去做AI开发几乎只能选择Windows加NVIDIA GPU的组合,现在随着Apple Silicon性能的增长和MLX等开发框架的完善,Mac正在成为一个可以认真考虑的AI部署平台。
对于习惯使用Mac的开发者来说,能在自己的日常工作设备上直接运行AI Agent,不需要额外的硬件投入,这是一个比较实际的选择。
了解更多
Mano-P基于Apache 2.0协议开源。
brew tap HanningWang/tap&&brewinstallmano-cuaGitHub:Mininglamp-AI/Mano-P
硬件要求:Apple M4 + 32GB RAM。
欢迎感兴趣的开发者到GitHub上了解更多,也欢迎在评论区交流你对GUI Agent方向的看法。
