当前位置: 首页 > news >正文

苹果50年三个CEO,GUI Agent一年走完了从概念到开源

苹果近日完成了成立以来第三次CEO交接:库克卸任,特努斯接班。三位掌门人,跨越半个世纪。

AI领域则是另一种节奏。特别是GUI Agent这个方向——让AI直接操作电脑图形界面,完成点击、输入、应用切换等操作——从一年前学术论文里的早期探索,到现在已经有可以在个人设备上实际使用的开源工具,推进速度相当快。

两种完全不同的时间尺度,但挺有意思的是,它们在Mac这个平台上有了交集。今天从这个角度聊一聊GUI Agent这一年的进展。

一年前的GUI Agent

2024年初,GUI Agent在学术界已经有了不少研究。当时的普遍状态是:模型可以完成一些简单的单步操作(比如点击某个按钮),但面对多步骤、跨应用的复杂任务时,成功率还不够理想。

主要的挑战集中在几个方面:模型对复杂界面布局的理解精度有限,缺少有效的错误恢复机制,以及高质量训练数据的积累不够充分。

这一年的变化

过去一年,GUI Agent领域的几个关键进展值得关注。

视觉理解能力的提升。视觉语言模型在屏幕截图理解方面有了明显进步,不再停留在"识别元素"的层面,而是能够理解界面元素之间的关系、当前操作的上下文、以及在整体任务流程中的位置。

训练范式的更新。从单纯的监督学习到引入强化学习,让模型可以通过不断尝试来优化操作策略,而不仅仅是模仿已有的操作轨迹。

端侧部署变得可行。模型压缩技术的进步,加上Apple Silicon等芯片在AI推理方面的性能提升,使得"在个人设备上跑GUI Agent"从理论走向了实践。

Mano-P:我们的实践

在这些技术趋势下,明略科技开源了 Mano-P——一个面向Mac的纯视觉驱动GUI Agent。

Mano-P的"纯视觉驱动"意味着它直接通过屏幕截图来理解界面,不依赖特定应用的API或系统接口。这样做的好处是通用性强,理论上能操作任何有图形界面的软件。全部运行在本地Mac上,数据不出设备。

评测数据

Mano-P 72B模型在OSWorld评测(GUI Agent领域的标准评测框架,在真实操作系统环境中测试跨应用任务能力)中准确率58.2%,目前排名第一。第二名为45.0%。

端侧性能

Mano-P 4B量化模型(w4a16)在M4 Pro芯片上的实测数据:

  • Prefill速度:476 tokens/s
  • Decode速度:76 tokens/s
  • 峰值内存占用:4.3GB

一台配备M4芯片和32GB内存的Mac即可运行。4.3GB的内存占用对32GB机型来说比较轻松,不影响其他应用的正常使用。

关键技术设计

训练框架:三阶段递进——SFT建立基础的GUI理解和操作映射能力,离线RL从历史数据中提炼操作策略,在线RL在真实环境中持续优化。三个阶段形成一个"模型能力提升 → 数据质量提升 → 模型进一步提升"的正向循环。

推理机制:think-act-verify循环。每执行一步操作后都截屏验证结果,发现异常则回到分析阶段重新规划。这个机制对多步骤长任务的稳定性帮助比较大。

量化方案:w4a16(4-bit权重 + 16-bit激活),在模型体积和推理精度之间取得平衡。

GUI Agent和Mac的交集

GUI Agent需要在用户的桌面环境中长时间运行,实时截屏、分析界面、执行操作。这类应用天然适合部署在用户自己的设备上——操作的是本地应用和文件,交互延迟低,数据也不需要离开设备。

而Mac在最近几年的芯片迭代中,AI推理能力有了实质性的提升。过去做AI开发几乎只能选择Windows加NVIDIA GPU的组合,现在随着Apple Silicon性能的增长和MLX等开发框架的完善,Mac正在成为一个可以认真考虑的AI部署平台。

对于习惯使用Mac的开发者来说,能在自己的日常工作设备上直接运行AI Agent,不需要额外的硬件投入,这是一个比较实际的选择。

了解更多

Mano-P基于Apache 2.0协议开源。

brew tap HanningWang/tap&&brewinstallmano-cua

GitHub:Mininglamp-AI/Mano-P

硬件要求:Apple M4 + 32GB RAM。

欢迎感兴趣的开发者到GitHub上了解更多,也欢迎在评论区交流你对GUI Agent方向的看法。

http://www.jsqmd.com/news/686991/

相关文章:

  • 2026癫痫诊疗医院全景分析及选择指南:重庆惠民癫康医院 - 深度智识库
  • 别再用老掉牙的JS了!用Dreamweaver CS6的‘行为’面板,5分钟搞定网页交互(附实战案例)
  • 终极图像清理指南:如何用SD-WebUI Cleaner一键移除图片中任何不需要的对象
  • 快速图像清理神器:5分钟掌握SD-WebUI Cleaner的终极使用技巧
  • HackTheBox Cap 靶机:从 IDOR 到 PCAP 凭据提取再到 Capabilities 提权
  • QKeyMapper:Windows平台全能输入设备映射与自动化工具
  • 2026年热门高温布氏粘度计型号大全,靠谱生产厂家合集 - 品牌推荐大师1
  • 2026年靠谱的烘焙培训机构排名,欧艺教育硬件设施与规模优势探讨 - 工业品网
  • VMware装Win11全流程避坑指南:从ISO选择、TPM模拟到VMware Tools优化
  • 终极Visual C++运行库修复指南:彻底解决Windows程序启动问题
  • 告别手动对齐!用Agisoft Metashape Pro 1.8批处理搞定农田航测(含GCPs完整流程)
  • 惠普600G2 MT加装WiFi/蓝牙全记录:从NGFF转接卡到PCIE转接卡的踩坑与避坑
  • 2026年门窗品牌排名,亚龙铝材安装效果怎么样,哪家性价比高 - mypinpai
  • 佛山金喜金属科技:中高端不锈钢管材全品类智造与一站式解决方案权威服务商 - 新闻快传
  • 2026年天津性价比高的断桥铝门窗厂家,靠谱推荐 - 工业设备
  • RedisDesktopManager-Windows:Windows平台终极Redis数据库管理工具完整指南
  • Elasticsearch性能深度优化:近实时搜索速度极致提升实战指南
  • MySQL 查询缓存机制优化经验
  • 茉莉花插件完整教程:如何让Zotero中文文献管理效率提升90%
  • 聊聊保定、太原等地断桥铝门窗,好用的厂家有哪些推荐? - 工业品网
  • 避坑指南:PyTorch 1.7.1 与 CUDA 11.0 版本匹配的那些事儿(conda vs pip 实测对比)
  • 3分钟掌握番茄小说下载器:打造你的专属离线图书馆
  • 从YOLOv5到YOLOv8,我亲手部署测试了C2f和Anchor-Free带来的性能提升(附详细对比数据)
  • 别再只会重启了!Android安全模式(Safe Mode)的5个隐藏用法与救砖实战
  • 2026年北京地区断桥铝门窗内销厂家排名,哪家性价比高? - 工业品牌热点
  • 如何按优先级控制 Flex 容器内子元素的截断顺序
  • 终极Visual C++运行库解决方案:一键修复Windows程序依赖问题
  • 有专利技术的植筋胶生产企业靠谱吗,深圳地区有推荐的吗 - 工业设备
  • 别再乱接TVS了!手把手教你电源输入端TVS防烧毁的正确接法(附PESD5V0S1BA实测)
  • 告别OpenCV依赖:用stb_image.h这个单文件库,5分钟搞定C++图片加载与缩放