当前位置：首页 > news >正文

苹果50年三个CEO，GUI Agent一年走完了从概念到开源

news 2026/6/11 16:14:15

苹果近日完成了成立以来第三次CEO交接：库克卸任，特努斯接班。三位掌门人，跨越半个世纪。

AI领域则是另一种节奏。特别是GUI Agent这个方向——让AI直接操作电脑图形界面，完成点击、输入、应用切换等操作——从一年前学术论文里的早期探索，到现在已经有可以在个人设备上实际使用的开源工具，推进速度相当快。

两种完全不同的时间尺度，但挺有意思的是，它们在Mac这个平台上有了交集。今天从这个角度聊一聊GUI Agent这一年的进展。

一年前的GUI Agent

2024年初，GUI Agent在学术界已经有了不少研究。当时的普遍状态是：模型可以完成一些简单的单步操作（比如点击某个按钮），但面对多步骤、跨应用的复杂任务时，成功率还不够理想。

主要的挑战集中在几个方面：模型对复杂界面布局的理解精度有限，缺少有效的错误恢复机制，以及高质量训练数据的积累不够充分。

这一年的变化

过去一年，GUI Agent领域的几个关键进展值得关注。

视觉理解能力的提升。视觉语言模型在屏幕截图理解方面有了明显进步，不再停留在"识别元素"的层面，而是能够理解界面元素之间的关系、当前操作的上下文、以及在整体任务流程中的位置。

训练范式的更新。从单纯的监督学习到引入强化学习，让模型可以通过不断尝试来优化操作策略，而不仅仅是模仿已有的操作轨迹。

端侧部署变得可行。模型压缩技术的进步，加上Apple Silicon等芯片在AI推理方面的性能提升，使得"在个人设备上跑GUI Agent"从理论走向了实践。

Mano-P：我们的实践

在这些技术趋势下，明略科技开源了 Mano-P——一个面向Mac的纯视觉驱动GUI Agent。

Mano-P的"纯视觉驱动"意味着它直接通过屏幕截图来理解界面，不依赖特定应用的API或系统接口。这样做的好处是通用性强，理论上能操作任何有图形界面的软件。全部运行在本地Mac上，数据不出设备。

评测数据

Mano-P 72B模型在OSWorld评测（GUI Agent领域的标准评测框架，在真实操作系统环境中测试跨应用任务能力）中准确率58.2%，目前排名第一。第二名为45.0%。

端侧性能

Mano-P 4B量化模型（w4a16）在M4 Pro芯片上的实测数据：

Prefill速度：476 tokens/s
Decode速度：76 tokens/s
峰值内存占用：4.3GB

一台配备M4芯片和32GB内存的Mac即可运行。4.3GB的内存占用对32GB机型来说比较轻松，不影响其他应用的正常使用。

关键技术设计

训练框架：三阶段递进——SFT建立基础的GUI理解和操作映射能力，离线RL从历史数据中提炼操作策略，在线RL在真实环境中持续优化。三个阶段形成一个"模型能力提升 → 数据质量提升 → 模型进一步提升"的正向循环。

推理机制：think-act-verify循环。每执行一步操作后都截屏验证结果，发现异常则回到分析阶段重新规划。这个机制对多步骤长任务的稳定性帮助比较大。

量化方案：w4a16（4-bit权重 + 16-bit激活），在模型体积和推理精度之间取得平衡。

GUI Agent和Mac的交集

GUI Agent需要在用户的桌面环境中长时间运行，实时截屏、分析界面、执行操作。这类应用天然适合部署在用户自己的设备上——操作的是本地应用和文件，交互延迟低，数据也不需要离开设备。

而Mac在最近几年的芯片迭代中，AI推理能力有了实质性的提升。过去做AI开发几乎只能选择Windows加NVIDIA GPU的组合，现在随着Apple Silicon性能的增长和MLX等开发框架的完善，Mac正在成为一个可以认真考虑的AI部署平台。

对于习惯使用Mac的开发者来说，能在自己的日常工作设备上直接运行AI Agent，不需要额外的硬件投入，这是一个比较实际的选择。

了解更多

Mano-P基于Apache 2.0协议开源。

brew tap HanningWang/tap&&brewinstallmano-cua

GitHub：Mininglamp-AI/Mano-P

硬件要求：Apple M4 + 32GB RAM。

欢迎感兴趣的开发者到GitHub上了解更多，也欢迎在评论区交流你对GUI Agent方向的看法。

查看全文

http://www.jsqmd.com/news/686991/

2026癫痫诊疗医院全景分析及选择指南：重庆惠民癫康医院 - 深度智识库

别再用老掉牙的JS了！用Dreamweaver CS6的‘行为’面板，5分钟搞定网页交互（附实战案例）

终极图像清理指南：如何用SD-WebUI Cleaner一键移除图片中任何不需要的对象

快速图像清理神器：5分钟掌握SD-WebUI Cleaner的终极使用技巧

HackTheBox Cap 靶机：从 IDOR 到 PCAP 凭据提取再到 Capabilities 提权

QKeyMapper：Windows平台全能输入设备映射与自动化工具

2026年热门高温布氏粘度计型号大全，靠谱生产厂家合集 - 品牌推荐大师1

2026年靠谱的烘焙培训机构排名，欧艺教育硬件设施与规模优势探讨 - 工业品网

VMware装Win11全流程避坑指南：从ISO选择、TPM模拟到VMware Tools优化

终极Visual C++运行库修复指南：彻底解决Windows程序启动问题

告别手动对齐！用Agisoft Metashape Pro 1.8批处理搞定农田航测（含GCPs完整流程）

惠普600G2 MT加装WiFi/蓝牙全记录：从NGFF转接卡到PCIE转接卡的踩坑与避坑

2026年门窗品牌排名，亚龙铝材安装效果怎么样，哪家性价比高 - mypinpai

佛山金喜金属科技：中高端不锈钢管材全品类智造与一站式解决方案权威服务商 - 新闻快传

2026年天津性价比高的断桥铝门窗厂家，靠谱推荐 - 工业设备

RedisDesktopManager-Windows：Windows平台终极Redis数据库管理工具完整指南

Elasticsearch性能深度优化：近实时搜索速度极致提升实战指南

MySQL 查询缓存机制优化经验

茉莉花插件完整教程：如何让Zotero中文文献管理效率提升90%

聊聊保定、太原等地断桥铝门窗，好用的厂家有哪些推荐？ - 工业品网

避坑指南：PyTorch 1.7.1 与 CUDA 11.0 版本匹配的那些事儿（conda vs pip 实测对比）

3分钟掌握番茄小说下载器：打造你的专属离线图书馆

从YOLOv5到YOLOv8，我亲手部署测试了C2f和Anchor-Free带来的性能提升（附详细对比数据）

别再只会重启了！Android安全模式(Safe Mode)的5个隐藏用法与救砖实战

2026年北京地区断桥铝门窗内销厂家排名，哪家性价比高？ - 工业品牌热点

如何按优先级控制 Flex 容器内子元素的截断顺序

终极Visual C++运行库解决方案：一键修复Windows程序依赖问题

有专利技术的植筋胶生产企业靠谱吗，深圳地区有推荐的吗 - 工业设备

别再乱接TVS了！手把手教你电源输入端TVS防烧毁的正确接法（附PESD5V0S1BA实测）

告别OpenCV依赖：用stb_image.h这个单文件库，5分钟搞定C++图片加载与缩放