当前位置: 首页 > news >正文

能控制计算机桌面的多模态AI agent框架

随着llm的能力越来越强,基于LLM的多模态AI agent框架和桌面工具越来越接近实用。

这里收集这些开源的ai agent框架和桌面助手工具。

pyautogui

pyautogui是一个能够模拟鼠标、键盘等输入操作的 Python 库,可以轻松实现自动化操作。

https://zhuanlan.zhihu.com/p/23356032557

NeoAI

NeoAI无需编写代码,让 AI 用简单的自然语言指令接管你的电脑,支持文件管理、任务自动化、定时操作和跨平台设备控制,并内置安全保护。

https://github.com/TheD0ubleC/NeoAI

OmniParser-V2

通过一句话让DeepSeek LLM控制电脑的框架。

OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent

https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

https://github.com/microsoft/OmniParser/tree/master

PC-Agent/MobileAgent

一种能使用LLM控制桌面工作的开源工具。

https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent

https://github.com/X-PLUG/MobileAgent/tree/main

OpenCUA/CUA

一个用于构建和扩展 CUA(使用计算机的智能体)的完全开源的框架。具体来说,该框架包括:

  • 一个用于捕获人类使用计算机的演示的注释工具
  • AgentNet,首个涵盖 3 个操作系统和 200 多个应用程序/网站的大规模数据集
  • 一个将演示转化为具有长思维链推理的「状态-动作」对的工作流程

https://arxiv.org/abs/2508.09123

https://github.com/trycua/cua

https://github.com/xlang-ai/OpenCUA

https://zhuanlan.zhihu.com/p/1890889365196109726

Cradle

Cradle 是BAAI‑Agents开源的一款面向通用计算机控制(GCC)的多模态 AI Agent 框架,可以让大型多模态模型,通过截图输入和键鼠输出,像人一样使用各种软件和游戏。

  • 通用目标:支持任意本地软件(如游戏、Office、图像/视频编辑工具)

  • 多模态输入:以截图为输入,支持键盘鼠标操作输出

  • 自主能力:内置“认知反思+技能更新”模块,能不断自我优化

  • 模块化设计:兼顾高可控性和扩展性,轻松适配新环境

https://github.com/BAAI-Agents/Cradle

NeuralAgent

NeuralAgent​ 是一款革命性的桌面AI助手,真正能够在用户桌面上执行操作。

与传统AI对话系统不同,NeuralAgent能够实际控制鼠标、键盘,操作浏览器,填写表单,发送邮件,真正实现"思考即执行"的智能化体验。

https://github.com/mosdehcom/neuralagent

Open-Interpreter

Open-Interpreter是可以联网的 ChatGPT 代码解释器。

https://github.com/OpenInterpreter/open-interpreter

refernece

---

使用Python实现鼠标与键盘自动化操作:从基础到实战应用

https://zhuanlan.zhihu.com/p/23356032557

Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?

https://www.cnblogs.com/xiaohuatongxueai/p/19017467

港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体

https://zhuanlan.zhihu.com/p/1939274895700784967

Cua:Mac用户狂喜!这个开源框架让AI直接接管你的电脑,快速实现AI自动化办公

https://zhuanlan.zhihu.com/p/1890889365196109726

OmniParser V2: Turning Any LLM into a Computer Use Agent

https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

http://www.jsqmd.com/news/106157/

相关文章:

  • Blender插件完全指南:从入门到精通的必备工具清单 [特殊字符]
  • 企业利润翻倍的秘密:为什么你的对手都在搭建AI agent
  • 3分钟免费拥有macOS精致鼠标指针:Windows和Linux完美适配指南
  • Matlab Simulink 基于自适应的永磁同步电机无位置传感器控制系统 以PMSM做为控制对像
  • 【计算机毕业设计案例】基于SpringBoot北京市公交管理系统的设计与实现基于JAVA的北京市公交管理系统(程序+文档+讲解+定制)
  • 构建可测试的代码:开发者的质量守护之道
  • Cellpose-SAM细胞分割工具:从入门到精通的全流程指南 [特殊字符]
  • GroundingDINO配置实战指南:5分钟掌握两大模型核心差异
  • 国自然科学基金本子拟解决关键问题与创新点,如何利用AI分别进行辅助?
  • OpenUSD工具链:usdview与命令行工具完全指南
  • 【python实用小脚本-324】耗时2小时→0人工|电商运营必学的价格监控自动化方案(建议收藏)
  • NocoDB容器化部署架构深度解析:从单机到云原生演进路径
  • 多场景 Shell 脚本实例,搞定系统 / 日志 / 数据库 / 容器
  • BasePopup:Android弹窗终极指南与高效解决方案
  • 快速生成应用:AI大模型与低代码的无缝融合之道
  • 打开PyCharm新建工程,合作博弈的数学工具箱哐当一声砸在桌面上。综合能源系统的利益分配问题像块硬骨头,咱们今天要用Shapley值的牙口啃碎它
  • 医疗软件合规性测试体系构建与实战解析
  • 反爬虫监控
  • Blender版本管理终极指南:告别混乱的完整解决方案
  • Wan2.1-I2V-14B-480P:消费级硬件上的高效图像到视频生成技术
  • 全网热议!2026年人力资源解决方案EOR名义雇主服务品牌排行榜,解决企业用工难题
  • 键盘输入可视化神器:让你的按键操作不再“隐形“
  • MiMo-V2-Flash
  • Docker容器Redisson日志优化终极指南:多维度解决方案
  • 零门槛体验通义千问:FlashAI一键部署大模型全攻略
  • 2025 年最新客服机器人品牌排名在这里! - 品牌策略主理人
  • Vue3-Admin-TS:TypeScript版Vue3后台管理模板完整指南
  • 分布式监控终极指南:从业务场景出发的技术选型方法论
  • 【Linux驱动开发】Linux Netlink 与 uevent 机制的原理与构建
  • C++14 变量模板(Variable Templates)详解