当前位置: 首页 > news >正文

GitHub 悄悄起飞的开源项目,想让 AI 接管你的电脑

随着 OpenClaw 的爆火,一种名为 Computer-use-Agent(CUA)的技术正在 GitHub 上悄然崛起。它让 AI 能够像人一样,操作浏览器和各类应用程序,从而让 AI 完成更多类型的任务。

尽管目前市面上已有一些令人惊艳的技术尝试,但对于大多数开发者和企业而言,在实际应用中依然面临着两难的选择:

  • 要么是核心技术处于“闭源”状态,难以深度定制
  • 要么是许多开源项目仍停留在“跑通一次 Demo”的实验阶段

今天 HelloGitHub 带来了一款让 AI 大模型像人类一样,看电脑屏幕+动手操作的开源工具——TuriX。仅需简单的自然语言指令,就能自动化操作浏览器和各类应用程序。

GitHub 地址:github.com/TurixAI/TuriX-CUA

一、TuriX 介绍

TuriX 是一款由人工智能驱动的数字助手,能让你在各种应用程序和系统中实现任务自动化,适用于 Windows、Linux 和 macOS 系统。它不同于传统 RPA 和基于 API 的操作方式,只要人能点到的地方 TuriX 也能点,实现真正的跨应用自动化。

用户只需通过自然语言描述任务,TuriX 就能让 AI 自动规划并执行,即便目标应用不提供 API 也没事儿。

TuriX 不仅提供开箱即用的桌面应用,还有专门的 skill 技能包,可以方便集成到 OpenClaw 或 Claude Code。

ClawHub 地址:clawhub.ai/Tongyu-Yan/turix-cua

TuriX 专注于桌面环境的自动化操作,在 Mac 上可以操作浏览器、文档类应用、邮件/聊天应用、进行系统设置等。在 Windows 上支持 GUI 自动化、浏览器操作,比如自动搜索 YouTube 视频并点赞。

二、快速上手

2.1 桌面应用

目前 TuriX 提供了 macOS 和 Windows 桌面应用,通过官网(turix.ai)即可下载。

2.2 接入 OpenClaw

TuriX 官网还提供了 skill 安装包,下载解压后可以查看 skill 所有文件:

turix-cua/
├── SKILL.md
├── agents/
├── assets/
├── references/
└── scripts/
└── bin/
├── turix-cua-darwin-arm64
└── turix-cua-windows-amd64.exe

接下来只需将解压后的 turix-cua 放到 OpenClaw 指定目录:

# macOS / Linux
mkdir -p ~/.openclaw/workspace/skills
cp -R turix-cua ~/.openclaw/workspace/skills/# Windows PowerShell
mkdir "$HOME\.openclaw\workspace\skills"
Copy-Item -Path ".\turix-cua" -Destination
"$env:USERPROFILE\.openclaw\workspace\skills" -Recurse -Force

目的就是将 skill 放到 ~/.openclaw/workspace/skills/turix-cua/SKILL.md

通常安装好 skill 后,OpenClaw 并不会立即加载。需要前往 Web 页面,点击“New session”新建一个对话窗口,这样通常就能够加载该技能。但如果仍然没有加载,可以执行 openclaw gateway restart 重启命令。

想确认是否安装成功?直接问 OpenClaw:“我当前有哪些技能”,OpenClaw 会回复你当前的技能库。

回答中如果包含 turix-cua 技能,就代表 OpenClaw 已成功安装该技能。

需要注意 turix-cua skill 不是纯前端插件,它依赖本机已有 TuriX 客户端环境。使用前需要确认:

  1. 本机已安装 TuriX 客户端
  2. 本机已登录 TuriX 客户端且客户端且处于运行状态

2.3 Python 脚本使用方式

除了上面两种开箱即用的使用方式外,TuriX 还专为开发者提供了 Python 脚本调用的方式。

conda create -n turix_env python=3.12
conda activate turix_env
pip install -r requirements.txt

通过这种方式,不仅可以自定义 LLM API,还可以定制开发出更加顺手的自动化操作电脑的工具。

if provider == "name_you_want":return ChatOpenAI(model="gpt-4.1-mini", api_key=api_key, temperature=0.3)

三、技术解读

TuriX 本质上是一个基于 VLM 的 Agent 框架,通过模仿人类的 GUI 交互行为执行桌面操作。它为了解决大模型上下文等问题,采用了 TuriX Parallelum 的四角色协同架构。

  • 规划者:将用户的指令拆解为可循序渐进的执行计划,帮助执行者更好地理解用户的意图。
  • 执行者:理解步骤计划,并基于当前屏幕截图等信息,执行精确的桌面操作。
  • 评估者:通过对比执行操作前后的屏幕截图,判断执行是否成功,如果失败则指挥执行者重试。
  • 监督者:当评估者检测到操作多次失败时,监督者会分析所有屏幕截图、状态和历史并重新规划,防止死循环。

除了角色分工,TuriX 还通过并行执行流水线的方式,即执行者假设前一步成功的基础上去执行第 n 步操作时,评估者同时对第 n-1 步进行评估,在保证执行率成功率的同时不降低执行效率。

在提高执行准确率方面,TuriX 基于 macOS 的 AXUIElement 框架,将屏幕上的组件、边框位置等信息转成结构化文本数据,与截图一同输入给大模型,从而能够输出准确率更高的节点索引。

在持续打磨并追求高执行成功率的过程中,TuriX 团队发现现在多数的 VLM 模型无法达到像素级的 GUI 操作,所以他们选择基于 Qwen2.5-VL-72B 模型进行微调,微调后的模型在桌面自动化任务测试中表现更加出色。

四、最后

除了 TuriX 在易用性、准确率,以及提升 OpenClaw 操作应用效果上带来的惊喜,在 Issues 和社交媒体上逛了一圈我发现 TuriX 作为一个开源项目,他们的“听劝”(倾听用户的声音)也给我留下了深刻的印象。每一条 Issue 他们都会认真对待并及时回复,你可以去提个 issue 感受下他们的热情~(TuriX 的开发同学不要打我 🤣)

有人在 Issue 里问:“TuriX 是否支持 Linux 系统?如果支持,我该如何安装?”没过多久,TuriX Linux 版就正式上线了——不是画饼,是真的能跑。在 Facebook 上,有用户分享了一段视频:他用 TuriX 自动化处理了 30 份发票并导出报表,全程没管。配文只有一句话:“喝个咖啡的时间。” 还有就是在交流群有人询问 TuriX 如何接入本地模型,官方技术人员的耐心指导。

这种“听劝”是以开放和服务用户的姿态去迭代,每一个 Star、Issue、PR 都会让 TuriX 变得更好,最终和开源社区共同打造出一个真正能干活、让咱们早点下班的“AI 帮手”。

GitHub 地址:github.com/TurixAI/TuriX-CUA

一个愿意倾听用户声音、持续快速迭代的开源项目,也许用不了太久,TuriX 的悄然崛起就会变成一件大家喜闻乐见的事情。

http://www.jsqmd.com/news/505621/

相关文章:

  • 【软件测试】从MIL到HIL:嵌入式系统测试全流程解析
  • 革新macOS应用管理:Applite让Homebrew Casks图形化操作不再复杂
  • Nanbeige 4.1-3B入门指南:理解‘勇者指令→大贤者神谕’交互范式设计逻辑
  • GLM-Image在影视制作中的应用:特效素材生成
  • 雪女-斗罗大陆-造相Z-Turbo项目实战:从零开始构建一个AI绘画微信小程序
  • VS Code通义灵码插件安装全攻略:从零开始到高效编码(附常见问题解决)
  • ollama-QwQ-32B微调实践:OpenClaw专属指令集训练
  • 如何3分钟为Unity游戏添加实时翻译:终极免费插件指南
  • Kylin V10优盘实战:从FAT32到NTFS的格式选择与虚拟机挂载全解
  • 怎样在Java中搭建Canal数据库监听环境
  • IDEA堆内存设置实战:如何用jvisualvm.exe监控线程阻塞应用的内存分配
  • 华为一碰传破解全攻略:从电脑管家安装到NFC标签生成(含常见问题解决)
  • 【Dify生产环境Token成本监控实战指南】:20年SRE亲授3大实时告警策略与5个隐形成本黑洞识别法
  • Transformer架构实战:从零开始手把手实现一个简易版(Python代码示例)
  • Visual Studio高级保存选项的隐藏技巧与实战应用
  • StableDiffusion 视频生成全攻略:从Mov2mov到AnimateDiff的进阶技巧
  • Unity WebGL中文输入难题破解:InputField全屏输入与跨平台适配方案
  • 火山养“龙虾”日志 | 14 大神仙玩法,原来 AI Agent 还能这么用
  • 实测Open-AutoGLM效果:自动完成复杂任务,生成详细旅游攻略
  • Megatron与DeepSpeed:大模型训练框架的融合与实战对比
  • Stable Yogi 模型运维指南:生产环境高可用部署与监控
  • EC20模块实战:quectel-CM启动流程全解析(附常见问题排查)
  • 赶deadline必备!专科生论文救星 —— 千笔写作工具
  • Ubuntu 20.04 安装 Sublime Text 4 终极指南(含汉化+快捷键大全)
  • 基于多模态数据湖的新一代人工智能应用——Nvidia 工具链落地实践的深度洞察
  • Kali Linux 实战:手把手部署DVWA渗透测试靶场
  • DBSCAN聚类参数调优指南:如何用k-distance图快速找到最佳eps和min_samples
  • Artifactory-oos私有Maven仓库:从零搭建到企业级组件托管实战
  • Guohua Diffusion 社区分享:在CSDN记录模型部署与调优全过程
  • Origin迷你图实战:5分钟搞定局部放大,让重叠曲线一目了然