当前位置: 首页 > news >正文

UI-TARS Desktop:字节开源的多模态 GUI Agent,让 AI 操控你的电脑

🔗 我的中转站:https://api.aiseo.one/register?channel=c_0qyhisw6

项目简介

UI-TARS Desktop 是字节跳动开源的多模态 AI Agent 套件,包含 Agent TARS(终端/浏览器 Agent)和 UI-TARS Desktop(桌面 GUI Agent)两大组件。它能用自然语言控制你的电脑——看截图、点按钮、填表单、执行命令,就像真人在操作一样。

底层基于 UI-TARSSeed-1.5-VL/1.6 视觉语言模型,实现从"看懂屏幕"到"动手操作"的完整闭环。

GitHub
https://github.com/bytedance/UI-TARS-desktop
Stars
31,571 ⭐
Forks
3,137
创建
2025-01-19
语言
TypeScript
协议
Apache 2.0

两大核心组件

这个仓库实际上包含两个独立但互补的项目:

组件定位入口
Agent TARS终端里的多模态 AI Agent,操控浏览器、电脑和各种 MCP 工具CLI + Web UI
UI-TARS Desktop原生桌面 GUI Agent,直接控制你的本地电脑和浏览器桌面应用

Agent TARS

Agent TARS 是一个通用的多模态 AI Agent 栈,把 GUI Agent 和视觉能力带入你的终端、电脑、浏览器和产品中。

它主要通过 CLIWeb UI 两种方式使用,目标是结合前沿的多模态 LLM 和 MCP 工具集成,实现更接近人类操作的工作流程。

典型能力

  • 在 Priceline 上预订机票("帮我订 9 月 1 号从圣何塞到纽约的最早航班")
  • 在 Booking.com 上订酒店并生成交通指南
  • 调用 MCP Server 生成图表
  • 混合浏览器 Agent:支持 GUI Agent(视觉定位)、DOM 或混合策略控制浏览器

UI-TARS Desktop

UI-TARS Desktop 是一个原生桌面应用,基于 UI-TARS 模型提供本地 GUI Agent 能力。

两种 Operator

Operator功能场景
Local Operator在本地电脑上执行操作修改系统设置、控制本地应用
Remote Operator远程控制电脑或浏览器远程办公、自动化测试

使用示例

  • "帮我在 VS Code 设置里打开自动保存,延迟设置为 500 毫秒"
  • "帮我查看 GitHub 上 UI-TARS-Desktop 项目最新的 open issue"

核心功能

🖥️
Computer Use
截图识别 + 鼠标键盘精准控制,AI 像真人一样操作你的电脑
🌐
Browser Use
浏览器自动化——GUI 视觉定位、DOM 操作或混合策略
🧠
VLM 驱动
基于 UI-TARS / Seed-1.5-VL/1.6 视觉语言模型,自然语言即可控制
🔌
MCP 集成
内核基于 MCP 构建,支持挂载 MCP Server 连接真实世界工具
🔄
Event Stream
协议驱动的事件流,驱动上下文工程和 Agent UI,支持数据流追踪
💻
跨平台
支持 Windows / macOS / Linux,本地处理,隐私安全
📡
Remote Operator
远程电脑和远程浏览器 Operator,无需配置即可使用
🧰
UI-TARS SDK
跨平台工具包,用于构建 GUI 自动化 Agent

技术架构

UI-TARS Desktop ├── Agent TARS (多模态 AI Agent 栈) │ ├── CLI (headless 执行) │ ├── Web UI (可视化交互) │ ├── 混合浏览器 Agent (GUI + DOM) │ ├── MCP Server 集成 │ └── Event Stream (协议驱动) └── UI-TARS Desktop (原生桌面应用)├── Local Operator (本地控制)├── Remote Computer Operator (远程控制)├── Remote Browser Operator (远程浏览器)├── UI-TARS SDK└── UI-TARS / Seed-1.5-VL 模型

安装方式

Agent TARS CLI(推荐)

# npx 直接运行 npx @agent-tars/cli@latest# 全局安装(需要 Node.js >= 22) npm install @agent-tars/cli@latest -g# 指定模型提供商 agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key

UI-TARS Desktop 应用

访问 GitHub Releases 下载桌面应用,支持 Windows / macOS。

本地模型 Operator

参考 官方文档 部署本地模型并连接。

快速开始

30 秒体验 Agent TARS

# 一行命令启动(需要 Node.js >= 22) npx @agent-tars/cli@latest# 或者全局安装后用 npm install @agent-tars/cli@latest -g agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key

使用 UI-TARS Desktop

  • 下载桌面应用并安装
  • 配置本地或远程模型(支持 UI-TARS、Seed-1.5-VL 等)
  • 用自然语言描述你要执行的操作
  • AI 自动截图、识别界面元素、执行点击和输入

实战场景

🛫 场景一:自动订机票酒店

# 让 Agent TARS 在 Priceline 上订机票 agent-tars --provider anthropic --model claude-3-7-sonnet-latest# 然后输入: # "帮我订 9 月 1 号从圣何塞到纽约的最早航班,9 月 6 号最后返程"

Agent 会自动打开浏览器、搜索航班、比较价格、完成预订。同样可以在 Booking.com 上订酒店。

🔧 场景二:修改系统设置

对 UI-TARS Desktop 说:

"帮我在 VS Code 设置里打开自动保存,延迟设置为 500 毫秒"

AI 会截图 VS Code 界面,识别设置入口,找到 Auto Save 选项并修改。

🌐 场景三:浏览器自动化

"帮我查看 GitHub 上 UI-TARS-Desktop 项目最新的 open issue"

Agent 用混合策略(GUI 视觉定位 + DOM)打开浏览器、导航到 GitHub、读取 issue 列表并汇总。

📊 场景四:生成图表

"帮我画一个杭州一个月的天气图表"

通过 MCP Server 调用数据源,Agent 自动生成可视化图表。

🖥️ 场景五:远程控制电脑

通过 Remote Computer Operator,无需物理接触即可操作远程电脑——适合远程办公、IT 运维等场景。

总结

UI-TARS Desktop 把"AI 操控电脑"从概念变成了可用的产品——看截图、认界面、点按钮、填表单,全程自然语言驱动。

31,571 Stars — 字节跳动开源,社区活跃
Computer Use — 截图识别 + 鼠标键盘精准控制
Browser Use — GUI 视觉定位 + DOM 混合策略
VLM 驱动 — UI-TARS / Seed-1.5-VL 视觉语言模型
MCP 集成 — 连接真实世界工具链
Event Stream — 协议驱动,数据流可追踪
Remote Operator — 远程电脑和浏览器控制
跨平台 — Windows / macOS / Linux
Apache 2.0 — 商业友好

如果你需要 AI 帮你操作电脑、自动化浏览器、或者构建 GUI 自动化流程,UI-TARS Desktop 是目前开源生态中最完整的方案之一。

🚀 GitHub:https://github.com/bytedance/UI-TARS-desktop

📚 文档:https://agent-tars.com

🔗 我的中转站:https://api.aiseo.one/register?channel=c_0qyhisw6
http://www.jsqmd.com/news/789809/

相关文章:

  • FortiWeb VM 6.3.4初体验:除了当防火墙,还能怎么玩?
  • 树莓派3B变身软路由:OpenWrt下WAN/LAN/WiFi接口配置保姆级避坑指南
  • 3分钟掌握ModTheSpire模组加载器:解锁杀戮尖塔无限玩法
  • 九大网盘直链解析神器:告别龟速下载,轻松获取真实下载地址
  • 10分钟解锁网易云音乐NCM格式:ncmdumpGUI终极使用指南
  • Pandas数据处理太慢?试试用Numpy ndarray的这5个高级属性手动优化内存布局
  • 手把手教你:误删pyvenv.cfg后,如何快速重建Python虚拟环境(附详细步骤)
  • 为什么92%的AI项目卡在POC阶段?AI-Native Development的3层抽象模型(含可运行参考架构)
  • 【Linux】从源码到应用:手把手编译部署 Tcl/Tk 8.6.10
  • Faster-Whisper-GUI终极指南:免费语音转文字工具完整教程
  • 3分钟完成Windows和Office激活的终极指南:KMS_VL_ALL_AIO智能脚本
  • 存内计算加速3D点云处理:PC2IM架构解析
  • 从真值到补码:计算机如何用0和1表示正负与运算
  • 在Taotoken模型广场中根据任务与预算选择合适模型的思路
  • TRINE架构:多模态AI边缘计算的高效能效比解决方案
  • 做垂直领域内容,我们踩过的坑和偷着乐的甜
  • 免费解锁B站4K大会员视频下载:三步完成离线观看的终极指南
  • Unlock Music Electron:数字音乐加密格式的本地化解密解决方案
  • 别再死记硬背电路图了!用PLC(西门子S7-1200)轻松实现电机正反转,附梯形图与实物接线
  • 双附点的意思
  • 3:介绍stable difussion
  • 基于FastAPI与OpenAI API构建可定制化聊天机器人全流程指南
  • 永久保存微信聊天记录的终极方案:WeChatMsg开源工具完整指南
  • ChatGPT对话时间线:构建可追溯、可分析的AI对话治理工具
  • Noto Emoji一站式解决方案:彻底解决跨平台表情符号显示难题
  • STM32新手避坑指南:正点原子、野火、慧净、小马飞控的Systick延时函数到底差在哪?
  • Linux文件内容查看
  • 3分钟让模糊录音变清晰:VoiceFixer语音修复神器使用指南
  • MongoDB数据模型设计:构建高效的文档结构
  • 中兴光猫工厂模式终极解锁:zteOnu工具专业配置指南