当前位置：首页 > news >正文

UI-TARS：如何让AI真正理解并操作你的电脑界面？

news 2026/7/4 7:48:02

UI-TARS：如何让AI真正理解并操作你的电脑界面？

【免费下载链接】UI-TARSPioneering Automated GUI Interaction with Native Agents项目地址: https://gitcode.com/GitHub_Trending/ui/UI-TARS

还在手动测试软件功能？还在重复点击相同的按钮？UI-TARS正在改变我们与计算机交互的方式。这款开源的多模态AI智能体能够像人类一样理解屏幕内容并执行操作，为自动化测试、游戏操作和日常办公带来革命性的效率提升。

为什么我们需要能够"看懂"屏幕的AI？

传统的自动化工具依赖于脚本录制和坐标定位，一旦界面发生变化就会失效。现代软件界面动态复杂，游戏UI更是千变万化，人工测试不仅耗时耗力，还难以保证覆盖率。

UI-TARS的核心突破在于：它不再依赖固定的坐标或元素ID，而是像人类一样通过视觉理解界面内容，然后做出智能决策。这意味着它可以适应不同的分辨率、界面布局变化，甚至处理从未见过的应用程序。

UI-TARS的端到端架构：从环境感知到动作执行的全流程设计

三大应用场景，一个解决方案

游戏自动化：从新手到高手的捷径

在Poki平台的14款热门游戏测试中，UI-TARS实现了100%的自动化通过率，而其他主流AI模型的表现参差不齐：

游戏名称	UI-TARS-1.5	OpenAI CUA	Claude 3.7
2048	100%	31.04%	43.05%
Maze:Path-of-Light	100%	35.00%	82.00%
Hex FRVR	100%	92.25%	30.76%
所有14款游戏平均	100%	42.8%	38.6%

这种性能优势源于UI-TARS对游戏界面的深度理解能力。它不仅能识别按钮和菜单，还能理解游戏状态、规划操作序列，甚至应对突发情况。

桌面应用自动化：办公效率的倍增器

想象一下，AI帮你完成这些重复性工作：

自动整理桌面文件
批量处理图片和文档
数据录入和表格处理
软件安装和配置

UI-TARS支持完整的桌面操作指令集：

from ui_tars.action_parser import parse_action_to_structure_output # 智能解析AI生成的指令 response = "点击开始菜单，然后搜索'记事本'并打开" parsed_action = parse_action_to_structure_output( response=response, origin_resized_width=1920, origin_resized_height=1080 )

移动端测试：跨平台的一致性验证

对于需要在多个平台测试的应用，UI-TARS提供了统一的解决方案：

Android模拟器操作
移动端特有手势支持（长按、滑动、返回键）
跨分辨率适配
多设备并行测试

性能对比：UI-TARS的技术优势

UI-TARS在多个基准测试中全面超越传统SOTA方法

在关键的性能指标上，UI-TARS展现出了显著优势：

计算机使用能力（OSWorld基准测试）

UI-TARS-1.5: 42.5分
之前最佳方法: 38.1分（200步）
OpenAI CUA: 36.4分
Claude 3.7: 28分

界面元素定位精度（ScreenSpotPro基准测试）

UI-TARS-1.5: 61.6分
之前最佳方法: 43.6分
OpenAI CUA: 23.4分
Claude 3.7: 27.7分

Minecraft游戏任务完成率

UI-TARS-1.5（带思考）: 42%平均成功率
之前最佳方法: 32%平均成功率
基础版本（无思考）: 35%平均成功率

快速上手：5分钟开始你的第一个AI助手

环境准备

# 克隆项目 git clone https://gitcode.com/GitHub_Trending/ui/UI-TARS cd UI-TARS # 安装依赖 pip install ui-tars # 或者使用更快的uv uv pip install ui-tars

基础使用示例

from ui_tars.prompt import generate_prompt from ui_tars.action_parser import parse_action_to_structure_output # 选择适合的任务模板 prompt = generate_prompt( template_type="COMPUTER_USE", instruction="打开浏览器并访问GitHub" ) # AI会生成类似这样的响应： # Thought: 我需要先点击浏览器图标，然后在地址栏输入网址 # Action: click(point='<point>100 200</point>') # 解析为可执行的操作 action = parse_action_to_structure_output( response="click(point='<point>100 200</point>')", origin_resized_width=1920, origin_resized_height=1080 )

坐标处理：智能定位的关键

UI-TARS的坐标处理系统确保在不同分辨率下的精确定位

坐标处理是GUI自动化的核心技术。UI-TARS能够：

将模型输出的相对坐标转换为屏幕绝对坐标
适配不同的分辨率和缩放比例
处理动态变化的界面元素
提供可视化的坐标验证工具

三种提示模板，满足不同需求

根据你的使用场景，可以选择最适合的提示模板：

COMPUTER_USE（电脑使用）

最适合桌面环境，支持完整的鼠标键盘操作：

单击、双击、右键点击
拖拽操作
快捷键组合
文本输入
滚动操作

MOBILE_USE（移动设备）

专为移动端设计，包含移动特有操作：

长按手势
应用启动
主页键和返回键
滑动操作

GROUNDING（基础定位）

轻量级模板，专注于动作输出：

仅输出Action部分
适合模型训练和评估
快速响应，资源消耗低

实际案例：游戏测试的自动化革命

以2048游戏为例，传统测试需要人工反复操作验证各种场景。使用UI-TARS后：

传统方法：

人工测试100次需要8小时
难以覆盖所有可能的数字组合
测试结果依赖测试人员状态
重复劳动导致疲劳错误

UI-TARS方法：

自动化测试100次仅需30分钟
可以24小时不间断运行
精确记录每次操作和结果
生成详细的测试报告

# 游戏测试示例 game_test_prompt = """ 任务：测试2048游戏的完整功能 步骤： 1. 开始新游戏 2. 连续进行20次移动 3. 记录最高分数 4. 验证游戏结束逻辑 5. 重新开始游戏 """ # UI-TARS会自动执行这些步骤并生成报告

技术架构：如何实现智能GUI交互？

UI-TARS的成功源于其创新的四层架构：

感知层（Perception）
- 视觉信息理解
- 界面元素识别
- 状态变化检测
动作层（Action）
- 统一动作空间定义
- 多步操作规划
- 实时反馈调整
推理层（Reasoning）
- 系统化思维增强
- 复杂任务分解
- 错误恢复机制
学习层（Learning）
- 在线轨迹自举
- 奖励优化策略
- 经验积累提升

版本选择：7B还是72B？

UI-TARS提供不同规模的模型以满足不同需求：

模型规格	适用场景	性能特点	资源需求
UI-TARS-1.5-7B	日常使用、快速测试	平衡的性能和速度	中等GPU资源
UI-TARS-72B-DPO	复杂任务、研究用途	最高精度和稳定性	高端GPU资源
UI-TARS-1.5	游戏和专业应用	优化的游戏性能	专业级配置