当前位置: 首页 > news >正文

UI-TARS-desktop保姆级教程:从安装到第一个自动化任务

UI-TARS-desktop保姆级教程:从安装到第一个自动化任务

1. 准备工作与环境配置

1.1 系统要求检查

在开始安装前,请确保您的系统满足以下最低要求:

  • 操作系统:Linux (推荐Ubuntu 20.04+)、Windows 10/11或macOS 10.15+
  • 硬件配置
    • CPU:4核及以上
    • 内存:8GB及以上
    • 存储:至少20GB可用空间
    • GPU(可选):NVIDIA显卡,显存6GB+(推荐)

1.2 安装Docker环境

UI-TARS-desktop以Docker镜像形式提供,首先需要安装Docker引擎:

# Ubuntu/Debian系统安装示例 sudo apt update sudo apt install -y docker.io sudo systemctl enable --now docker

验证Docker是否安装成功:

docker --version

1.3 配置NVIDIA支持(GPU用户)

如果您使用NVIDIA显卡,需要安装NVIDIA Container Toolkit:

# 添加NVIDIA Docker仓库 distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \ && curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \ && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list # 安装工具包 sudo apt update sudo apt install -y nvidia-docker2 sudo systemctl restart docker

2. 部署UI-TARS-desktop镜像

2.1 拉取并运行镜像

执行以下命令启动UI-TARS-desktop容器:

# 创建数据目录 mkdir -p ~/tars-data # 运行容器(GPU版本) docker run -d \ --gpus all \ -p 8080:8080 \ -v ~/tars-data:/root/workspace \ --name ui-tars \ ui-tars-desktop

对于仅使用CPU的环境:

docker run -d \ -p 8080:8080 \ -v ~/tars-data:/root/workspace \ --name ui-tars \ ui-tars-desktop

2.2 验证容器状态

检查容器是否正常运行:

docker ps -f name=ui-tars

预期输出应显示容器状态为"Up"。

3. 验证模型服务

3.1 检查模型启动日志

进入容器查看模型服务日志:

docker exec -it ui-tars bash cd /root/workspace cat llm.log

正常启动时,日志中应包含类似以下内容:

INFO: Loading model qwen3-4b-instruct-2507... INFO: Model loaded successfully in 45.2s INFO: vLLM inference server ready

3.2 测试模型API

您可以通过curl测试模型API是否可用:

curl -X POST http://localhost:8000/v1/completions \ -H "Content-Type: application/json" \ -d '{"prompt": "介绍一下你自己", "max_tokens": 100}'

4. 访问Web界面

4.1 打开UI-TARS界面

在浏览器中访问:

http://localhost:8080

您将看到类似下图的界面:

4.2 界面功能概览

UI-TARS-desktop界面主要分为三个区域:

  1. 左侧导航栏

    • 任务历史记录
    • 预设配置管理
    • 系统状态监控
  2. 中央交互区

    • 自然语言指令输入框
    • AI响应显示区域
    • 任务执行状态指示器
  3. 右侧辅助区

    • 实时操作预览窗口
    • 权限控制开关
    • 紧急停止按钮

5. 创建第一个自动化任务

5.1 基础任务示例

让我们从简单的文件操作开始:

  1. 在输入框中输入:

    在桌面上创建一个名为test_folder的文件夹,然后在其中新建一个hello.txt文件,内容写上"你好,UI-TARS"
  2. 点击"执行"按钮

  3. 观察任务执行过程,系统将:

    • 创建指定文件夹
    • 生成文本文件
    • 写入指定内容

5.2 浏览器自动化示例

尝试更复杂的浏览器操作:

打开Chrome浏览器,访问CSDN官网,搜索"UI-TARS",将第一页结果标题保存到~/workspace/search_results.csv文件中

系统将自动完成:

  1. 启动浏览器
  2. 导航至CSDN
  3. 执行搜索
  4. 提取结果
  5. 保存为CSV文件

6. 高级功能探索

6.1 多步骤任务编排

UI-TARS支持复杂任务链,例如:

首先检查我的下载文件夹中有没有超过30天未修改的PDF文件,如果有就将它们移动到"旧文档"文件夹;然后打开邮箱,给admin@example.com发一封邮件,主题是"文件整理完成",内容包含移动的文件列表

6.2 视觉辅助操作

利用内置的视觉能力,可以执行基于屏幕元素的操作:

点击右下角系统托盘中的网络图标,选择"WIFI-Office"连接,如果提示需要密码就输入"connect123"

7. 常见问题解决

7.1 模型服务未启动

如果llm.log中没有成功加载信息,尝试:

# 进入容器 docker exec -it ui-tars bash # 手动启动服务 cd /root/workspace python -m vllm.entrypoints.api_server --model qwen3-4b-instruct-2507

7.2 权限问题处理

某些操作可能需要额外权限:

  • Linux:将用户加入docker组sudo usermod -aG docker $USER
  • macOS:在系统设置中授予"屏幕录制"和"辅助功能"权限
  • Windows:以管理员身份运行Docker

7.3 网络连接问题

如果无法访问8080端口,检查:

# 查看端口映射 docker port ui-tars # 检查防火墙设置 sudo ufw allow 8080/tcp

8. 总结与下一步

通过本教程,您已经完成了:

  1. UI-TARS-desktop的环境准备与安装
  2. 模型服务的验证与测试
  3. Web界面的基本操作
  4. 第一个自动化任务的创建
  5. 常见问题的排查方法

接下来您可以尝试:

  • 探索更多内置工具的组合使用
  • 开发自定义插件扩展功能
  • 集成到您的工作流程中提高效率

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

http://www.jsqmd.com/news/590719/

相关文章:

  • 2026年氧化炉工厂怎么选择,金属氧化炉/铜浆烧结炉/雾化陶瓷烧结炉/LTCC烧结炉/厚膜烧结炉,氧化炉公司怎么选择 - 品牌推荐师
  • 浙江天木物流有限公司联系方式查询:为跨境电商卖家提供的物流服务选择与使用注意事项指南 - 品牌推荐
  • 哈尔滨海博英语联系方式查询:关于一家本地语言培训机构的信息核实与选择参考指南 - 品牌推荐
  • Windows驱动高效管理与系统优化指南:从基础到进阶的3大维度实践
  • 5分钟终极指南:用DroidCam将旧手机变身高清摄像头
  • SecGPT-14B提示工程:OpenClaw自动化测试不同提问方式的安全分析效果
  • 环球出国联系方式:关于移民咨询服务,一份来自行业顾问的客观信息梳理与使用指南 - 品牌推荐
  • imx6ull LCD驱动移植实战:从设备树配置到触摸屏调试
  • 抖音音频提取终极指南:5分钟掌握douyin-downloader免费工具
  • 2026年4月国内版权律师推荐:五名口碑服务评测对比知名 - 品牌推荐
  • 颠覆传统:NBT数据编辑与可视化工具的创新实践
  • 抖音无水印视频批量下载工具终极指南:快速获取高清内容
  • 3步畅享全球同人创作:AO3镜像站新手入门指南
  • 深度学习入门:基于cv_unet_image-colorization的Python实战项目
  • FMEA方法,排除架构可用性隐患的利器
  • 别再手动管理QML文件了!用qmldir模块化你的Qt Quick项目(附完整配置流程)
  • 2026年聚四氟乙烯垫片市场评测:哪些厂家技术更胜一筹?市面上诚信的聚四氟乙烯垫片品牌久昌密封材料显著提升服务 - 品牌推荐师
  • 亚洲美女-造相Z-Turbo多场景落地:文旅宣传中地域特色服饰(和服/韩服/汉服)生成
  • 实战Dell R730xd部署VMware ESXi 7.0U2A:从镜像挂载到系统配置全解析
  • 5个维度掌握XHS-Downloader:从小红书内容获取难题到高效解决方案的完整路径
  • Sunshine游戏串流服务器终极指南:免费打造专业级低延迟游戏体验
  • 智能压枪助手终极指南:如何快速提升射击精度
  • 浙江天木物流有限公司联系方式查询:为跨境电商卖家提供物流合作方信息核验与初步接洽的通用指南 - 品牌推荐
  • 环球出国联系方式查询:一份关于如何有效获取官方信息与进行前期咨询的实用指南 - 品牌推荐
  • UABEAvalonia深度解析:跨平台Unity资源处理终极指南
  • BGE Reranker-v2-m3开源可部署:提供完整Dockerfile与build脚本,便于CI/CD集成
  • RePKG实战指南:深度解析Wallpaper Engine资源逆向工程
  • 揭秘pywencai:Python量化数据采集的工程化解决方案
  • 魔兽争霸3终极优化指南:如何用WarcraftHelper提升游戏体验
  • CSDN博文中的LaTeX数学公式实战指南——从基础语法到复杂排版