当前位置: 首页 > news >正文

2025_NIPS_UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

UI-Genie 论文总结与核心内容翻译

一、文章主要内容

UI-Genie 是一个面向移动 GUI 智能体的自改进框架,旨在解决 GUI 智能体训练中的两大核心挑战:轨迹结果验证困难和高质量训练数据难以规模化生成。

核心构成

  1. 奖励模型 UI-Genie-RM:采用图文交错架构,能高效处理历史交互上下文,同时统一动作级和任务级奖励评估,实现单步动作正确性与整体任务完成度的一体化判断。
  2. 自改进流水线:通过奖励引导的轨迹探索、训练数据扩展和迭代模型微调,让智能体模型与奖励模型协同进化,逐步提升复杂 GUI 任务的解决能力。
  3. 专用数据集:构建了首个 GUI 智能体专用奖励数据集 UI-Genie-RM-517k(含 517k 奖励样本)和高质量合成轨迹数据集 UI-Genie-Agent-16k(含 16k 无人工标注的合成轨迹)。

关键技术

  • 数据生成策略:通过规则-based 验证、受控轨迹损坏、难负样本挖掘生成多样化训练数据;
  • 奖励引导探索:采用奖励引导的束搜索替代传统蒙特卡洛树搜索,高效发现优质轨迹;
  • 迭代优化:分三轮逐步提升任务复杂度,利用成功轨迹扩展智能体训练数据,通过失败轨迹中的正确步骤优化奖励模型。

实验结果

在 A

http://www.jsqmd.com/news/695897/

相关文章:

  • Qwen1.5-1.8B-Chat-GPTQ-Int4开源镜像:滑动窗口注意力对长文本中文理解能力影响
  • 别让PICkit3.5+吃灰了!手把手教你激活硬件仿真,搞定485通讯调试难题
  • Scikit-learn梯度提升超快
  • Spring Boot 3.x 开发中消息积压时的消费速率控制问题详解
  • 2026食品农业检测机构推荐指南:农药第三方检测/医药第三方检测/土壤检测/宠物食品检测/检测机构实验室/水质检测/选择指南 - 优质品牌商家
  • React18极客园
  • 如何用Red Panda C++开发环境解锁高效编程体验?
  • 范浩强:从IOI金牌到AI创业者的十四年征程
  • (UPDATING)LLM微调之实战,SFTTrainer官方案例、LoRA/QloRA微调案例、Unsloth、分布式训练、LLaMA Factory
  • LinkSwift网盘直链下载助手:告别限速的终极解决方案
  • Flux2-Klein-9B-True-V2保姆级教程:supervisor.conf配置文件深度解析
  • 深入SOEM源码:SDO读写函数背后的EtherCAT邮箱通信机制与性能调优
  • Voxtral-4B-TTS-2603效果实测:同一音色下不同语言(英/法/西)韵律节奏差异
  • 第四章-09-练习案例:有几个偶数
  • 杨沐:那个从福州三中走出的IOI金牌少年,和他旷视传奇
  • AI Agent大厂实习vs创业公司:哪个更值得去
  • C语言二维数组
  • HTML函数运行慢是硬件问题吗_HTML函数卡顿原因排查技巧【详解】
  • 安卓应用开发中协程作用域未正确取消问题详解
  • Qwen3-ASR-0.6B多场景落地指南:从边缘设备到云端集群部署
  • Qwen3.5-27B工业设计辅助:CAD截图理解+技术参数补全效果展示
  • 西门子TIA Portal V17实战:手把手教你用EnTalk PCIe板卡打通PROFINET与Modbus RTU
  • <iostream>
  • AI Agent开发者薪资倒挂现象:应届生比老员工高
  • 别再滥用Dynamic NavMesh了!UE4/UE5导航系统性能对比与正确配置指南
  • 告别手动测试:如何用CANoe的LIN一致性测试模块自动化你的ECU验证流程?
  • 2024年Mathorcup数学建模C题:从思路解析到代码实现的完整攻关指南
  • 基于多模态大模型的桌面自动化工具autoMate实战指南
  • 量子相位估计与Suzuki-Trotter分解在量子计算中的应用
  • 机器学习初学者必备工具链与实战指南