当前位置：首页 > news >正文

2025_NIPS_UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

news 2026/8/1 8:58:58

UI-Genie 论文总结与核心内容翻译

一、文章主要内容

UI-Genie 是一个面向移动 GUI 智能体的自改进框架，旨在解决 GUI 智能体训练中的两大核心挑战：轨迹结果验证困难和高质量训练数据难以规模化生成。

核心构成

奖励模型 UI-Genie-RM：采用图文交错架构，能高效处理历史交互上下文，同时统一动作级和任务级奖励评估，实现单步动作正确性与整体任务完成度的一体化判断。
自改进流水线：通过奖励引导的轨迹探索、训练数据扩展和迭代模型微调，让智能体模型与奖励模型协同进化，逐步提升复杂 GUI 任务的解决能力。
专用数据集：构建了首个 GUI 智能体专用奖励数据集 UI-Genie-RM-517k（含 517k 奖励样本）和高质量合成轨迹数据集 UI-Genie-Agent-16k（含 16k 无人工标注的合成轨迹）。

关键技术

数据生成策略：通过规则-based 验证、受控轨迹损坏、难负样本挖掘生成多样化训练数据；
奖励引导探索：采用奖励引导的束搜索替代传统蒙特卡洛树搜索，高效发现优质轨迹；
迭代优化：分三轮逐步提升任务复杂度，利用成功轨迹扩展智能体训练数据，通过失败轨迹中的正确步骤优化奖励模型。

实验结果

在 A

http://www.jsqmd.com/news/695897/

相关文章：

Qwen1.5-1.8B-Chat-GPTQ-Int4开源镜像：滑动窗口注意力对长文本中文理解能力影响

别让PICkit3.5+吃灰了！手把手教你激活硬件仿真，搞定485通讯调试难题

Scikit-learn梯度提升超快

Spring Boot 3.x 开发中消息积压时的消费速率控制问题详解

2026食品农业检测机构推荐指南：农药第三方检测/医药第三方检测/土壤检测/宠物食品检测/检测机构实验室/水质检测/选择指南 - 优质品牌商家

React18极客园

如何用Red Panda C++开发环境解锁高效编程体验？

范浩强：从IOI金牌到AI创业者的十四年征程

（UPDATING）LLM微调之实战，SFTTrainer官方案例、LoRA/QloRA微调案例、Unsloth、分布式训练、LLaMA Factory

LinkSwift网盘直链下载助手：告别限速的终极解决方案

Flux2-Klein-9B-True-V2保姆级教程：supervisor.conf配置文件深度解析

深入SOEM源码：SDO读写函数背后的EtherCAT邮箱通信机制与性能调优

Voxtral-4B-TTS-2603效果实测：同一音色下不同语言（英/法/西）韵律节奏差异

第四章-09-练习案例：有几个偶数

杨沐：那个从福州三中走出的IOI金牌少年，和他旷视传奇

AI Agent大厂实习vs创业公司：哪个更值得去

C语言二维数组

HTML函数运行慢是硬件问题吗_HTML函数卡顿原因排查技巧【详解】

安卓应用开发中协程作用域未正确取消问题详解

Qwen3-ASR-0.6B多场景落地指南：从边缘设备到云端集群部署

Qwen3.5-27B工业设计辅助：CAD截图理解+技术参数补全效果展示

西门子TIA Portal V17实战：手把手教你用EnTalk PCIe板卡打通PROFINET与Modbus RTU

AI Agent开发者薪资倒挂现象：应届生比老员工高

别再滥用Dynamic NavMesh了！UE4/UE5导航系统性能对比与正确配置指南

告别手动测试：如何用CANoe的LIN一致性测试模块自动化你的ECU验证流程？

2024年Mathorcup数学建模C题：从思路解析到代码实现的完整攻关指南

基于多模态大模型的桌面自动化工具autoMate实战指南

量子相位估计与Suzuki-Trotter分解在量子计算中的应用

机器学习初学者必备工具链与实战指南