2025_NIPS_UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents
UI-Genie 论文总结与核心内容翻译
一、文章主要内容
UI-Genie 是一个面向移动 GUI 智能体的自改进框架,旨在解决 GUI 智能体训练中的两大核心挑战:轨迹结果验证困难和高质量训练数据难以规模化生成。
核心构成
- 奖励模型 UI-Genie-RM:采用图文交错架构,能高效处理历史交互上下文,同时统一动作级和任务级奖励评估,实现单步动作正确性与整体任务完成度的一体化判断。
- 自改进流水线:通过奖励引导的轨迹探索、训练数据扩展和迭代模型微调,让智能体模型与奖励模型协同进化,逐步提升复杂 GUI 任务的解决能力。
- 专用数据集:构建了首个 GUI 智能体专用奖励数据集 UI-Genie-RM-517k(含 517k 奖励样本)和高质量合成轨迹数据集 UI-Genie-Agent-16k(含 16k 无人工标注的合成轨迹)。
关键技术
- 数据生成策略:通过规则-based 验证、受控轨迹损坏、难负样本挖掘生成多样化训练数据;
- 奖励引导探索:采用奖励引导的束搜索替代传统蒙特卡洛树搜索,高效发现优质轨迹;
- 迭代优化:分三轮逐步提升任务复杂度,利用成功轨迹扩展智能体训练数据,通过失败轨迹中的正确步骤优化奖励模型。
实验结果
在 A
