当前位置: 首页 > news >正文

Step-GUI 技术报告解读

模型训练、标准化接口、真实场景评估

1、数据生成:如何高效、低成本地获取可靠训练数据
2、部署协议:如何安全、标准地部署成为新问题;敏感数据(如屏幕截图)最好能留在本地设备处理。
3、场景评测:如何科学评估一个GUI智能体是否真的“好用”?

数据生成部分的内容

1、校准步骤奖励系统
【较低的成本将模型自己运行时产生的“轨迹”,转化为高质量的训练数据】
系统不纠结于模型生成的每一步操作是否完美,而是聚焦于最终任务是否被成功完成。
这个最终结果(成功/失败)的判断,可以通过自动化验证脚本或少量人工审核来高精度、低成本地完成。

问题:最终结果的判断具体是怎么做的?

(1)轨迹级验证
成功的轨迹 => 思考模型 => 七类训练数据(进度跟踪、状态总结、效果预测、自我反思、状态验证、意图执行、动作预测)
失败的轨迹 => 系统 => 知识性数据(如前六类)

思考模型和系统 分别是怎么做的?

(2)训练
基模式Qwen3-VL,三阶段训练
第一步,混合了通用的多模态数据(保持知识储备)和初步的智能体导向数据
第二步,在GUI环境中尝试执行任务,失败任务的针对性补强;辅以高质量的真实操作轨迹数据
第三步,GRPO,复合奖励函数(最终成功,点击精准,操作类型和参数正确,任务完成的流畅度和合理性);半在线探索(失败的尝试 => 提示中注入正确操作作引导)

部署协议部分的内容

高级MCP:云端的主力大模型委派给 端侧的GUI专家模型 做的 明确且常见的GUI任务
高隐私模式:截图和设备信息由 端侧的GUI专家模型分析, 只向云端主力大模型发送 语义摘要

场景评测部分的内容

推出 AndroidDaily,聚焦 出行、购物、社交、娱乐、本地服务
多维分析:
(1)任务类型:筛选、查询、分析
(2)复杂度:原子、组合、条件循环
(3)指令模糊度

4B的开源版本,在复杂任务和指令遵循任务上实测效果不如AutoGLM

http://www.jsqmd.com/news/145544/

相关文章:

  • 纪念币预约自动化工具使用全攻略:告别手忙脚乱的预约时代
  • D触发器电路图实战入门:搭建简单仿真示例
  • Poppler Windows终极指南:免费PDF工具箱快速上手
  • iOS微信红包助手2025终极教程:轻松实现智能自动抢红包
  • 百度网盘密码一键解锁神器:告别繁琐查找,3秒获取访问权限
  • 如何在 Azure 数据工厂中并行化复制活动
  • Windows右键菜单管理终极指南:快速检测与修复冲突问题
  • Arduino IDE串口打印乱码原因深度剖析
  • SONY手机介绍
  • PaddlePaddle镜像如何批量处理推理请求?Batch Inference实现
  • 【拯救HMI】工业HMI通讯协议进阶:OPC UA协议的核心优势与应用
  • 3分钟掌握PlantUML在线绘图:免费高效的UML设计神器
  • 百度网盘提取码自动获取工具:告别手动搜索的终极解决方案
  • SillyTavern桌面版终极打包方案:三步实现跨平台一键启动
  • 终极NVIDIA显卡优化指南:解锁隐藏性能的完整教程
  • xnbcli:星露谷物语XNB文件处理利器
  • 5分钟掌握PlantUML在线编辑器:零基础绘制专业UML图
  • Screen Translator:智能屏幕翻译助手的完整使用指南
  • 纪念币预约神器:零基础快速上手终极指南
  • League Akari:让英雄联盟游戏体验更智能的游戏辅助工具
  • 海口专业厨房食堂设备工程部2025年12月推荐 - 2025年品牌推荐榜
  • 基于SpringBoot+Vue的疫苗预约系统开发毕设
  • 5大深度优化技巧:NVIDIA Profile Inspector显卡性能全面解锁指南
  • PaddlePaddle镜像训练日志分析:定位性能瓶颈的关键
  • 如何快速使用LeaguePrank:英雄联盟段位修改完整指南
  • MMD Tools插件极速安装与Blender深度集成完全指南
  • 基于SpringBoot的宠物领养系统的设计与实现毕业设计
  • 环保型过碳酸钠生产企业有哪些?过碳酸钠源头厂家,过碳酸钠一吨起批的厂家盘点 - 品牌2026
  • 哔哩下载姬终极指南:新手快速掌握B站视频下载技巧
  • 如何用League Akari提升你的LOL游戏效率