当前位置: 首页 > news >正文

VISTA-9B实战项目:构建智能GUI测试自动化系统

VISTA-9B实战项目:构建智能GUI测试自动化系统

【免费下载链接】VISTA-9B项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/VISTA-9B

VISTA-9B是基于Qwen3.5 9B骨干模型训练的GUI-grounding视觉语言模型,采用VISTA(View-Consistent Self-Verified Training for GUI Grounding)技术,能够将截图和自然语言指令映射到标准化0-1000图像框架中的点击坐标,为构建智能GUI测试自动化系统提供强大支持。

为什么选择VISTA-9B进行GUI测试自动化?

突破性的GUI定位能力

VISTA-9B通过视图一致性GRPO训练,从同一GUI实例的目标保留视图构建每个GRPO比较组,并在裁剪视图之间进行精确坐标重映射,能够在语义等效但几何不同的截图下展现出色的定位行为。

卓越的性能表现

在GUI Grounding基准测试中,VISTA-9B表现优异。与Qwen3.5-9B相比,在SSPro上达到69.2%的准确率(提升0.9%),SSV2上达到95.8%(提升0.6%),OSWorld-G上达到68.1%(提升0.6%),OSWorld-G-R上达到75.5%(提升0.3%),为GUI测试自动化提供了可靠的技术保障。

快速搭建VISTA-9B智能GUI测试自动化系统

环境准备

首先,确保你的环境中安装了必要的依赖库,包括torch、PIL和transformers等。

模型获取

通过以下命令克隆VISTA-9B项目仓库:

git clone https://gitcode.com/hf_mirrors/inclusionAI/VISTA-9B

初始化模型和处理器

使用transformers库加载VISTA-9B模型和处理器,代码示例如下:

import torch from PIL import Image from transformers import AutoModelForImageTextToText, AutoProcessor model_id = "inclusionAI/VISTA-9B" model = AutoModelForImageTextToText.from_pretrained( model_id, torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True, ) processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)

VISTA-9B在GUI测试自动化中的应用实例

单步GUI元素定位

给定GUI截图和指令,VISTA-9B能够准确输出目标元素的中心坐标。例如,对于"Click the search button"这样的指令,模型会返回类似[512,384]的坐标结果。

构建自动化测试流程

将VISTA-9B集成到测试流程中,可以实现自动识别GUI元素、生成点击坐标,进而驱动测试工具执行相应操作,大大减少手动测试的工作量,提高测试效率。

优化VISTA-9B的GUI测试性能

合理设置提示词

推荐使用以下提示词格式:

Output the center point of the position corresponding to the instruction: {instruction}. The output should just be the coordinates of a point, in the format [x,y].

合适的提示词能够帮助模型更准确地理解任务要求,提高定位精度。

调整生成参数

在模型生成坐标时,可以通过调整max_new_tokens、do_sample等参数来优化输出结果。例如,设置do_sample=False进行确定性解码,有助于获得更稳定的坐标预测。

总结

VISTA-9B作为一款强大的GUI-grounding视觉语言模型,为构建智能GUI测试自动化系统提供了全新的可能。通过其卓越的GUI元素定位能力和简单易用的接口,开发者可以快速搭建高效、准确的自动化测试流程,显著提升软件测试的质量和效率。无论是新手还是有经验的开发者,都能借助VISTA-9B轻松实现GUI测试的智能化升级。

【免费下载链接】VISTA-9B项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/VISTA-9B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/1015926/

相关文章:

  • SAP接口运维日常:手把手教你用WE02、WE19等T-code高效排查IDOC传输故障
  • ONVIF协议调时间踩坑记:海康时区设不上、大华有Bug、宇视XML还不同?
  • 永洪BI高级玩法:用自服务数据集和LOD函数搞定复杂业务逻辑分析(实战案例拆解)
  • PY32F003F18引脚复用避坑指南:串口printf时,千万别踩这几个复用冲突的雷
  • OrCAD原理图设计避坑指南:批量修改元件属性前,先搞懂Instance和Occurrence
  • GPT 5.5多模态能力:工程差距大于模型差距
  • SAP灵活工作流配置避坑指南:从Fiori App激活到SWUE事件测试的完整流程
  • 避坑指南:USR-LG206与LG210的LORA组网配置,为什么你的Python收不到数据?
  • 三菱FX5U网络通信避坑指南:从GX Works3设置到SMLP协议调试全流程复盘
  • 【课程设计/毕业设计】基于 Web 架构的数学试卷自动生成系统的设计与实现 校园数学教学题库组卷 Web 系统【附源码、数据库、万字文档】
  • 从防御者视角看泛微OA SQL注入:手把手教你配置WAF规则拦截browser.jsp攻击
  • 让MacBook刘海屏不再“无聊“:Boring Notch的创意革命
  • 2026年宝鸡衣柜橱柜定制市场深度观察:哪些品牌值得关注? - 优质品牌商家
  • STM32F103C8T6的PC14/PC15引脚,除了接晶振还能干啥?一个硬件工程师的血泪教训
  • Vue项目升级Axios到1.x后,为啥后端突然收不到JSON了?一个配置引发的‘血案’
  • 保姆级教程:用一条带参数的setup命令绕过Oracle 12c安装的OS检查错误
  • Chaos Client 源码解析:深入理解 Go HTTP 客户端与 API 通信机制
  • 告别玄学调参!用逻辑分析仪实测AT24C256的IIC波形,手把手教你读懂ACK/NACK
  • FPGA开发避坑指南:当ZYNQ的DDS输出遇到AN108 ADDA模块,有符号数转无符号数这个坑你踩过吗?
  • 如何通过Awesome Claude Skills构建AI驱动的创意工作流?三大核心技能深度解析
  • 告别‘Unable to open input file’:在Mac上为DOSBox配置汇编开发环境的三个关键细节
  • Arduino Uno连接GY-271模块的3个常见坑与避坑指南(从I2C地址到数据校准)
  • Sentaurus Sdevice CV仿真收敛性调优指南:从‘报错’到‘出图’的实战经验
  • 从PHY到MAC:一次由时钟频偏引发的硬件调试“悬案”全记录
  • 别急着关amp!YOLOv8半精度训练全解析:从NaN loss到零mAP的深度避坑指南
  • 别再只盯着Accuracy了!手把手教你用ENVI Deep Learning正确评估遥感分类模型(附H5文件解读指南)
  • 2026年水下打捞施工行业深度分析:重庆、四川、云南地区服务商能力对比 - 优质品牌商家
  • Zynq Linux驱动开发踩坑记:从Vivado约束到/sys/class/gpio的完整链路
  • 以视频孪生技术为支撑 推进营区物理空间透明化智慧化升级
  • 嵌入式排错实战:当驱动说GPIO是低电平,但万用表测出来却是高电平时,我该怎么办?