当前位置: 首页 > news >正文

Holo1.5:开启智能交互新纪元的计算机使用代理基础模型

Holo1.5:开启智能交互新纪元的计算机使用代理基础模型

【免费下载链接】Holo1.5-7B项目地址: https://ai.gitcode.com/hf_mirrors/Hcompany/Holo1.5-7B

模型概述

计算机使用(CU)代理是一类能够代表用户与真实应用程序(包括网页、桌面和移动应用)进行交互的人工智能系统。它们具备界面导航、元素操作和内容问答等能力,为用户打造强大的自动化与生产力工具。随着数字化任务日益复杂,CU代理的重要性愈发凸显,它们让人类能够安全高效地将复杂数字任务委托给AI处理。

Holo1.5系列模型为构建此类代理提供了业界领先的基础能力。该系列在跨网页、计算机和移动环境的用户界面(UI)定位基于UI的问答(QA)任务中表现卓越,在多项权威基准测试中取得优异成绩,包括Screenspot-V2、Screenspot-Pro、GroundUI-Web、Showdown以及新发布的WebClick数据集。

Holo1.5系列提供三种不同规模的模型以满足多样化部署需求:

  • 3B版本:继承自Qwen模型的许可协议
  • 7B版本:完全开源,采用Apache 2.0许可
  • 72B版本:仅限研究使用(非商业用途)。商业用途请联系我们获取授权

这些模型旨在为下一代CU代理(如Surfer-H)提供可靠、准确且高效的技术基础,使其能够以前所未有的能力操控真实应用程序。

  • 开发机构H公司
  • 模型类型:面向计算机使用代理的视觉语言模型(VLM)
  • 微调基础模型:Qwen/Qwen2.5-VL-7B-Instruct
  • 技术博客:https://www.hcompany.ai/blog/holo-1-5
  • 许可协议:Apache 2.0许可协议

训练策略

Holo1.5模型采用高质量专有数据进行UI理解和动作预测训练,遵循多阶段训练流程。训练数据集经过精心筛选,融合了开源数据集、大规模合成数据和人工标注样本,形成全面的训练素材。

训练过程分为两大阶段:首先进行大规模监督微调,随后实施在线强化学习(GRPO)。最终模型支持高达3840×2160像素的高分辨率输入,能够精准高效地解析复杂屏幕界面并预测操作动作。

性能表现

UI定位任务的突破性进展

UI定位是指代理在用户界面中精确识别元素(按钮、文本框、图片等)位置的能力。对于CU代理而言,这项能力至关重要——无论是点击按钮、填写表单还是读取信息,都需要准确定位界面元素。

我们在多个标准UI定位基准上对Holo1.5模型进行了全面评估,包括Screenspot-V2、Screenspot-Pro、GroundUI-Web、Showdown以及新推出的WebClick。

评估结果显示:

  • 7B和72B版本模型性能超越所有现有模型,平均定位精度提升4.5%
  • 3B版本虽规模较小,但性能可与其他7B级模型媲美,展现出优异的资源效率

这些成果在开源UI定位领域建立了新的帕累托最优边界,实现了模型规模与定位精度之间的最佳平衡,为CU代理技术树立了新标准。

该图展示了不同模型在UI定位精度与模型大小之间的权衡关系。Holo1.5系列模型在图中形成明显的优势区域,表明在相同计算资源下能够提供更高的定位精度,为开发者选择适合部署需求的模型提供了直观参考。

此图表对比了Holo1.5系列与其他主流模型在各项UI定位基准测试中的表现。通过柱状图可以清晰看到Holo1.5-72B在多数任务中处于领先位置,7B版本也显著优于同级别竞品,验证了该系列模型在UI定位任务上的全面优势。

模型WebClickShowdownScreenSpot-v2ScreenSpot-ProGround-UI-1KOSWorld-G平均值
Holo1.5-3B81.4567.5091.6651.4983.2061.5772.81
Holo1.5-7B90.2472.1793.3157.9484.0066.2777.32
Holo1.5-72B92.4376.8494.4163.2584.5071.8080.54
Qwen2.5-VL-3B71.2050.3080.0029.3076.4034.3156.92
Qwen2.5-VL-7B76.5152.0085.6029.0080.7040.5960.73
Qwen2.5-VL-72B88.2941.0093.3055.6085.4061.9670.93
UI-TARS-1.5-7B86.1058.0094.0039.0084.2061.4070.45
Holo1-7B84.0464.2789.8526.0678.5047.2565.00
Holo1-3B79.3559.9688.9123.6674.7542.1661.47
UI-Venus-7B84.4467.3294.1050.8082.3058.8072.96
UI-Venus-72B77.0075.5895.3061.9075.5070.4075.95
Sonnet 493.0072.0093.0019.1084.0059.6070.12

表1:主流模型的定位基准测试分数。粗体表示当前最佳性能,斜体数据来自先前报道,常规字体数据为内部复现结果

屏幕内容理解与问答能力的卓越表现

对于GUI代理而言,精确的定位能力固然重要,但理解界面结构和功能以实现有效交互同样关键。为评估这些综合能力,我们在多个GUI问答基准上测试了Holo1.5模型,包括ScreenQA Short、ScreenQA Complex、VisualWebBench和WebSRC。这些基准测试全面衡量模型对UI的理解和推理能力,确保其能在各种应用场景中准确执行任务。

该图呈现了模型在UI问答性能与参数量之间的关系。Holo1.5系列模型形成的曲线明显位于其他模型上方,表明其在相同模型规模下能够提供更优的问答性能,尤其72B版本在保持高性能的同时实现了效率突破。

此图表展示了不同模型在各项UI问答任务中的得分情况。Holo1.5-72B在所有测试中均表现最佳,7B版本也显著领先于同级别模型,证明了该系列在理解复杂界面内容方面的强大能力,这对构建实用的计算机使用代理至关重要。

模型VisualWebBenchWebSRCScreenQAShortScreenQAComplex平均值
Holo1.5-3B78.5094.8087.9081.4085.65
Holo1.5-7B82.6095.9091.0083.2088.17
Holo1.5-72B83.8097.2091.9087.1090.00
Qwen2.5-VL-3B58.0093.0086.0076.0078.25
Qwen2.5-VL-7B69.0095.0087.0081.1083.02
Qwen2.5-VL-72B76.3097.0087.9083.2086.10
UI-TARS-1.5-7B79.7092.9088.7079.2085.12
Holo1-3B54.1093.9078.3053.5069.95
Holo1-7B38.1095.3083.3065.1070.45
UI-Venus-7B60.9096.6086.3082.3081.52
UI-Venus-72B74.1096.7088.6083.3085.67
Claude-Sonnet-458.9096.0087.0075.7079.40

表2:主流模型的屏幕内容问答基准测试分数。粗体表示当前最佳性能

Holo1.5模型在GUI问答任务中表现出令人印象深刻的能力,较现有最佳模型提升3.9%。这一成果证明其在网页和桌面环境中具备强大的视觉感知能力,这对于计算机使用代理完成复杂任务至关重要。

演示体验

观看演示视频,了解如何在计算机使用场景中与模型进行交互:

您也可以在Hugging Face 空间体验实时演示。

未来展望

我们的目标是构建经济高效且可靠的计算机使用代理。Holo1.5的发布是实现这一愿景的重要一步,有助于促进该技术的信任度和广泛采用。

这一里程碑仅仅是开始——在未来几周,我们将推出更多基于Holo模型的新工具和代理应用。

敬请期待——我们才刚刚起步!

引用格式

@misc{hai2025holo15modelfamily, title={Holo1.5 - Open Foundation Models for Computer Use Agents}, author={H Company}, year={2025}, url={https://huggingface.co/collections/Hcompany/holo15-68c1a5736e8583a309d23d9b}, }

【免费下载链接】Holo1.5-7B项目地址: https://ai.gitcode.com/hf_mirrors/Hcompany/Holo1.5-7B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/79959/

相关文章:

  • OpenAI Whisper参数全解析:从入门到精通的语音转文本配置指南
  • FLUX.1 Kontext Dev:开源图像编辑领域的革命性突破
  • 文本驱动视频编辑革命:Lucy Edit AI重新定义动态视觉创作边界
  • CoDA:革新代码生成的扩散适配语言模型震撼登场
  • 7100万参数改写行业格局:T-one引领俄语电话语音识别技术变革
  • 本地AI革命:Locally AI重塑移动设备隐私计算新范式
  • Mistral AI发布Magistral Small 1.2:24B参数模型实现多模态推理跃升,消费级硬件即可部署
  • 区块链可投会议CCF B--CSF 2026 截止1.29 附录用率
  • JavaScript 的全栈同构渲染(Isomorphic Rendering):前后端响应式状态的序列化与重新激活逻辑
  • 智谱AI发布GLM-4.5V-FP8视觉语言模型,多模态理解能力突破行业纪录
  • 韩松团队突破4位量化技术瓶颈:SVDQuant让FLUX模型推理效率飙升
  • 沁言学术深度体验:一款重新定义科研写作的智能伙伴
  • IBM推出Granite 4.0开源语言模型:以混合架构解决企业AI部署成本难题
  • 轻量化AI模型的取舍:推理效率与知识覆盖的平衡之道
  • springboot的docker容器实战之上传文件中文乱码
  • 251212哇居然有人因为打球打起来了
  • 2025年AI推理里程碑:Inclusion AI开源万亿参数模型Ring-1T,数学推理性能跃升14%
  • Qwen3-4B:新一代开源大模型的突破性进展与多场景应用指南
  • 开源大模型新突破:GLM-4-32B-0414横空出世,参数规模与性能双革新引领行业发展
  • 【附操作指南】从 Oceanbase 增量数据同步到 TiDB
  • 从 SQL Server 到 TiDB:打破海量数据性能瓶颈,降本增效新选择
  • 2、Linux 设备驱动开发入门指南
  • 3、深入探究内核模块:构建、运行与优化
  • 4、字符设备驱动开发指南
  • MiniCPM 4.1:重新定义端侧AI体验的混合智能引擎
  • 5、内核调试技术全解析
  • Ai绘画X下雪:朋友圈新式晒图方式。
  • 6、Linux并发与竞态条件管理全解析
  • 7、高级字符设备驱动操作指南
  • 8、Linux内核中的时间处理、延迟与异步工作调度