当前位置: 首页 > news >正文

OmniBench

提出了OmniBench—— 一个自生成、跨平台、图结构的虚拟代理评估基准,以及配套的OmniEval多维度评估框架。论文通过自动化任务合成、精细粒度能力评估,系统揭示了当前虚拟代理的能力边界,并验证了图结构数据对代理训练的增益,为虚拟代理的研发提供了标准化工具和关键洞察。

一、研究背景与核心问题

随着多模态大语言模型(MLLMs)的发展,基于 MLLMs 的虚拟代理在网页导航、设备控制、计算机交互等场景中展现出潜力,但现有评估基准存在显著局限:

  1. 任务复杂度不可控且固定:现有基准多直接提供完整任务,无法按能力维度生成渐进式复杂度任务,难以适配不同水平的代理,也无法精准定位能力瓶颈;
  2. 人工标注成本高且场景有限:依赖人工标注演示轨迹或评估函数,规模扩展困难,且标注数据受人类经验局限,难以覆盖多样化真实场景;
  3. 缺乏多维度细粒度评估:仅关注任务最终结果或与人类轨迹的相似度,忽略中间执行过程,无法量化代理在规划、指令理解等细分能力上的表现,难以指导后续优化。

为解决上述问题,论文核心目标是:构建一个低成本、可扩展、复杂度可控的基准,以及一套多维度、细粒度的评估框架,全面衡量虚拟代理的核心能力。

二、相关工作综述

  1. 虚拟数字代理:现有代理(如 CogAgent、SeeClick、UGround)在 GUI 理解、视觉接地等方面取得进展,但缺乏统一的评估标准来量化其综合能力;
  2. 虚拟代理基准
    • 轨迹基基准(如 AndroidInTheWild):对比代理与人类轨迹相似度,但忽略多可行轨迹的合理性;
    • 结果基基准(如 OSWorld):关注任务最终状态,缺乏中间过程评估;
    • 图结构基准(如 CRAB、TASKBENCH):支持多轨迹和中间评估,但任务分析不系统,缺乏复杂度可控性和多维度能力覆盖。

论文指出,OmniBench 是首个通过图结构定义可组合任务复杂度、并评估多类核心能力的可扩展基准。

三、核心设计:OmniBench 基准构建

OmniBench 的核心是图结构任务表示自动化任务合成流水线,实现 “复杂度可控、场景多样、低成本生成” 的目标,具体设计如下:

1. 任务图与五维复杂度定义

论文将任务建模为有向无环图(DAG)G={S,R},其中:

  • S={s1​,s2​,...,sn​} 为子任务集合(每个子任务是独立可执行的最小单元,含输入 / 输出资源);
  • R={(sa​,sb​)} 为子任务依赖关系(sb​ 依赖 sa​ 的输出资源作为输入)。

基于图拓扑结构,论文定义五维任务复杂度,每类复杂度分 “简单 / 中等 / 困难” 三级,可精准控制任务难度:

表格

复杂度维度计算方式简单中等困难
依赖复杂度图中边的数量(子任务依赖数)≤12~3≥4
指令复杂度图中节点的数量(子任务数)≤23~4≥5
知识复杂度涉及的应用类别数≤12~3≥4
层级复杂度图的深度(子任务层级数)≤23~4≥5
分支复杂度图的宽度(并行子任务数)≤23~4≥5
2. 自动化任务合成流水线(Bottom-up)

为避免人工标注,论文设计四步自动化流水线,生成 36k 高质量图结构任务,人类接受率达 91%:

  1. 子任务探索:构建含 49 个应用(覆盖办公、多媒体、编程等 12 类)的环境,让 MLLMs 结合应用文档和示例,生成多样化可执行子任务,并定义每个子任务的输入 / 输出资源(如 “下载图片” 的输入是 “图片 URL”,输出是 “本地图片路径”);
  2. 迭代合成
    • 轨迹合成:用先进 MLLMs 生成子任务的执行轨迹(含截图、动作、思考过程);
    • 评估函数合成:预定义 11 个系统级 API(如检查文件存在、键盘输入、文本识别),通过 Code LLM(Claude-3.5-Sonnet)组合 API,生成子任务的细粒度评估函数(支持部分得分);
    • 交叉验证:迭代优化轨迹和评估函数,确保准确性;
  3. 任务组合:提取 “任务意图”(如 “为 Emily 创建个人介绍 PPT”),将子任务池中的相关子任务按资源依赖关系组合为图结构任务,避免无意义组合(如 “打开外卖 APP 后立即关闭”);
  4. 任务验证:用 GPT-4o 基于任务图生成自然语言指令,再让 GPT-4o 仅通过指令推断子任务依赖,若与原图一致则验证通过,确保指令与图结构语义对齐。
3. OmniBench 核心特征与统计
  • 任务规模:36,076 个图结构任务,是主流环境基准的 40 倍;
  • 场景覆盖:20 个真实场景(如办公协作、视频编辑、屏幕录制),支持桌面 / 移动 / 网页跨平台评估;
  • 任务类型:含网络独立本地任务(53.95%)和网络依赖真实任务(46.05%),平均每个任务涉及 2.21 个应用;
  • 复杂度分布:困难级任务占比最高(如知识复杂度 52.4%、分支复杂度 46.7%),符合真实场景任务特性。

四、评估框架:OmniEval 多维度能力评估

OmniEval 针对虚拟代理的核心能力,设计细粒度评估指标10 类能力测试集,实现 “过程可量化、能力可拆解” 的评估目标:

1. 图基评估器与双指标设计

针对传统评估的粗粒度缺陷,OmniEval 引入图基评估器,定义子任务的三种状态(Completed/Evaluating/Waiting),按拓扑序逐步评估,并设计两个核心指标:

  • 覆盖率(Coverage Rate, CR):量化代理在任务图上的进展,对深层子任务(依赖多)赋予更高权重,公式如下:w(si​)=∑j=1n​d(sj​)d(si​)​,CR=∑i=1n​w(si​)∑i=1n​w(si​)⋅I(si​)​其中 d(si​) 为子任务 si​ 的深度,I(si​)=1 表示子任务完成;
  • 逻辑一致性(Logical Consistency, LC):量化代理与人类操作逻辑的相似度(人类倾向于完成同一应用的子任务后再切换),公式如下:LC=CSmax​CSagent​​其中 CS 为子任务序列的连贯性得分(相邻子任务同应用则 + 1),CSmax​ 为所有拓扑序列中的最大连贯性得分。
2. 10 类核心能力与测试集构建

论文将虚拟代理的核心能力拆解为 10 类,每类能力对应特定的五维复杂度组合(通过约束复杂度维度生成测试任务),具体如下:

表格

能力类别核心要求对应复杂度组合(困难级)
并行规划(PP)处理多并行子任务依赖复杂度 + 分支复杂度
长程规划(LRP)处理深层级依赖子任务依赖复杂度 + 层级复杂度
长序列推理(LSR)处理长序列子任务指令复杂度 + 层级复杂度
长指令遵循(LIF)理解长文本指令层级复杂度 + 分支复杂度
顺序决策(SDK)按序完成依赖子任务层级复杂度 + 分支复杂度
跨域决策(CDDK)跨应用类别完成任务分支复杂度 + 知识复杂度
子任务识别(SI)从指令中拆解子任务依赖复杂度 + 指令复杂度
依赖识别(DI)识别子任务间依赖关系依赖复杂度 + 指令复杂度
跨域知识(CDK)运用多应用领域知识指令复杂度 + 知识复杂度
领域特定知识(DSK)运用单一应用专业知识指令复杂度 + 知识复杂度(单一领域)

五、实验设计与核心结果

论文在 OmniBench 上评估了 12 种主流模型(开源 MLLMs、闭源 MLLMs、虚拟代理、基于 OmniBench 微调的代理),并通过多维度分析揭示虚拟代理的能力边界和优化方向。

1. 实验设置
  • 硬件:NVIDIA A100 80G GPU;
  • 输入:统一缩放图像至 1024×1024,支持截图 + 辅助技术(A11Y)双模态输入;
  • 基线模型:4 类共 12 个模型(如 GPT-4o、Qwen2-VL-7B、Aguvis-7B、OS-Atlas-Pro-4B 等);
  • 微调模型:基于 OmniBench 数据微调 OS-Atlas-Base-4B 和 UGround-V1-7B,验证图结构数据的有效性。
2. 核心实验结果
(1)主流代理的能力边界
  • 整体性能:GPT-4o 表现最优(CR=38.7、LC=49.0),但远低于人类基线(CR=80.1、LC=92.8);开源模型(如 InternVL2.5-8B)和普通虚拟代理(如 Aguvis-7B)性能更低(CR≈17-25);
  • 能力短板:所有模型在子任务识别(SI)长指令遵循(LIF)上表现最差,即使 GPT-4o 的 SI 仅 30.6、LIF 仅 32.2,远低于人类的 69.1 和 66.1,成为当前代理的核心瓶颈;
  • 微调增益:基于 OmniBench 微调的代理(如 Omni-UGround-V1-7B)在规划、决策类能力上显著提升(SDK=42.4、CDDK=43.1),验证了图结构数据的训练价值。
(2)图结构任务处理能力薄弱

对比链结构(线性)和图结构(含并行 / 分支)任务(节点 / 边数、知识复杂度一致),发现:

  • GPT-4o 在图结构任务上的准确率仅 20.5%,远低于人类的 80.1% 和链结构任务的 35.2%;
  • 原因:现有代理多在链结构数据上微调,倾向于将图结构任务解读为线性,难以识别子任务依赖关系。
(3)任务复杂度的影响

所有模型的性能随复杂度提升显著下降,平均下降 6.19 分,且在指令复杂度知识复杂度上的下降最明显(如 UGround-7B 在困难级指令复杂度任务上性能下降 13.6 分),验证了 OmniBench 复杂度控制的有效性。

3. 深度分析
(1)任务意图的关键作用
  • 闭源模型:在 prompt 中加入任务意图(如 “为 Emily 创建 PPT”),规划性能平均从 23.4% 提升至 28.9%,GPT-4o 提升最显著(+8.9 分);
  • 开源模型:微调数据中加入任务意图,规划性能从 30.5% 提升至 31.9%,证明任务意图能帮助代理把握核心目标,优化规划逻辑。
(2)指令表达顺序的敏感性
  • 现有代理(如 OS-Atlas-Pro、Aguvis)对指令顺序敏感(标准差平均 8.21),顺序变化导致性能波动;
  • 基于 OmniBench 微调的代理(如 Omni-OS-Atlas)敏感性降低 7.91 分,说明图结构数据能帮助代理识别指令中的内在依赖,提升鲁棒性。
(3)错误类型分析

对 100 个失败案例的分析显示,代理失败的五大原因:

  1. 幻觉成功(36%):错误认为任务完成(上下文记忆薄弱);
  2. 指令理解错误(23%):忽略指令关键操作(如保存文件);
  3. 知识缺失(21%):不熟悉应用功能(如 Zotero 创建参考文献列表);
  4. 接地错误(17%):知道要点击的目标,但定位错误;
  5. 环境干扰(3%):网络延迟等外部因素。

六、消融实验与扩展性验证

1. 质量控制模块的有效性

OmniBench 的三个质量控制模块(交叉验证、意图提取、一致性验证)对任务质量至关重要:

  • 移除交叉验证:人类接受率从 90.7% 降至 61.2%(最大降幅);
  • 移除意图提取:接受率降至 82.7%;
  • 移除一致性验证:接受率降至 86.5%,证明三者协同保障了任务的合理性和语义一致性。
2. 跨基准扩展性

在 AndroidControl 和 OmniAct 基准上,基于 OmniBench 微调的代理表现更优:

  • Omni-OS-Atlas-4B 在 AndroidControl 上的成功率提升 0.46 分,OmniAct 上提升 0.73 分;
  • Omni-UGround-V1-7B 在 AndroidControl 上提升 0.4 分,OmniAct 上提升 0.3 分,验证了 OmniBench 数据的泛化价值。

七、结论与贡献

1. 核心贡献
  1. 提出OmniBench:首个自生成、跨平台、图结构基准,通过五维复杂度定义和自动化流水线,生成 36k 高质量任务,解决现有基准的复杂度不可控和标注成本高问题;
  2. 提出OmniEval:首个多维度评估框架,设计细粒度指标和 10 类能力测试集,实现任务过程和核心能力的量化评估;
  3. 系统揭示能力边界:通过大规模实验,发现当前代理在图结构任务、子任务识别、长指令遵循上的核心短板,并验证了任务意图和图结构数据的优化价值;
  4. 开源资源:项目开源(https://omni-bench.github.io/),为虚拟代理研发提供标准化工具。
2. 未来方向
  • 扩展更多环境(如嵌入式设备)和任务类型(如实时协作任务);
  • 探索更高效的图结构数据利用方式,进一步提升代理的复杂任务处理能力;
  • 优化评估框架,支持动态复杂度调整和实时能力反馈。
http://www.jsqmd.com/news/524350/

相关文章:

  • LIO-SAM建图漂移?别急着调参,先检查你的IMU和雷达安装!
  • 6.3.1 软件->W3C XPath 1.0 标准(W3C Recommendation):XPath(XML Path Language)查询语言
  • XSS攻防实战笔记:从反射、存储到DOM型的漏洞原理与靶场复现
  • Windows下Telepresence避坑全记录:从安装报错到成功连接k8s集群
  • YOLO入门(25.10)
  • 如何高效下载无水印抖音视频?开源工具全解析与实践指南
  • 线性分类器:从基础概念到逻辑运算的实战解析
  • Qt C++ Modbus实现,可直接用于项目,测试通过
  • Java多线程学习(六)
  • 20253312 实验一《Python程序设计》实验报告
  • 论文写作新利器:书匠策AI,让数据分析变得像呼吸一样自然!
  • 2026年生鲜配送软件应用白皮书 中央厨房数字化剖析 - 优质品牌商家
  • 2026.3.23
  • 智能文字提取新标杆:Text-Grab本地化OCR工具全解析
  • LLM批处理系统:自适应并发控制;断点续传与进度追踪
  • 书匠策AI:论文数据分析的“超级外挂”,让学术研究如虎添翼
  • CloudWatch 告警实战:CPU 飙了自动扩容,账单超了 Slack 通知
  • 2026年水泥预制烟道厂家实力推荐榜:矩形/机制/装配式/锅炉专用烟道,精选耐用建材与专业工艺解析 - 品牌企业推荐师(官方)
  • 2026年3月郑州搬家公司最新推荐:金水区搬家、上街区搬家、惠济区搬家、荥阳搬家、新密搬家、新郑搬家公司选择指南 - 海棠依旧大
  • 2026年体育学论文降AI率工具推荐:运动训练方向同学看过来
  • 论文写作新利器:书匠策AI,让数据分析“智”在必得!
  • Electron应用安装包定制指南:如何用NSH脚本打造个性化安装界面(附完整代码示例)
  • 川内制造业短期工招聘服务品牌评测报告:就近安排找工作/工厂劳务外包派遣/工厂劳务派遣外包/工厂直招找工作/当天入职劳务派遣/选择指南 - 优质品牌商家
  • 省电神器!STM32G030的ADC低功耗采样方案:TIMER+DMA+HAL库全配置指南
  • 书匠策AI:论文数据分析的“超级外挂”,让科研之路畅通无阻
  • PD-L1重组兔单抗如何助力肿瘤免疫治疗的机制研究与疗效评估?
  • 2026化妆品源头工厂趋势:从规模到价值的跃迁 - 速递信息
  • # 发散创新:用 WebSocket 实现实时聊天系统的全链路架构设计
  • 企业在豆包做AI推广联系哪家公司?专业服务商深度解析 - 品牌2026
  • vxe-table列头合并避坑指南:从基础配置到高级动态调整