当前位置：首页 > news >正文

OmniBench

news 2026/5/12 7:12:27

提出了OmniBench—— 一个自生成、跨平台、图结构的虚拟代理评估基准，以及配套的OmniEval多维度评估框架。论文通过自动化任务合成、精细粒度能力评估，系统揭示了当前虚拟代理的能力边界，并验证了图结构数据对代理训练的增益，为虚拟代理的研发提供了标准化工具和关键洞察。

一、研究背景与核心问题

随着多模态大语言模型（MLLMs）的发展，基于 MLLMs 的虚拟代理在网页导航、设备控制、计算机交互等场景中展现出潜力，但现有评估基准存在显著局限：

任务复杂度不可控且固定：现有基准多直接提供完整任务，无法按能力维度生成渐进式复杂度任务，难以适配不同水平的代理，也无法精准定位能力瓶颈；
人工标注成本高且场景有限：依赖人工标注演示轨迹或评估函数，规模扩展困难，且标注数据受人类经验局限，难以覆盖多样化真实场景；
缺乏多维度细粒度评估：仅关注任务最终结果或与人类轨迹的相似度，忽略中间执行过程，无法量化代理在规划、指令理解等细分能力上的表现，难以指导后续优化。

为解决上述问题，论文核心目标是：构建一个低成本、可扩展、复杂度可控的基准，以及一套多维度、细粒度的评估框架，全面衡量虚拟代理的核心能力。

二、相关工作综述

虚拟数字代理：现有代理（如 CogAgent、SeeClick、UGround）在 GUI 理解、视觉接地等方面取得进展，但缺乏统一的评估标准来量化其综合能力；
虚拟代理基准：
- 轨迹基基准（如 AndroidInTheWild）：对比代理与人类轨迹相似度，但忽略多可行轨迹的合理性；
- 结果基基准（如 OSWorld）：关注任务最终状态，缺乏中间过程评估；
- 图结构基准（如 CRAB、TASKBENCH）：支持多轨迹和中间评估，但任务分析不系统，缺乏复杂度可控性和多维度能力覆盖。

论文指出，OmniBench 是首个通过图结构定义可组合任务复杂度、并评估多类核心能力的可扩展基准。

三、核心设计：OmniBench 基准构建

OmniBench 的核心是图结构任务表示和自动化任务合成流水线，实现 “复杂度可控、场景多样、低成本生成” 的目标，具体设计如下：

1. 任务图与五维复杂度定义

论文将任务建模为有向无环图（DAG）G={S,R}，其中：

S={s1,s2,...,sn} 为子任务集合（每个子任务是独立可执行的最小单元，含输入 / 输出资源）；
R={(sa,sb)} 为子任务依赖关系（sb 依赖 sa 的输出资源作为输入）。

基于图拓扑结构，论文定义五维任务复杂度，每类复杂度分 “简单 / 中等 / 困难” 三级，可精准控制任务难度：

表格

复杂度维度	计算方式	简单	中等	困难
依赖复杂度	图中边的数量（子任务依赖数）	≤1	2~3	≥4
指令复杂度	图中节点的数量（子任务数）	≤2	3~4	≥5
知识复杂度	涉及的应用类别数	≤1	2~3	≥4
层级复杂度	图的深度（子任务层级数）	≤2	3~4	≥5
分支复杂度	图的宽度（并行子任务数）	≤2	3~4	≥5

2. 自动化任务合成流水线（Bottom-up）

为避免人工标注，论文设计四步自动化流水线，生成 36k 高质量图结构任务，人类接受率达 91%：

子任务探索：构建含 49 个应用（覆盖办公、多媒体、编程等 12 类）的环境，让 MLLMs 结合应用文档和示例，生成多样化可执行子任务，并定义每个子任务的输入 / 输出资源（如 “下载图片” 的输入是 “图片 URL”，输出是 “本地图片路径”）；
迭代合成：
- 轨迹合成：用先进 MLLMs 生成子任务的执行轨迹（含截图、动作、思考过程）；
- 评估函数合成：预定义 11 个系统级 API（如检查文件存在、键盘输入、文本识别），通过 Code LLM（Claude-3.5-Sonnet）组合 API，生成子任务的细粒度评估函数（支持部分得分）；
- 交叉验证：迭代优化轨迹和评估函数，确保准确性；
任务组合：提取 “任务意图”（如 “为 Emily 创建个人介绍 PPT”），将子任务池中的相关子任务按资源依赖关系组合为图结构任务，避免无意义组合（如 “打开外卖 APP 后立即关闭”）；
任务验证：用 GPT-4o 基于任务图生成自然语言指令，再让 GPT-4o 仅通过指令推断子任务依赖，若与原图一致则验证通过，确保指令与图结构语义对齐。

3. OmniBench 核心特征与统计

任务规模：36,076 个图结构任务，是主流环境基准的 40 倍；
场景覆盖：20 个真实场景（如办公协作、视频编辑、屏幕录制），支持桌面 / 移动 / 网页跨平台评估；
任务类型：含网络独立本地任务（53.95%）和网络依赖真实任务（46.05%），平均每个任务涉及 2.21 个应用；
复杂度分布：困难级任务占比最高（如知识复杂度 52.4%、分支复杂度 46.7%），符合真实场景任务特性。

四、评估框架：OmniEval 多维度能力评估

OmniEval 针对虚拟代理的核心能力，设计细粒度评估指标和10 类能力测试集，实现 “过程可量化、能力可拆解” 的评估目标：

1. 图基评估器与双指标设计

针对传统评估的粗粒度缺陷，OmniEval 引入图基评估器，定义子任务的三种状态（Completed/Evaluating/Waiting），按拓扑序逐步评估，并设计两个核心指标：

覆盖率（Coverage Rate, CR）：量化代理在任务图上的进展，对深层子任务（依赖多）赋予更高权重，公式如下：w(si)=∑j=1nd(sj)d(si),CR=∑i=1nw(si)∑i=1nw(si)⋅I(si)其中 d(si) 为子任务 si 的深度，I(si)=1 表示子任务完成；
逻辑一致性（Logical Consistency, LC）：量化代理与人类操作逻辑的相似度（人类倾向于完成同一应用的子任务后再切换），公式如下：LC=CSmaxCSagent其中 CS 为子任务序列的连贯性得分（相邻子任务同应用则 + 1），CSmax 为所有拓扑序列中的最大连贯性得分。

2. 10 类核心能力与测试集构建

论文将虚拟代理的核心能力拆解为 10 类，每类能力对应特定的五维复杂度组合（通过约束复杂度维度生成测试任务），具体如下：

表格

能力类别	核心要求	对应复杂度组合（困难级）
并行规划（PP）	处理多并行子任务	依赖复杂度 + 分支复杂度
长程规划（LRP）	处理深层级依赖子任务	依赖复杂度 + 层级复杂度
长序列推理（LSR）	处理长序列子任务	指令复杂度 + 层级复杂度
长指令遵循（LIF）	理解长文本指令	层级复杂度 + 分支复杂度
顺序决策（SDK）	按序完成依赖子任务	层级复杂度 + 分支复杂度
跨域决策（CDDK）	跨应用类别完成任务	分支复杂度 + 知识复杂度
子任务识别（SI）	从指令中拆解子任务	依赖复杂度 + 指令复杂度
依赖识别（DI）	识别子任务间依赖关系	依赖复杂度 + 指令复杂度
跨域知识（CDK）	运用多应用领域知识	指令复杂度 + 知识复杂度
领域特定知识（DSK）	运用单一应用专业知识	指令复杂度 + 知识复杂度（单一领域）

五、实验设计与核心结果

论文在 OmniBench 上评估了 12 种主流模型（开源 MLLMs、闭源 MLLMs、虚拟代理、基于 OmniBench 微调的代理），并通过多维度分析揭示虚拟代理的能力边界和优化方向。

1. 实验设置

硬件：NVIDIA A100 80G GPU；
输入：统一缩放图像至 1024×1024，支持截图 + 辅助技术（A11Y）双模态输入；
基线模型：4 类共 12 个模型（如 GPT-4o、Qwen2-VL-7B、Aguvis-7B、OS-Atlas-Pro-4B 等）；
微调模型：基于 OmniBench 数据微调 OS-Atlas-Base-4B 和 UGround-V1-7B，验证图结构数据的有效性。

2. 核心实验结果

（1）主流代理的能力边界

整体性能：GPT-4o 表现最优（CR=38.7、LC=49.0），但远低于人类基线（CR=80.1、LC=92.8）；开源模型（如 InternVL2.5-8B）和普通虚拟代理（如 Aguvis-7B）性能更低（CR≈17-25）；
能力短板：所有模型在子任务识别（SI）和长指令遵循（LIF）上表现最差，即使 GPT-4o 的 SI 仅 30.6、LIF 仅 32.2，远低于人类的 69.1 和 66.1，成为当前代理的核心瓶颈；
微调增益：基于 OmniBench 微调的代理（如 Omni-UGround-V1-7B）在规划、决策类能力上显著提升（SDK=42.4、CDDK=43.1），验证了图结构数据的训练价值。

（2）图结构任务处理能力薄弱

对比链结构（线性）和图结构（含并行 / 分支）任务（节点 / 边数、知识复杂度一致），发现：

GPT-4o 在图结构任务上的准确率仅 20.5%，远低于人类的 80.1% 和链结构任务的 35.2%；
原因：现有代理多在链结构数据上微调，倾向于将图结构任务解读为线性，难以识别子任务依赖关系。

（3）任务复杂度的影响

所有模型的性能随复杂度提升显著下降，平均下降 6.19 分，且在指令复杂度和知识复杂度上的下降最明显（如 UGround-7B 在困难级指令复杂度任务上性能下降 13.6 分），验证了 OmniBench 复杂度控制的有效性。

3. 深度分析

（1）任务意图的关键作用

闭源模型：在 prompt 中加入任务意图（如 “为 Emily 创建 PPT”），规划性能平均从 23.4% 提升至 28.9%，GPT-4o 提升最显著（+8.9 分）；
开源模型：微调数据中加入任务意图，规划性能从 30.5% 提升至 31.9%，证明任务意图能帮助代理把握核心目标，优化规划逻辑。

（2）指令表达顺序的敏感性

现有代理（如 OS-Atlas-Pro、Aguvis）对指令顺序敏感（标准差平均 8.21），顺序变化导致性能波动；
基于 OmniBench 微调的代理（如 Omni-OS-Atlas）敏感性降低 7.91 分，说明图结构数据能帮助代理识别指令中的内在依赖，提升鲁棒性。

（3）错误类型分析

对 100 个失败案例的分析显示，代理失败的五大原因：

幻觉成功（36%）：错误认为任务完成（上下文记忆薄弱）；
指令理解错误（23%）：忽略指令关键操作（如保存文件）；
知识缺失（21%）：不熟悉应用功能（如 Zotero 创建参考文献列表）；
接地错误（17%）：知道要点击的目标，但定位错误；
环境干扰（3%）：网络延迟等外部因素。

六、消融实验与扩展性验证

1. 质量控制模块的有效性

OmniBench 的三个质量控制模块（交叉验证、意图提取、一致性验证）对任务质量至关重要：

移除交叉验证：人类接受率从 90.7% 降至 61.2%（最大降幅）；
移除意图提取：接受率降至 82.7%；
移除一致性验证：接受率降至 86.5%，证明三者协同保障了任务的合理性和语义一致性。

2. 跨基准扩展性

在 AndroidControl 和 OmniAct 基准上，基于 OmniBench 微调的代理表现更优：

Omni-OS-Atlas-4B 在 AndroidControl 上的成功率提升 0.46 分，OmniAct 上提升 0.73 分；
Omni-UGround-V1-7B 在 AndroidControl 上提升 0.4 分，OmniAct 上提升 0.3 分，验证了 OmniBench 数据的泛化价值。

七、结论与贡献

1. 核心贡献

提出OmniBench：首个自生成、跨平台、图结构基准，通过五维复杂度定义和自动化流水线，生成 36k 高质量任务，解决现有基准的复杂度不可控和标注成本高问题；
提出OmniEval：首个多维度评估框架，设计细粒度指标和 10 类能力测试集，实现任务过程和核心能力的量化评估；
系统揭示能力边界：通过大规模实验，发现当前代理在图结构任务、子任务识别、长指令遵循上的核心短板，并验证了任务意图和图结构数据的优化价值；
开源资源：项目开源（https://omni-bench.github.io/），为虚拟代理研发提供标准化工具。