OmniBench
提出了OmniBench—— 一个自生成、跨平台、图结构的虚拟代理评估基准,以及配套的OmniEval多维度评估框架。论文通过自动化任务合成、精细粒度能力评估,系统揭示了当前虚拟代理的能力边界,并验证了图结构数据对代理训练的增益,为虚拟代理的研发提供了标准化工具和关键洞察。
一、研究背景与核心问题
随着多模态大语言模型(MLLMs)的发展,基于 MLLMs 的虚拟代理在网页导航、设备控制、计算机交互等场景中展现出潜力,但现有评估基准存在显著局限:
- 任务复杂度不可控且固定:现有基准多直接提供完整任务,无法按能力维度生成渐进式复杂度任务,难以适配不同水平的代理,也无法精准定位能力瓶颈;
- 人工标注成本高且场景有限:依赖人工标注演示轨迹或评估函数,规模扩展困难,且标注数据受人类经验局限,难以覆盖多样化真实场景;
- 缺乏多维度细粒度评估:仅关注任务最终结果或与人类轨迹的相似度,忽略中间执行过程,无法量化代理在规划、指令理解等细分能力上的表现,难以指导后续优化。
为解决上述问题,论文核心目标是:构建一个低成本、可扩展、复杂度可控的基准,以及一套多维度、细粒度的评估框架,全面衡量虚拟代理的核心能力。
二、相关工作综述
- 虚拟数字代理:现有代理(如 CogAgent、SeeClick、UGround)在 GUI 理解、视觉接地等方面取得进展,但缺乏统一的评估标准来量化其综合能力;
- 虚拟代理基准:
- 轨迹基基准(如 AndroidInTheWild):对比代理与人类轨迹相似度,但忽略多可行轨迹的合理性;
- 结果基基准(如 OSWorld):关注任务最终状态,缺乏中间过程评估;
- 图结构基准(如 CRAB、TASKBENCH):支持多轨迹和中间评估,但任务分析不系统,缺乏复杂度可控性和多维度能力覆盖。
论文指出,OmniBench 是首个通过图结构定义可组合任务复杂度、并评估多类核心能力的可扩展基准。
三、核心设计:OmniBench 基准构建
OmniBench 的核心是图结构任务表示和自动化任务合成流水线,实现 “复杂度可控、场景多样、低成本生成” 的目标,具体设计如下:
1. 任务图与五维复杂度定义
论文将任务建模为有向无环图(DAG)G={S,R},其中:
- S={s1,s2,...,sn} 为子任务集合(每个子任务是独立可执行的最小单元,含输入 / 输出资源);
- R={(sa,sb)} 为子任务依赖关系(sb 依赖 sa 的输出资源作为输入)。
基于图拓扑结构,论文定义五维任务复杂度,每类复杂度分 “简单 / 中等 / 困难” 三级,可精准控制任务难度:
表格
| 复杂度维度 | 计算方式 | 简单 | 中等 | 困难 |
|---|---|---|---|---|
| 依赖复杂度 | 图中边的数量(子任务依赖数) | ≤1 | 2~3 | ≥4 |
| 指令复杂度 | 图中节点的数量(子任务数) | ≤2 | 3~4 | ≥5 |
| 知识复杂度 | 涉及的应用类别数 | ≤1 | 2~3 | ≥4 |
| 层级复杂度 | 图的深度(子任务层级数) | ≤2 | 3~4 | ≥5 |
| 分支复杂度 | 图的宽度(并行子任务数) | ≤2 | 3~4 | ≥5 |
2. 自动化任务合成流水线(Bottom-up)
为避免人工标注,论文设计四步自动化流水线,生成 36k 高质量图结构任务,人类接受率达 91%:
- 子任务探索:构建含 49 个应用(覆盖办公、多媒体、编程等 12 类)的环境,让 MLLMs 结合应用文档和示例,生成多样化可执行子任务,并定义每个子任务的输入 / 输出资源(如 “下载图片” 的输入是 “图片 URL”,输出是 “本地图片路径”);
- 迭代合成:
- 轨迹合成:用先进 MLLMs 生成子任务的执行轨迹(含截图、动作、思考过程);
- 评估函数合成:预定义 11 个系统级 API(如检查文件存在、键盘输入、文本识别),通过 Code LLM(Claude-3.5-Sonnet)组合 API,生成子任务的细粒度评估函数(支持部分得分);
- 交叉验证:迭代优化轨迹和评估函数,确保准确性;
- 任务组合:提取 “任务意图”(如 “为 Emily 创建个人介绍 PPT”),将子任务池中的相关子任务按资源依赖关系组合为图结构任务,避免无意义组合(如 “打开外卖 APP 后立即关闭”);
- 任务验证:用 GPT-4o 基于任务图生成自然语言指令,再让 GPT-4o 仅通过指令推断子任务依赖,若与原图一致则验证通过,确保指令与图结构语义对齐。
3. OmniBench 核心特征与统计
- 任务规模:36,076 个图结构任务,是主流环境基准的 40 倍;
- 场景覆盖:20 个真实场景(如办公协作、视频编辑、屏幕录制),支持桌面 / 移动 / 网页跨平台评估;
- 任务类型:含网络独立本地任务(53.95%)和网络依赖真实任务(46.05%),平均每个任务涉及 2.21 个应用;
- 复杂度分布:困难级任务占比最高(如知识复杂度 52.4%、分支复杂度 46.7%),符合真实场景任务特性。
四、评估框架:OmniEval 多维度能力评估
OmniEval 针对虚拟代理的核心能力,设计细粒度评估指标和10 类能力测试集,实现 “过程可量化、能力可拆解” 的评估目标:
1. 图基评估器与双指标设计
针对传统评估的粗粒度缺陷,OmniEval 引入图基评估器,定义子任务的三种状态(Completed/Evaluating/Waiting),按拓扑序逐步评估,并设计两个核心指标:
- 覆盖率(Coverage Rate, CR):量化代理在任务图上的进展,对深层子任务(依赖多)赋予更高权重,公式如下:w(si)=∑j=1nd(sj)d(si),CR=∑i=1nw(si)∑i=1nw(si)⋅I(si)其中 d(si) 为子任务 si 的深度,I(si)=1 表示子任务完成;
- 逻辑一致性(Logical Consistency, LC):量化代理与人类操作逻辑的相似度(人类倾向于完成同一应用的子任务后再切换),公式如下:LC=CSmaxCSagent其中 CS 为子任务序列的连贯性得分(相邻子任务同应用则 + 1),CSmax 为所有拓扑序列中的最大连贯性得分。
2. 10 类核心能力与测试集构建
论文将虚拟代理的核心能力拆解为 10 类,每类能力对应特定的五维复杂度组合(通过约束复杂度维度生成测试任务),具体如下:
表格
| 能力类别 | 核心要求 | 对应复杂度组合(困难级) |
|---|---|---|
| 并行规划(PP) | 处理多并行子任务 | 依赖复杂度 + 分支复杂度 |
| 长程规划(LRP) | 处理深层级依赖子任务 | 依赖复杂度 + 层级复杂度 |
| 长序列推理(LSR) | 处理长序列子任务 | 指令复杂度 + 层级复杂度 |
| 长指令遵循(LIF) | 理解长文本指令 | 层级复杂度 + 分支复杂度 |
| 顺序决策(SDK) | 按序完成依赖子任务 | 层级复杂度 + 分支复杂度 |
| 跨域决策(CDDK) | 跨应用类别完成任务 | 分支复杂度 + 知识复杂度 |
| 子任务识别(SI) | 从指令中拆解子任务 | 依赖复杂度 + 指令复杂度 |
| 依赖识别(DI) | 识别子任务间依赖关系 | 依赖复杂度 + 指令复杂度 |
| 跨域知识(CDK) | 运用多应用领域知识 | 指令复杂度 + 知识复杂度 |
| 领域特定知识(DSK) | 运用单一应用专业知识 | 指令复杂度 + 知识复杂度(单一领域) |
五、实验设计与核心结果
论文在 OmniBench 上评估了 12 种主流模型(开源 MLLMs、闭源 MLLMs、虚拟代理、基于 OmniBench 微调的代理),并通过多维度分析揭示虚拟代理的能力边界和优化方向。
1. 实验设置
- 硬件:NVIDIA A100 80G GPU;
- 输入:统一缩放图像至 1024×1024,支持截图 + 辅助技术(A11Y)双模态输入;
- 基线模型:4 类共 12 个模型(如 GPT-4o、Qwen2-VL-7B、Aguvis-7B、OS-Atlas-Pro-4B 等);
- 微调模型:基于 OmniBench 数据微调 OS-Atlas-Base-4B 和 UGround-V1-7B,验证图结构数据的有效性。
2. 核心实验结果
(1)主流代理的能力边界
- 整体性能:GPT-4o 表现最优(CR=38.7、LC=49.0),但远低于人类基线(CR=80.1、LC=92.8);开源模型(如 InternVL2.5-8B)和普通虚拟代理(如 Aguvis-7B)性能更低(CR≈17-25);
- 能力短板:所有模型在子任务识别(SI)和长指令遵循(LIF)上表现最差,即使 GPT-4o 的 SI 仅 30.6、LIF 仅 32.2,远低于人类的 69.1 和 66.1,成为当前代理的核心瓶颈;
- 微调增益:基于 OmniBench 微调的代理(如 Omni-UGround-V1-7B)在规划、决策类能力上显著提升(SDK=42.4、CDDK=43.1),验证了图结构数据的训练价值。
(2)图结构任务处理能力薄弱
对比链结构(线性)和图结构(含并行 / 分支)任务(节点 / 边数、知识复杂度一致),发现:
- GPT-4o 在图结构任务上的准确率仅 20.5%,远低于人类的 80.1% 和链结构任务的 35.2%;
- 原因:现有代理多在链结构数据上微调,倾向于将图结构任务解读为线性,难以识别子任务依赖关系。
(3)任务复杂度的影响
所有模型的性能随复杂度提升显著下降,平均下降 6.19 分,且在指令复杂度和知识复杂度上的下降最明显(如 UGround-7B 在困难级指令复杂度任务上性能下降 13.6 分),验证了 OmniBench 复杂度控制的有效性。
3. 深度分析
(1)任务意图的关键作用
- 闭源模型:在 prompt 中加入任务意图(如 “为 Emily 创建 PPT”),规划性能平均从 23.4% 提升至 28.9%,GPT-4o 提升最显著(+8.9 分);
- 开源模型:微调数据中加入任务意图,规划性能从 30.5% 提升至 31.9%,证明任务意图能帮助代理把握核心目标,优化规划逻辑。
(2)指令表达顺序的敏感性
- 现有代理(如 OS-Atlas-Pro、Aguvis)对指令顺序敏感(标准差平均 8.21),顺序变化导致性能波动;
- 基于 OmniBench 微调的代理(如 Omni-OS-Atlas)敏感性降低 7.91 分,说明图结构数据能帮助代理识别指令中的内在依赖,提升鲁棒性。
(3)错误类型分析
对 100 个失败案例的分析显示,代理失败的五大原因:
- 幻觉成功(36%):错误认为任务完成(上下文记忆薄弱);
- 指令理解错误(23%):忽略指令关键操作(如保存文件);
- 知识缺失(21%):不熟悉应用功能(如 Zotero 创建参考文献列表);
- 接地错误(17%):知道要点击的目标,但定位错误;
- 环境干扰(3%):网络延迟等外部因素。
六、消融实验与扩展性验证
1. 质量控制模块的有效性
OmniBench 的三个质量控制模块(交叉验证、意图提取、一致性验证)对任务质量至关重要:
- 移除交叉验证:人类接受率从 90.7% 降至 61.2%(最大降幅);
- 移除意图提取:接受率降至 82.7%;
- 移除一致性验证:接受率降至 86.5%,证明三者协同保障了任务的合理性和语义一致性。
2. 跨基准扩展性
在 AndroidControl 和 OmniAct 基准上,基于 OmniBench 微调的代理表现更优:
- Omni-OS-Atlas-4B 在 AndroidControl 上的成功率提升 0.46 分,OmniAct 上提升 0.73 分;
- Omni-UGround-V1-7B 在 AndroidControl 上提升 0.4 分,OmniAct 上提升 0.3 分,验证了 OmniBench 数据的泛化价值。
七、结论与贡献
1. 核心贡献
- 提出OmniBench:首个自生成、跨平台、图结构基准,通过五维复杂度定义和自动化流水线,生成 36k 高质量任务,解决现有基准的复杂度不可控和标注成本高问题;
- 提出OmniEval:首个多维度评估框架,设计细粒度指标和 10 类能力测试集,实现任务过程和核心能力的量化评估;
- 系统揭示能力边界:通过大规模实验,发现当前代理在图结构任务、子任务识别、长指令遵循上的核心短板,并验证了任务意图和图结构数据的优化价值;
- 开源资源:项目开源(https://omni-bench.github.io/),为虚拟代理研发提供标准化工具。
2. 未来方向
- 扩展更多环境(如嵌入式设备)和任务类型(如实时协作任务);
- 探索更高效的图结构数据利用方式,进一步提升代理的复杂任务处理能力;
- 优化评估框架,支持动态复杂度调整和实时能力反馈。
