当前位置：首页 > news >正文

WorldOlympiad：视频世界模型的“铁人三项“评测新标杆

news 2026/6/12 21:11:05

近年来，视频生成模型正在从被动的内容创作工具，逐步演化为能够预测未来视觉状态、响应控制信号的"世界模型"。然而，现有的评测基准大多聚焦于视觉质量、美学表现或短期时序连贯性，对于生成视频是否遵循物理规律、是否保持三维几何一致性、是否能在长时段内维持可控交互等核心能力，仍缺乏系统性的评估手段。为此，来自浙江大学、阿里巴巴达摩院、香港科技大学等机构的研究团队联合提出了WorldOlympiad基准测试，将世界模型的评估分解为物理真实性、几何一致性和交互保真度三个互补维度，并在游戏、机器人操作与真实世界三大场景中，对八种主流长视频生成管线进行了全面诊断。

一、从视频生成到世界模型：评测体系亟待升级

视频生成领域在过去几年取得了令人瞩目的进展。从早期的扩散模型到近期的块级扩散（Block Diffusion）范式，模型生成的视频在视觉保真度上不断提升，甚至涌现出物体恒常性、三维相干性和合理运动动力学等物理特性。然而，这些模型大多针对五到十秒的短视频片段进行优化，难以直接作为持续运行的世界模拟器使用。

世界模型的应用前景十分广阔。在游戏领域，交互式开放世界生成要求模型能够根据玩家操作实时演化场景状态；在机器人学与具身智能领域，世界模型需要为策略生成提供物理可信的仿真环境，并支持数据增强；在真实世界场景生成中，模型需保持开放域运动与相机动力学的长期一致性。这些应用场景对视频生成模型提出了远超视觉质量的要求：状态连续性、物理与几何约束的遵守、对用户动作的响应能力，以及长时程内的合理动态演化。

研究团队指出，现有基准测试在多个方面存在明显局限。以VBench、VBench 2.0为代表的早期评测套件主要关注视觉质量、美学表现、运动平滑度和语义对齐，且多数评测设置仍以短视频为中心。虽然VBench++将评估范围拓展至长视频生成，但这些基准对物理规律遵守、三维结构保持和长时程可控交互等世界模型核心能力的考察仍然有限。此外，现有面向世界模型的评测基准往往聚焦于单一下游领域，如游戏或机器人操作，难以在统一协议下跨领域比较模型表现。

图1：WorldOlympiad整体评测流程，涵盖数据收集、长视频生成与多维度自动评估

WorldOlympiad的提出正是为了填补上述空白。该基准首次将游戏、机器人操作与真实世界场景纳入统一评测框架，构建了包含1000条高质量长视频的测试集，并针对八种代表性长视频生成管线进行了系统评估。其核心理念在于：一个可靠的视频世界模型，不仅要在视觉上令人信服，更要在物理规律、几何结构和交互控制三个维度上经受住长期考验。

二、三维评测体系：物理、几何与交互的"铁人三项"

WorldOlympiad将世界模型的评估分解为三个互补的评测轨道，分别对应世界模型在不同层面的核心能力需求。

2.1 物理真实性评测：让物理规律成为可量化的标尺

物理评测轨道旨在检验生成视频是否遵循可解释的物理规则。研究团队设计了一套基于规则的评测体系，涵盖力学、热力学与材料属性三大子集。在评测流程中，系统首先利用多模态大语言模型（MLLM）识别与物理推理最相关的运动或形变实体，再通过SAM 3生成以对象为中心的掩码与轨迹可视化，使物理现象更加清晰可辨。

具体而言，力学维度考察重力、浮力、压缩与碰撞冲击四类规则：重力规则评估无支撑物体是否向下运动而非向上漂浮；浮力规则关注流体中物体的沉浮行为是否符合密度预期；压缩规则衡量固体在受力时的形变是否合理；冲击规则检验碰撞后的动量传递、反弹与断裂行为是否物理可信。热力学维度则覆盖熔化、升华、汽化、凝结、沉积与凝固六种相变过程。材料属性维度进一步考察颜色混合、溶解性、硬度区分与可燃性等化学与材料行为。

**评测机制：**每条物理规则均通过"相关性判断"与"合规性判断"两步执行。相关性判断首先确认参考视频中是否包含足够可视证据以评估该物理规则；对于相关规则，合规性判断再对比生成视频与参考视频，预测观察到的行为是否符合对应物理规则，并给出置信度与解释。最终物理得分取各子集内适用规则的合规率平均。

2.2 几何一致性评测：三维结构是世界的骨架

几何评测轨道通过三维重建与渲染来检验生成视频的空间相干性。研究团队采用Depth Anything 3对生成视频进行高斯泼溅（Gaussian Splatting）重建，并生成两类诊断性输出：重建视频与元视角图像。评测指标包含三个互补信号：重建视频质量、元视角图像质量，以及恢复相机轨迹与参考轨迹的一致性。

在重建过程中，系统首先对生成视频均匀采样至多32帧。若存在动态对象掩码，前景高斯会在渲染前被移除，使三维评判聚焦于静态场景。重建完成后，MLLM评判器检查渲染的静态场景是否保持了可识别的布局、连贯的三维结构、稳定的跨视角几何关系，以及是否与提示描述一致。相机轨迹评分则通过自适应聚合函数，结合平移路径相似度、运动幅度一致性与旋转测地误差，对不同类型相机运动（近乎静止、平移主导、旋转主导或混合运动）给予差异化的权重分配。

2.3 交互保真度评测：长时程可控交互的试金石

交互评测轨道针对块级生成的长视频场景设计，衡量生成视频是否遵循复杂的动作提示，并在连续视频块之间保持平滑、连贯的过渡。该评测设计与交互式视频世界模型的实际部署方式高度吻合：每个新块基于先前视觉上下文与新的控制或动作描述进行生成，因此模型必须同时满足局部描述对齐与长程连续性。

交互评测包含两个核心组件。第一是基于CLIP的语义 adherence 分数：对每个视频块均匀采样固定数量的帧，计算帧图像与对应块描述的余弦相似度，作为轻量级的语义对齐估计。第二是结构化的MLLM评判器，在三个互补层次上进行评分：块级评判考察每个视频块是否遵循其动作与描述；过渡级评判考察相邻块之间的边界平滑度；全局评判考察完整视频的长程一致性、全局语义对齐与整体连贯性。最终交互得分以MLLM评判为主，CLIP语义分数作为辅助项，权重为0.1。

图2：WorldOlympiad在游戏、机器人操作与真实世界三大领域的数据收集概览

三、千条视频数据集：从原始素材到标准化评测资源

高质量的数据是可靠评测的基石。WorldOlympiad构建了包含1000条高质量长视频的测试集，其中机器人操作视频400条、游戏视频400条、真实世界视频200条。三大领域在评测需求上形成互补：机器人视频强调物体操作与物理交互，游戏视频强调交互控制与长时程状态演化，真实世界视频则强调开放域运动与相机动力学。

机器人领域的数据来源于开源双臂机器人操作数据集RoboCOIN。研究团队选择该数据源的原因在于，双臂操作天然包含物体接触、夹爪运动、状态变化与物理 grounded 的交互行为，且涵盖多种机器人本体，为评估生成视频是否保持动作一致的动态提供了广泛覆盖。经过人工筛选，最终保留400条视频作为机器人评测子集。

游戏领域的数据来源于GameGen-X交互式开放世界游戏视频数据集。研究团队从官方元数据文件中随机采样，并将过长的游戏视频分割为不超过60秒的评测片段。该子集针对交互式世界建模行为进行设计，包括相机移动、玩家导航、战斗事件、技能释放与游戏状态演化等场景。

真实世界领域的数据来源于长镜头视频数据集LVD-2M。研究团队从官方子集中筛选时长大于60秒且运动分数大于50的视频，优先保留具有充足可见运动的长视频，使其适合评估开放域动力学、相机移动与日常场景中的几何一致性。

图3：WorldOlympiad数据标准化流程（分块、标注、精炼）与数据集统计分布

为确保后续评测的可靠性，研究团队设计了一套三阶段的分块-标注-精炼流程，而非依赖单次MLLM推理生成描述。该流程全部采用Gemini-3-Pro-Preview模型执行。第一阶段为分块：系统识别视频中的主要连续执行区间，将其分割为至多六个连续片段，相邻片段之间无时间间隙或重叠。第二阶段为标注：对每个片段生成动作标签与场景描述，其中动作标签将相机运动映射为WASD风格控制信号，场景描述则涵盖可见实体、事件、交互与结果。第三阶段为精炼：以完整视频为上下文，对片段级标注进行修正，消除幻觉细节、统一相邻片段术语、提升叙事连贯性，并验证相机运动标签的准确性。这一精炼步骤对于长视频评估至关重要，因为相邻片段往往共享物体、位置、玩家状态或场景上下文，不一致的标注将降低交互与长程上下文评估的可靠性。

四、八大规模模型全面评测：能力图谱与核心发现

研究团队通过OpenWorldLib评估框架，对八种公开可用的视频生成管线进行了系统测试。这些管线覆盖了三大世界模型家族：游戏导向的Matrix-Game 2.0与LingBot-World；机器人导向的Cosmos-Predict-2.5与WoW；以及通用长视频生成方向的Rolling Forcing、LongLive、Yume-1.5与Hunyuan-WorldPlay。所有测试均采用各管线官方默认生成配置，以保证公平性。

图4：WorldOlympiad主要评测结果，涵盖总体排名、能力雷达图与指标热力图

评测结果揭示了当前视频世界模型发展的若干关键趋势。在总体排名上，LingBot-World以0.683的综合得分位居首位，其在物理真实性（0.942）与交互保真度（0.734）两项上表现尤为突出。值得注意的是，LingBot-World是一款140亿激活参数规模的模型，这一结果表明大规模容量对于长时程状态保持、场景连续性与动作条件动力学具有显著的提升作用。

然而，模型规模并非决定世界模型质量的唯一因素。Cosmos-Predict-2.5虽然仅拥有20亿参数，但其总体得分达到0.671，与LingBot-World非常接近。该模型针对物理世界预测进行了专门优化，这使其能够超越具身操作场景，在多样化的下游设置中保持强劲的物理保真度。这一对比表明，针对性的物理世界训练与推理设计，能够在一定程度上弥补较小的激活模型规模，从而在状态化世界模拟中取得具有竞争力的表现。

在物理规律性方面，多个近期管线已经展现出对常见物理规律的强劲遵守能力。LingBot-World（0.942）、Cosmos-Predict-2.5（0.906）、Rolling Forcing（0.873）、LongLive（0.863）与Yume-1.5（0.863）均取得了较高的物理得分，表明当前视频世界模型已经开始内化了运动、接触、支撑与材料行为等高频模式。不过，这一能力分布并不均匀：细粒度结果显示，热力学与材料层面的规则比力学规则更为脆弱，部分模型在长时程生成下仍会违反基本约束。

几何一致性是当前视频世界模型中最重要且尚未解决的薄弱环节之一。即使在该维度上表现最强的Hunyuan-WorldPlay，其得分也仅为0.424，而大多数模型仍处于0.25至0.40的区间。值得注意的是，Hunyuan-WorldPlay更依赖相机或视角控制作为其主要交互形式，这种设计促使模型在视角变化下保持空间布局，从而获得了相对更强的三维一致性。然而，此类交互也比开放式动作条件生成更为受限：控制相机或视角并不必然要求模型推理复杂的物体操作、智能体行为或多步状态转换。这一发现揭示了当前世界模型中的一个关键权衡：视角控制管线可能更好地保持跨视角结构，但稳健的世界模拟需要同时兼具稳定的三维几何与灵活的交互动力学。

在领域泛化方面，LingBot-World与Cosmos-Predict-2.5分别围绕游戏与机器人领域进行了持续训练，但二者在所有三个领域均保持了强劲表现。这表明持续的单领域训练并不必然将模型限制在其原始领域，反而可以学习到可迁移的世界知识。不过，并非所有专用模型都展现出同样的泛化能力：WoW在具身场景下表现较好，但在游戏与真实世界视频上的得分明显下降。这提示未来研究需要在持续领域训练与更广泛的跨领域世界知识之间寻求更好的平衡。

五、定性案例：从成功模式到典型挑战

定量分数需要与定性案例相结合，才能更完整地揭示模型的行为特征。WorldOlympiad的设计目标正是诊断而非单纯的榜单排名，因此研究团队提供了丰富的可视化案例，展示不同模型在物理、几何与交互三个维度上的典型表现。

图5：WorldOlympiad诊断出的典型成功模式（上行）与失败案例（下行），涵盖物理、几何与交互三个维度

在物理维度上，成功案例展示了模型对重力、接触与物体支撑关系的正确理解；而失败案例则暴露出物体违反重力向上漂浮、无接触形变、状态突变等物理规则违背现象。在几何维度上，部分视频在原始视角下看起来合理，但在三维重建、元视角渲染或相机轨迹对比下暴露出场景变形、物体消失或空间结构不稳定等问题。在交互维度上，一些生成视频能够遵循孤立片段的提示，但在跨片段状态保持、物体持续存在性与动作连续性方面出现漂移或重置。

图6：机器人操作案例研究，展示物理交互、物体状态一致性与时序连贯性的诊断过程

机器人操作案例特别值得关注。在物理评测中，研究团队观察到苹果在无可见支撑的情况下悬浮于空中，表明模型在重力与物体支撑约束方面仍有提升空间。在几何评测中，抽屉可能在不同帧之间突然出现或消失，揭示了空间结构的不稳定性。在交互评测中，评判器关注机器人是否遵循预期的操作指令，例如是否朝向正确物体移动、是否抓取目标而非干扰物，以及接触后物体状态是否保持合理。这些案例表明，视觉上看似合理的机器人视频，仍可能在物体动力学、场景一致性或机器人动作对齐方面存在不足。

图7：游戏场景案例研究，展示交互式游戏 rollout 中的动作跟随、场景状态保持与跨片段过渡表现

游戏场景案例则聚焦于几何一致性与交互保真度。几何指标考察生成视频在相机移动下是否保持稳定的游戏场景空间结构，包括环境、物体、风格与空间布局是否与文本描述一致。当相机移动时，强健的模型应维持稳定的几何结构，避免场景突然变形、物体消失或背景结构不一致。交互指标进一步评估生成视频是否遵循预期的动作序列，并在片段之间保持游戏状态。失败模式包括偏离描述场景、产生不稳定的相机过渡、在片段之间重置环境，或生成与对应提示不再匹配的动作。

图8：真实世界案例研究，展示开放域视频中的几何一致性、相机运动与长程视觉连贯性问题

真实世界案例则同时涉及三个评测维度。物理评测检查抛出的飞盘是否遵循合理的轨迹，而非漂浮、不自然停止或无可见原因地改变方向。几何评测检验场景是否随时间保持空间与语义一致性，例如室内场景是否突然变为室外场景。交互评测考察生成视频是否包含有意义的时间演化，而非趋于过度静态。强健的样本应保留真实的运动、保持连贯的场景布局，并在整个视频中持续反映预期事件。

六、人类偏好对齐：自动评测的可信度验证

为确保自动评测结果与人类感知一致，研究团队开展了一项受控的人类偏好对齐研究。由于长视频世界建模的要求远超视觉真实感本身，人类标注员从多个互补维度比较生成视频，包括整体感知质量、物理可信度、时序连贯性与交互保真度。这些标准与WorldOlympiad的核心评测目标相对应，为下游场景中模型行为的人类中心参考提供了基础。

图9：人类偏好对齐研究中的视频质量评估标注界面

研究共招募五名标注员，从评测集中采样20条提示，对八种模型进行两两比较，每条比较由五名标注员独立标注，最终产生2800条个体偏好标签。标注员在不知道模型名称的情况下，依据视觉质量、物理可信度、时序连贯性、物体与场景一致性以及交互保真度进行整体偏好判断。

结果显示，WorldOlympiad自动排名与人类偏好排名具有高度一致性，Spearman相关系数达到0.95。这一强相关性表明，WorldOlympiad的自动评估捕捉到了标注员同样能够感知到的模型级质量差异。与此同时，与人类评估相比，自动评测器能够以更大规模应用，并在物理、几何与交互相关维度上提供更细粒度的诊断分数。排名差异仅出现在两对相邻模型之间（LongLive与Yume-1.5、Matrix-Game 2.0与WoW），且对总体相关性影响有限。这些结果表明，WorldOlympiad为长视频世界模型提供了一个可扩展且与人类偏好对齐的评测协议。

七、总结与展望

WorldOlympiad的提出，标志着视频世界模型评测从单一视觉质量维度向多维度能力诊断的重要转变。通过将物理真实性、几何一致性与交互保真度整合为统一的"铁人三项"评测体系，该基准为研究社区提供了一个可扩展、可解释且与人类偏好高度一致的评估平台。

实验结果表明，当前视频世界模型在多个方面已取得显著进展。物理规律性方面，多个模型已经内化了常见的运动、接触与支撑模式；交互控制方面，大规模模型展现出强劲的长时程状态保持与动作跟随能力；跨领域泛化方面，针对性的领域训练能够学习到可迁移的世界知识。与此同时，评测也揭示了若干值得持续关注的方向：三维几何一致性仍是大多数模型的薄弱环节，热力学与材料层面的物理规则比力学规则更为脆弱，长时程状态保持与跨片段连续性仍有提升空间，以及如何在专用训练与广泛泛化之间取得更好平衡仍是开放问题。

研究团队表示，未来工作将围绕记忆机制对长时程一致性与交互可控性的影响展开深入探索。尽管近期多种管线引入了记忆模块以改善长视频生成，但其不同的模型规模、训练数据与架构设计使得难以分离性能增益究竟源于记忆机制本身还是其他混杂因素。因此，构建可控的评估环境以解耦记忆设计与其他变量，将成为下一步的重要方向。相关设计包括KV缓存复用、显式三维场景记忆、线性注意力以及混合时空机制等。通过在共享数据、可比模型容量与统一协议下比较这些方案，未来的分析将能够更清晰地揭示哪种记忆形式最有利于支持物理一致性、几何稳定性与可靠的长时程交互。

**项目资源：**WorldOlympiad的评测代码与数据已开源，研究社区可通过项目主页获取详细的技术文档、排行榜与可视化案例，以支持视频世界模型的持续迭代与优化。

本文内容基于论文《WorldOlympiad: Can Your World Model Survive a Triathlon?》及其项目主页资料整理。论文由浙江大学、阿里巴巴达摩院、香港科技大学、莫纳什大学等机构的研究人员共同完成，发表于arXiv:2606.11129。

具身智能&世界模型blog： https://jinxindeep.github.io/blog/blog2026.html

查看全文

http://www.jsqmd.com/news/1001059/