当前位置: 首页 > news >正文

【世界模型】AI世界模型的两次物理大考(测评)

如果你让当今最先进的AI视频模型生成一段“冰块落入温水”的视频,你很可能会得到一个画质惊艳、光线完美、动态流畅的短片。它几乎能以假乱真。

但如果你是一位物理系学生,可能会立刻发现破绽:冰块的融化速度均匀得诡异,热水降温的过程没有遵循热传导应有的梯度,汽化与液滴的形态违背了相变的基本原理

这看似微小的“失真”,揭示了一个关乎AI未来的根本性问题:现有的 “世界模型” ,并不是理解并模拟这个世界的运行法则,而是在记忆并模仿我们曾记录过的画面



一、物理常识测试

论文《TOWARDS WORLD SIMULATOR: Crafting Physical Commonsense-Based Benchmark for Video Generation》 ,构建了 PhyGenBench 基准:

  • 测试范围:涵盖力学、光学、热学、材料属性4大领域,共27条基础物理定律(如重力、浮力、反射、热传导等)。
  • 测试内容:设计了160个提示词,每个都对应一个简单、清晰、可观察的物理现象。例如:“一块铁被轻轻放在水箱的水面上”(测试对密度与浮力的理解)。

在PhyGenEval自动化评估框架下,即使当时表现最佳的模型Gen-3,得分也仅为0.51(满分1分)。

结论一:AI视频模型,在生成符合基础物理常识的画面时,表现依然不足。它们更像是在复刻“看起来合理”的视觉模式,而非内化了“铁比水重所以会下沉”的因果规律。真正的“世界模拟器”,需要掌握的是成体系的科学知识。

二、科学推理测试

《Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench》推出了 VideoScience-Bench 基准:

  • 测试范围:涵盖物理学与化学的14个主题、103个核心概念。从经典力学、光学,到氧化还原反应、反应动力学,要求本科级别的知识储备。
  • 测试内容:每个prompt,必须同时涉及至少两个科学概念的交叉与推理。例如:“演示一个装有不同浓度盐水的烧杯,在相同低温下,因凝固点降低效应而产生的差异化结冰过程与冰晶形态。” 要答对此题,模型需整合 溶液性质、热传导、晶体生长 多个知识点。
  • 测试指标:专家从五个严格维度评分:提示一致性、现象符合性、正确动力学、不变性、时空连贯性。
  • 拓展测试:研究还配套开发了 VideoScience-Judge 评估框架,它利用“任务清单+关键帧证据+计算机视觉工具”,让另一个AI(VLM)扮演严谨的助教,其评分与人类专家高度相关。

对Sora-2, Veo-3, Kling, Wan等7个顶级模型的测试显示:

  • 优点:所有模型在视觉质量(时空连贯性、不变性)上表现优异,这也是当前技术最卷的方向。
  • 缺点:在科学现象的正确性(Phenomenon Congruency)和基本物理定律的遵守(Correct Dynamism)上,所有模型都大幅失分。即便是表现最好的Sora-2和Veo-3,在“现象符合性”上的得分(按4分制)也仅分别为2.56和2.35,相当于刚过及格线。
  • 代表案例:在“铝碘反应”测试中,Sora-2能正确生成点燃的紫色闪光,而Hailuo-2.3则完全未能引发反应。在“旋转杯中的小球”测试中(考察离心力),Sora-2和Veo-3这两个“优等生”竟都未能正确设置实验或模拟出现象。

结论二:当前视频生成模型,在需要复杂、交叉科学推理的任务上,能力仍然非常有限。 它们可以成为顶级的“视觉特效师”,但距离成为理解科学原理的“实验模拟器”还有很长的路要走。

三、“世界模型”演进路线

  1. 第一级:视觉真实。目标是生成高分辨率、连贯、美观的视频。现已基本攻克。
  2. 第二级:物理常识。目标是让视频中的物体运动符合日常直觉(球下落、水流动)。PhyGenBench显示,此关仍未通过。
  3. 第三级:科学推理。目标是让视频能正确演绎复杂的、多概念交织的科学过程。VideoScience-Bench表明,此关挑战巨大。

未来的突破,或许在于神经符号结合(将深度学习与物理公式引擎融合)、仿真器引导训练(用高精度物理仿真生成“正确”数据),或更根本的因果表征学习

1. 论文1:《Meng, F., Liao, J., Tan, X., Shao, W., Lu, Q., Zhang, K., Cheng, Y., Li, D., Qiao, Y., & Luo, P. (2024). TOWARDS WORLD SIMULATOR: Crafting Physical Commonsense-Based Benchmark for Video Generation》.

2. 论文2:《Hu, L., Shankarampeta, A., Huang, Y., Dai, Z., Yu, H., Zhao, Y., Kang, H., Zhao, D., Rosing, T., & Zhang, H. (2025). Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench》.

http://www.jsqmd.com/news/340073/

相关文章:

  • 一个车子用28G RAM,256G ROM?
  • 2026年评价高的纯实木门/原木门高评价厂家推荐 - 行业平台推荐
  • 2026年比较好的纯实木门厂家专业度参考(精选) - 行业平台推荐
  • [深度学习]Vision Transformer
  • 二别算法竞赛(ec-final后)
  • 2026年评价高的全实木门/模压木门厂家专业度参考(精选) - 行业平台推荐
  • 2026年比较好的生态木门/玻璃木门厂家选择参考建议 - 行业平台推荐
  • 2026年第一季度靠谱的四川照明路灯供应商哪家可靠 - 2026年企业推荐榜
  • 2026年评价高的木门厂家怎么选 - 行业平台推荐
  • delphi cxgrid内联式表单编辑
  • 【LLM】CL-bench:评估LLM学新知识的能力
  • Go进阶之异常处理error
  • Cesium切换视角中心点不变
  • 2026优质皮革供应商榜合集!值得信赖的汽车内饰皮革、PVC皮革、TPO门板表皮好的工厂、广东广告膜定做厂家一站式推荐 - 栗子测评
  • 2026年热门的不锈钢厨房设备厂家专业度参考(精选) - 行业平台推荐
  • 第三次Python练习题
  • 2026年知名的餐厅厨房设备/梦远厨房设备用户口碑认可厂家 - 行业平台推荐
  • 2026年口碑好的扬州龙凤呈祥无人机/无人机表演全方位厂家推荐参考 - 行业平台推荐
  • C++之【深入理解Vector】三部曲之二
  • 全网最强汉字游戏:汉字加一笔耶
  • YOLO26最新创新改进系列:叫叫兽原创二次创新!上下文+CBAM捕捉中远距离像素间的语义关联,将全局场景信息有效融合到局部特征中,为YOLO26提供了原本缺失的“大局观”,有效涨点,嘎嘎创新!!!!
  • 【工具】基于Cloudflare的导师评价网
  • 标准漏孔生产厂家/气密检测设备哪家好?2026年优质标准漏孔生产厂家大盘点!气密检漏仪优选汇总 - 栗子测评
  • 2026杭州免费咨询律所推荐+杭州律师事务所推荐+杭州本地律所推荐杭州企业法律顾问哪家好合集! - 栗子测评
  • 2026年比较好的龙凤无人机/龙凤呈祥无人机厂家口碑推荐汇总 - 行业平台推荐
  • 2026年口碑好的陕西有机水溶肥用户好评厂家推荐 - 行业平台推荐
  • 在单片机串口接收程序中,通常每接收完一条报文就添加一条接收时间,而不是每接收一个字节。这是因为报文是逻辑单元,添加时间戳到完整报文更合理和高效。
  • 电脑端串口助手一个时间戳后面跟几条完整报文,而不是每条报文添加一个时间戳,这是依据什么确定添加接收时间戳
  • 还要多久?NASA卫星从太空俯瞰,那条通往“正义”的道路
  • 什么是住宅代理IP?