当前位置：首页 > news >正文

李飞飞重定义“世界模型”：AI迈向具身智能，模拟器成千亿美金枢纽

news 2026/6/9 15:54:58

人们需要一套分类法

在AI领域，“世界模型”已成为万能代词，其定义混乱源于对“世界”定义的多维需求。一项技术起步时无统一规则明确界限，这种混乱在历史上不少见，如古希腊哲学家争论世界本质。AI领域面临类似问题，当视频生成模型视觉逼真但不符合物理法则时，难以定义。李飞飞博客提到部分可观测马尔可夫决策过程（POMDP）作为定义基础，它揭示智能体与物理世界交互闭环，世界模型是机器在闭环中构建的抽象模型，若闭环环节未明确定义，世界模型只是像素堆叠。

构建智能的三大支柱

闭环内部细节定义模糊，李飞飞拆解出世界模型三个核心组件，是AI通往具身智能的三大支柱。1. 渲染器（Renderer）：核心是视觉合理性，输出像素让画面美观。商业化成熟，如OpenAI的Sora、字节跳动的Seedance 2.0等模型，但存在代价，顶级模型生成的建筑缺乏支撑结构。2. 模拟器（Simulator）：追求结构忠诚度，不在乎视频美观，关注物理规律。输出杯子需包含质量分布等信息，能让视频内容真实，但在AI浪潮中被低估和忽视，构造符合物理规律的模拟器成本高，对机器人而言物理精度更重要，模拟器不精确会导致“莫拉维克悖论”。3. 规划器（Planner）：负责行动输出，解决“下一步该做什么”问题，是“感知 - 行动”闭环最后环节和前沿挑战领域。视觉 - 语言 - 动作（VLA）模型尝试让系统做决策，规划器要在多种可能性中选最优路径，是机器从“观察者”到“实践者”的关键。

千亿美金的枢纽

在李飞飞分类中，渲染器和规划器模型常见，模拟器最难实现。李飞飞认为模拟器是连接渲染与规划的纽带和核心枢纽。英伟达的Omniverse在模拟器领域出色，掌握其本质，能支撑万亿级数字孪生梦想，是工业界生产力核心基础设施，掌握物理模拟能力就掌握AI工业化入场券。但现实存在困难，具身智能数据稀缺，生成式AI应用有隐形风险，“穿模”现象在工业应用中是灾难。

通向统一世界模型

尽管困难多，李飞飞对行业趋势积极预判，渲染、模拟与规划界限在模糊。其World Labs团队认为人类迈向统一基础模型，想象力和逻辑融合。未来模型是统一神经网络基础，能在视觉模式和状态模式间无缝切换。传统模型静态，未来世界模型更具可交互性，渲染器、模拟器、规划器功能都有变化。

空间智能的漫长弧线

从宏观看，“世界模型”重要，人类AI研究在找让机器进入物理世界的钥匙，现在需要处理空间的模型，空间智能核心是机器与物理世界交互。竞争关键是谁能定义物理世界数字标准，世界模型是AI进化壮举。语言让机器谈论世界，世界模型使机器理解、想象、推理并交互。但世界模型只是通往AGI的中间节点，杨立昆认为机器智能接近小狗至少还需五到十年。

查看全文

http://www.jsqmd.com/news/982033/