当前位置：首页 > news >正文

【World Models】李飞飞重新定义世界模型：基于POMDP的功能分类学（渲染器/模拟器/规划器）与大一统趋势深度解析

news 2026/7/26 18:23:11

摘要

2026 年 6 月，李飞飞在其 Substack 博文 “A Functional Taxonomy of World Models” 中，针对 AI 行业滥用"世界模型"概念的乱象，提出了基于经典 POMDP（部分可观测马尔可夫决策过程）智能体循环的功能分类框架，将市面上所有被称为"世界模型"的系统划分为三类：渲染器（Renderer，生成视觉画面）、模拟器（Simulator，输出符合物理规律的世界状态）、规划器（Planner，输出智能体动作决策）。本文从理论框架、三类模型的定义与代表产品、融合趋势与数据瓶颈四个维度进行深度拆解。

原文：A Functional Taxonomy of World Models - Dr. Fei-Fei Li (Substack)

一、问题背景：为什么需要重新定义"世界模型"？

“世界模型”（World Model）已成为 AI 领域被滥用最严重的术语之一。文生视频模型（如 Sora）自称世界模型，游戏生成引擎自称世界模型，物理仿真平台也自称世界模型。这导致了严重的概念混乱：

被称为"世界模型"的系统	实际做的事情	真的在"理解世界"吗？
文生视频（Sora 等）	生成视觉逼真的视频帧	像素级逼真，但不遵守物理定律
游戏世界生成	程序化生成可交互场景	有规则约束，但非通用物理
物理引擎（PhysX 等）	刚体/流体动力学仿真	精确物理，但手工编程规则
VLA 机器人模型	从观测到动作的端到端策略	有决策能力，但场景理解有限

李飞飞的核心观点：这些系统并非在做同一件事，它们各自对应 POMDP 智能体-环境循环中的不同功能投影。把它们统称为"世界模型"，就像把发动机、方向盘和仪表盘都叫"汽车"一样 – 技术上不算错，但完全丧失了区分度。

二、理论基石：POMDP 智能体-环境循环

李飞飞的分类框架锚定在强化学习教科书（Sutton & Barto）中沿用了数十年的经典图示 –POMDP 循环：

Agent → action a t World State s t → observation o t Agent \text{Agent} \xrightarrow{\text{action } a_t} \text{World State } s_t \xrightarrow{\text{observation } o_t} \text{Agent}AgentactionatWorld StatestobservationotAgent

四个核心要素：

智能体（Agent）：人、机器人或软件系统
动作（Action）：智能体对环境的干预
世界状态（State）：完整的物理描述 – 所有物体的位置、速度、材质属性等
观测（Observation）：智能体感知到的不完整信息 – 落在视网膜上的光子、传感器读数、视频帧像素

关键区分：状态≠ \neq=观测。状态是世界的完整物理描述，观测是智能体对状态的不完整感知。一个"世界模型"到底在建模这个循环的哪一段，决定了它属于哪个功能类别。

https://x.com/i/status/2062247238143996275

图 1：POMDP 智能体-环境循环与世界模型三大功能分类 – 渲染器将状态映射为观测，模拟器预测下一状态，规划器从观测输出动作。重点关注三者在循环中的不同位置。重绘自 design skill

三、功能分类学：渲染器、模拟器、规划器

3.1 渲染器（Renderer）：状态→ \rightarrow→观测

定义：给定世界状态（或其表示），生成感官可感知的输出（图像、视频、3D 场景画面）。核心优化目标是视觉逼真度。

POMDP 中的位置：对应s t → o t s_t \rightarrow o_tst→ot的映射，即从世界状态到观测的生成过程。

代表系统	开发方	核心能力	局限
Genie 3	Google DeepMind	交互式 3D 环境生成	视觉优先，不保证物理合规
RTFM	World Labs	实时 3D 场景渲染	侧重渲染质量
Sora / Veo	OpenAI / Google	文生视频	生成的视频不遵守物理定律

关键洞察：渲染器的商业化最成熟（影视、游戏、广告），但视觉逼真≠ \neq=物理真实。一个渲染器可以生成完美的水面反射效果，但水的流动可能完全违反流体力学。这意味着渲染器生成的数据不能直接用于训练机器人或做工业仿真。

3.2 模拟器（Simulator）：( s t , a t ) → s t + 1 (s_t, a_t) \rightarrow s_{t+1}(st,at)→st+1

定义：给定当前世界状态和智能体动作，预测下一时刻的世界状态，且输出必须遵循几何和物理定律。核心优化目标是物理精确度。

POMDP 中的位置：对应状态转移函数T ( s t + 1 ∣ s t , a t ) T(s_{t+1} | s_t, a_t)T(st+1∣st,at)，是循环的"世界动力学"部分。

代表系统	开发方	核心能力	局限
Omniverse	NVIDIA	工业级物理仿真平台	依赖手工物理引擎
Marble	World Labs	多模态输入生成可物理碰撞的 3D 场景	学习型物理，精度待验证
MuJoCo	DeepMind	刚体/关节动力学仿真	仅限刚体，无视觉生成

关键洞察：模拟器是连接渲染器和规划器的桥梁，也是万亿级工业市场的入口（数字孪生、自动驾驶仿真、机器人预训练）。但面临最严峻的数据瓶颈 – 高精度 3D 标注数据极度稀缺，远不如互联网视频（渲染器的训练数据）或文本（语言模型的训练数据）丰富。

3.3 规划器（Planner）：o t → a t o_t \rightarrow a_tot→at

定义：接收智能体的观测（和目标），输出应执行的动作序列。核心优化目标是决策最优性。

POMDP 中的位置：对应策略函数π ( a t ∣ o t ) \pi(a_t | o_t)π(at∣ot)，是智能体的"大脑"。

代表系统	开发方	核心能力	局限
RT-2 / Octo	Google / Berkeley	VLA 机器人策略模型	仅实验室可用，泛化差
动作类世界模型	多家	预测动作后果并选择最优	依赖模拟器提供训练环境

关键洞察：规划器是具身智能（Embodied AI）的核心赛道，但当前的 VLA（Vision-Language-Action）模型仍停留在实验室阶段。真正的突破需要模拟器提供大规模、物理准确的训练环境。

四、大一统趋势：三类模型走向融合

4.1 融合的逻辑

渲染、模拟、规划本质上是对同一个物理世界的不同功能投影。一个真正"理解世界"的模型，应该同时具备：

生成照片级画面（渲染）
预测物理合规的状态转移（模拟）
为智能体规划最优动作（规划）

李飞飞将这一终极目标称为统一世界基础模型（Unified World Foundation Model）。

4.2 当前的关键障碍

数据不均衡 = 核心瓶颈 \text{数据不均衡} = \text{核心瓶颈}数据不均衡=核心瓶颈

功能类别	数据来源	数据量级	获取难度
渲染器	互联网视频/图像	PB 级	低（爬取即可）
模拟器	3D 扫描 + 物理标注	TB 级	高（需专业设备 + 标注）
规划器	机器人遥操作/实操数据	GB 级	极高（需实体机器人 + 人工操作）

数据量差距达 3-4 个数量级。这意味着纯数据驱动的统一模型在短期内不可行，需要结合物理先验（如牛顿力学、刚体碰撞）来弥补模拟器和规划器的数据不足。

4.3 视觉逼真 vs 物理精确：当前最大矛盾

优化视觉逼真度的损失函数（像素级重建误差、感知损失）与优化物理精确度的损失函数（状态预测误差、碰撞检测精度）之间存在根本张力：

渲染器为了画面好看，可能"伪造"不存在的反射、阴影
模拟器为了物理准确，可能输出视觉上粗糙的结果

World Labs 的 Marble 产品正是为打通渲染+模拟边界而设计– 从多模态输入生成可物理碰撞的 3D 场景，试图同时优化视觉质量和物理合规性。

图 2：世界模型三类功能的融合路径与数据瓶颈 – 渲染器、模拟器、规划器从独立系统走向统一世界基础模型。重点关注三类数据的量级差异（PB vs TB vs GB）。重绘自 design skill

五、产业格局与行业影响

5.1 各赛道玩家

赛道	主要玩家	市场规模预估
渲染器	OpenAI (Sora), Google (Veo), World Labs (RTFM)	百亿级（影视/游戏/广告）
模拟器	NVIDIA (Omniverse), World Labs (Marble), Unity	万亿级（数字孪生/工业仿真）
规划器	Google (RT-2), 多家机器人创业公司	远期最大，但当前最不成熟

5.2 战略意义

语言模型让机器学会了"描述世界"，而成熟的世界模型将让机器看懂物理世界并自主交互。这是空间智能（Spatial Intelligence）和通用具身 AI 的底层基石，将重塑：

机器人：从预编程到自主学习物理交互
自动驾驶：从规则引擎到物理世界模型驱动
工业仿真：从手工物理引擎到学习型数字孪生
游戏/XR：从静态资产到动态可交互世界生成

小结

李飞飞这篇文章的核心贡献：

概念澄清– 用 POMDP 循环这一经典框架，将混乱的"世界模型"概念锚定到明确的功能定义上。渲染器、模拟器、规划器不是竞争关系，而是同一循环中的不同功能组件。这一分类为后续研究提供了清晰的坐标系。
揭示数据不均衡– 渲染器有 PB 级互联网视频，模拟器只有 TB 级 3D 数据，规划器更少。这解释了为什么文生视频发展最快（数据最多）、而具身智能最慢（数据最少），也指明了下一步的投入方向。
预判融合趋势– 三类模型终将走向统一，但路径不是"一个大模型搞定一切"，而是先各自成熟、再通过共享表征和联合训练逐步融合。World Labs 的 Marble 就是这条路径的早期探索。

个人判断：这篇文章的价值不在于提出新算法，而在于提供了一个产业级的认知框架。在 AI 概念炒作最严重的 2026 年，用一张 POMDP 循环图把所有"世界模型"产品各归其位，是典型的李飞飞风格 – 用最经典的理论工具解决最前沿的概念混乱。对于 VIO/SLAM 从业者，模拟器赛道与我们的工作最相关：高精度 3D 重建和物理仿真正是视觉 SLAM 技术的下游应用场景。

查看全文

http://www.jsqmd.com/news/954904/