李飞飞重定义“世界模型”:AI迈向具身智能,模拟器成千亿美金枢纽
人们需要一套分类法
在AI领域,“世界模型”已成为万能代词,其定义混乱源于对“世界”定义的多维需求。一项技术起步时无统一规则明确界限,这种混乱在历史上不少见,如古希腊哲学家争论世界本质。AI领域面临类似问题,当视频生成模型视觉逼真但不符合物理法则时,难以定义。李飞飞博客提到部分可观测马尔可夫决策过程(POMDP)作为定义基础,它揭示智能体与物理世界交互闭环,世界模型是机器在闭环中构建的抽象模型,若闭环环节未明确定义,世界模型只是像素堆叠。
构建智能的三大支柱
闭环内部细节定义模糊,李飞飞拆解出世界模型三个核心组件,是AI通往具身智能的三大支柱。1. 渲染器(Renderer):核心是视觉合理性,输出像素让画面美观。商业化成熟,如OpenAI的Sora、字节跳动的Seedance 2.0等模型,但存在代价,顶级模型生成的建筑缺乏支撑结构。2. 模拟器(Simulator):追求结构忠诚度,不在乎视频美观,关注物理规律。输出杯子需包含质量分布等信息,能让视频内容真实,但在AI浪潮中被低估和忽视,构造符合物理规律的模拟器成本高,对机器人而言物理精度更重要,模拟器不精确会导致“莫拉维克悖论”。3. 规划器(Planner):负责行动输出,解决“下一步该做什么”问题,是“感知 - 行动”闭环最后环节和前沿挑战领域。视觉 - 语言 - 动作(VLA)模型尝试让系统做决策,规划器要在多种可能性中选最优路径,是机器从“观察者”到“实践者”的关键。
千亿美金的枢纽
在李飞飞分类中,渲染器和规划器模型常见,模拟器最难实现。李飞飞认为模拟器是连接渲染与规划的纽带和核心枢纽。英伟达的Omniverse在模拟器领域出色,掌握其本质,能支撑万亿级数字孪生梦想,是工业界生产力核心基础设施,掌握物理模拟能力就掌握AI工业化入场券。但现实存在困难,具身智能数据稀缺,生成式AI应用有隐形风险,“穿模”现象在工业应用中是灾难。
通向统一世界模型
尽管困难多,李飞飞对行业趋势积极预判,渲染、模拟与规划界限在模糊。其World Labs团队认为人类迈向统一基础模型,想象力和逻辑融合。未来模型是统一神经网络基础,能在视觉模式和状态模式间无缝切换。传统模型静态,未来世界模型更具可交互性,渲染器、模拟器、规划器功能都有变化。
空间智能的漫长弧线
从宏观看,“世界模型”重要,人类AI研究在找让机器进入物理世界的钥匙,现在需要处理空间的模型,空间智能核心是机器与物理世界交互。竞争关键是谁能定义物理世界数字标准,世界模型是AI进化壮举。语言让机器谈论世界,世界模型使机器理解、想象、推理并交互。但世界模型只是通往AGI的中间节点,杨立昆认为机器智能接近小狗至少还需五到十年。
