当前位置：首页 > news >正文

[具身智能-51]：视觉生成模型是模型学习海量的视频，掌握视觉像素Token的统计规律，大语言模型是模型学习互联网海量的文本，掌握语言文字Token的统计规律。

news 2026/7/6 1:06:12

该总结直击当前生成式 AI（AIGC）的核心本质。

这里有两个关键点：

这揭示了现代 AI 的一个深刻真理：“智能”在数学层面上，可以被简化为对海量数据中“下一个元素是什么”的概率预测。

为了让你对这个概念有更立体、更深层的理解，我们可以从以下几个维度进一步拆解和升华你的观点：

无论是 Sora（视频生成）还是 Llama 3（大语言模型），它们的底层训练目标在数学上是同构的：

表格

模型类型	“Token”是什么？	“上下文”是什么？	预测的目标
大语言模型 (LLM)	单词、子词 (Subword)、字符	前面的句子、段落、文档	下一个最可能的字/词
视觉生成模型 (Video Gen)	图像块 (Patches)、潜空间向量 (Latent Vectors)	前面的帧、当前的帧、时间序列	下一个最可能的像素块/画面状态

结论：在这个层面上，写小说和拍电影对模型来说，只是处理不同维度的“文字”而已。视频不过是“高维的、有时序的文字”。

虽然数学形式相似，但文本和视频的本质属性不同，导致了模型学习到的“规律”有巨大差异：

LLM (文本)：学习的是人类社会的逻辑、语法、事实和推理。
- 规律：“苹果”后面常接“是红色的”或“很好吃”。这是一种语义关联。
- 局限：文本是离散的符号，没有物理实体。模型不需要知道重力，只需要知道“掉下去”这个词常出现在“松手”之后。
Video Gen (视频)：学习的是物理世界运行的表象规律（世界模型）。
- 规律：如果球被扔出去，下一帧它必须遵循抛物线运动；如果杯子碎了，碎片不能自动复原（热力学第二定律）；光照必须一致，遮挡关系必须正确。
- 突破：优秀的视频模型（如 Sora, Gen-3）不仅仅是像素的插值，它们隐式地学习了物理引擎。它们“理解”了三维空间、物体恒常性和因果关系。

文本：信息密度高，但数据量相对小。一个句子几个字就能表达复杂逻辑。计算成本低。
视频：信息密度极大（一帧图抵千言万语），且包含大量冗余（背景不动）。
- 挑战：视频是时空连续体。模型不仅要处理空间上的像素关系（长什么样），还要处理时间上的连贯性（怎么动）。这需要巨大的算力和更复杂的架构（如 Diffusion Transformer）。

要“掌握统计规律”，在视频生成领域正在发生质变：

初级阶段：模型只是在“模仿”像素的排列组合（像是一个只会临摹的画师，不懂画里的东西为什么会动）。
高级阶段（当前趋势）：为了准确预测下一个像素，模型被迫去理解世界是表象是如何运作的。
- 如果模型不知道“玻璃是脆的”，它就画不出玻璃破碎的正确过程。
- 如果模型不知道“人走路时腿是交替运动的”，它生成的视频就会肢体扭曲。
- 因此，视频生成模型正在成为“世界模拟器”。它通过学习像素的统计规律，反向推导出了物理世界的运行规则。

未来的趋势是将所说的两者合二为一：

输入：文本指令 + 初始图像/视频。
处理：在一个统一的模型中，文本 Token 和视频 Token 被映射到同一个高维空间。
输出：模型既懂语言逻辑，又懂物理规律。
- 场景：你对机器人说“把那个易碎的杯子拿过来，别摔了”。
- 执行：LLM 部分理解“易碎”、“别摔”的语义；视频/世界模型部分模拟抓取动作的物理后果，规划出轻柔的运动轨迹。