悬空的语言:大语言模型与人类对“理解“的本质差异
大语言模型能说出正确的答案,却不知道自己为什么对。人能感受到苹果的重量,才真正懂得"苹果会落下"。这一行字的距离,是人与机器之间最深的鸿沟。
一、从一句话开始
"桌上有个苹果。"
当你读到这句话,脑海里浮现的不只是五个汉字。你看见了那个圆润的、泛着光泽的红色物体,感觉到它的重量落在掌心,甚至能预见到一口咬下去的清脆声响。你知道苹果放在桌上意味着它随时可以被拿起来,知道如果轻推一下它会因为重力滚落,知道如果你饿了,它是食物。
这一切发生在瞬间,自然而然,不需要推导。
现在,同样这句话输入一个大语言模型。它没有浮现任何画面,没有感受到重量,没有预判苹果会不会滚落。它所做的,是在几百亿个参数构成的巨大数学函数里,迅速计算出:在"桌上有个苹果"这一上下文之后,哪些词语最可能跟随出现。
它输出了正确的答案。但它不知道自己为什么对。
二、理解,是世界在心智中的投影
人类的理解,根植于感官与身体。
当一个孩子第一次触碰火焰,手指的灼痛感在她的神经系统里留下了无法抹去的印记。此后她"理解"火是危险的,不是因为她读过关于火的定义,而是因为那份疼痛已经成为她对"火"这个概念的一部分。她的理解有重量、有温度、有来源。
心理学家将这种现象称为"具身认知"——人类的思维并不是悬浮在大脑里的纯粹符号运算,而是深深嵌入在身体与世界的交互之中。你对"重"的理解来自你搬过的东西,对"快"的理解来自你奔跑的记忆,对"孤独"的理解来自某个具体的深夜。
真正的理解,是概念在感官经验的土壤里生根。离开了那片土壤,概念就只是符号。
正是因为有了这个底层的感知模型,人类才能做到一件极为重要的事:迁移。你从未见过某种外星植物,但只要有人描述它"长在土里,圆的,里面有水分",你立刻能推断出关于它的大量信息——因为你有一套关于物理世界的通用模型在支撑。理解是可以生长、延伸、类推的。
三、建模,是语言空间里的漂浮
大语言模型学习的方式,根本上是统计。
它被输入了人类书写过的几乎所有文字——新闻、小说、教科书、对话——并在这片文字海洋中学会了一件事:预测。给定一段文字,下一个词最可能是什么?它从未被告知"苹果"是什么,但它见过数以亿计的句子,知道"苹果"后面常常跟着"吃"、"甜"、"维生素"。它在语言的拓扑结构里,找到了词与词之间精确的距离关系。
这套系统极为强大。它能写出优雅的散文,能解释量子纠缠,能分析一首宋词的平仄。但在这一切的底层,它从未触碰过任何真实的事物。它的所有"知识",都锚定在语言上——而语言是锚定在世界上的,但大语言模型跳过了那一步。
| 人类的理解 | 大模型的建模 | |
|---|---|---|
| 出发点 | 感官经验 | 文本数据 |
| 概念基础 | 身体记忆作为根基 | 词语的统计关系 |
| 迁移能力 | 能迁移到全新情境 | 陌生情境下容易失准 |
| 认知深度 | 理解"为什么" | 只能输出"是什么" |
| 语言角色 | 理解世界的出口 | 唯一的世界 |
四、说对,但不知为何对
这里藏着一个微妙却根本的差异。
大语言模型能够说出"苹果从桌上推下去会滚落,因为重力"。这句话是正确的。但它说对这句话,走的路径是:训练数据里"苹果"与"滚落"、"重力"高度共现——所以这个词序列的概率最高。它没有任何关于重力的物理直觉,没有任何物体在斜面上运动的视觉经验。它不知道重力是什么感觉。
用一个比喻来说:一个从未走出过图书馆的人,读过所有关于游泳的书籍,能准确描述自由泳的每一个动作要领,甚至能指出初学者常犯的错误。但当他第一次跳进泳池,他会溺水。因为真实的水与书页上的描述之间,隔着一整个身体的经验。
大语言模型永远在岸上。
五、这是人与AI最深的边界
有人可能会说,这不过是程度的差异,随着技术进步终将弥合。但我认为,这是一个结构性的差异,不是工程问题。
即便给大语言模型接入摄像头、麦克风、机械手臂,它所获得的也是传感器数据的数字编码,而非人类那种在存活压力下与环境磨合出的具身经验。人类的理解是有代价的——疼痛的代价、饥饿的代价、失去的代价。正是这种代价,让概念有了真实的重量。
大语言模型可以学到所有关于"失去"的诗句,可以输出关于悲伤的精准描述,但它从未失去过任何东西。这不是遗憾,而只是事实。
人理解世界,然后用语言描述它。大语言模型学习语言,然后模拟描述它的样子。
前者的语言有根,后者的语言悬空。这一行字的距离,也许是当下人与AI之间,最诚实的边界。
