当前位置：首页 > news >正文

从行为主义到认知理解：AI为何难以跨越“理解”鸿沟

news 2026/7/28 7:15:21

1. 从一次对话谈起：AI的潜力与现实的尴尬

前几天和一位科技圈的朋友聊天，他半开玩笑地说，现在的AI连帮我们协调个会议时间、过滤掉垃圾邮件这种“电子苦力”都做得磕磕绊绊，更别提那些我们真正期待的、能理解复杂意图的智能助理了。这话一下子戳中了我。作为一个长期关注技术发展，同时也对心理学有点研究的人，我每天都在和算法打交道，也每天都在被算法“误解”。最直接的体验就是，那些精准投放的广告，似乎永远搞不清楚我刚刚买过一台咖啡机，短期内根本不需要第二台；或者在我搜索了一次“登山鞋”后，连续一个月给我推送各种户外装备，仿佛我的人生突然变成了荒野求生。

这引发了我更深的思考：我们引以为傲的人工智能，尤其是其核心驱动力——机器学习，究竟在哪个环节和人类的智能“岔了道”？为什么它在处理某些模式识别任务上能超越人类，却在理解常识、语境和意图上显得如此笨拙？问题的根源，或许远比我们想象的要深刻，它埋藏在人类认知与机器计算最根本的差异之中。

2. 行为主义的遗产：机器学习与人类学习的“表面相似性”

要理解当前AI的局限，我们得先回到一个心理学上的古老范式：行为主义。在20世纪上半叶，行为主义学派，以斯金纳和巴甫洛夫为代表，提出了一种极具影响力的学习理论。简而言之，他们认为学习就是“刺激-反应”的联结。有机体（包括人）就像一个黑箱，我们无需关心内部的心理过程（如思考、情感），只需观察输入（刺激）和输出（行为）。通过系统地给予奖励（正强化）或惩罚（负强化），就能塑造出任何想要的行为。鸽子可以学会打乒乓球，老鼠可以学会走迷宫，原理皆在于此。

2.1 机器学习的行为主义内核

乍看之下，现代的机器学习，尤其是监督学习，与行为主义模型惊人地相似。我们给算法一个庞大的“训练集”（刺激），它通过调整内部参数（权重），试图让它的“输出”（预测或分类）与“标准答案”（标签）之间的误差最小化。这个过程，本质上就是在寻找输入与输出之间最稳定的统计关联。算法并不“理解”它处理的数据是什么，就像巴甫洛夫的狗并不“理解”铃声代表食物，它只是建立了“铃声响→流口水”的强关联。

这种模式的强大之处在于其可扩展性。正如我那位朋友所期待的，理论上，只要给AI足够多、足够好的“会议协调”数据（谁、何时、何地、偏好、冲突等），它最终应该能学会完美调度。这背后的假设是：人类智能可以完全由外部可观测的数据和反馈来刻画和复制。AI的“智能”程度，直接取决于其训练数据的规模和质量——“数据即智能”。

2.2 “中文房间”的思想实验：符号匹配与意义理解的分野

然而，哲学家约翰·塞尔早在1980年就用“中文房间”思想实验，尖锐地指出了这种模式的根本缺陷。想象你被关在一个房间里，面前是一本巨大的规则书（程序），里面写满了中文符号的处理规则（如果看到符号A，就回复符号B）。你不懂任何中文。这时，从门缝塞进来一张写着中文问题的纸条（输入）。你按照规则书查找、匹配，然后写下一串中文符号（输出）塞回去。对外面懂中文的人来说，你的回答完全正确，他们甚至会认为房间里的人精通中文。

但事实上，你从头到尾都没有理解任何一个中文字符的意义。你只是一个高效的符号匹配器。当前的AI，特别是基于大语言模型的AI，在很大程度上就处于这个“中文房间”之中。它通过海量文本训练，学会了符号之间极其复杂的统计共现规律，能生成语法正确、甚至看似深刻的文本，但它并不“理解”这些符号所指代的现实世界、情感或逻辑内涵。它的“知识”完全受限于那本“规则书”（训练数据）的规模和编排方式。

注意：这里常有一个误解，认为更大的模型和更多的数据就能“涌现”出真正的理解。但“中文房间”论证的核心在于，无论规则书多厚、匹配速度多快，只要操作者（或系统）没有将符号与外部世界的指称和意向性联系起来，理解就不会发生。这是一个原则性的区别，而非工程规模问题。

3. 人类认知的独特性：述谓、对立性与意义建构

如果AI只是高级的“刺激-反应”联结器或“符号匹配器”，那人类智能的不同之处究竟在哪里？心理学研究在行为主义之后的发展，为我们揭示了几个人类认知的关键特征，这些特征正是当前机器学习模型难以企及的。

3.1 述谓过程：假设生成与检验

人类学习远非被动的关联记录。我们主动地对世界进行“述谓”——即提出假设、建立命题、并检验其真伪。回顾格林斯普恩1955年的经典实验：他通过“嗯哼”来强化参与者说出复数名词，并声称发现了无意识学习。但后续研究，如杜拉尼（1961）和佩奇（1969, 1972）的工作，彻底颠覆了这一结论。

杜拉尼发现，许多参与者虽然不能准确说出实验规则（“说出复数名词”），但他们形成了“相关假设”，比如“我应该说动物”或“我应该说物品”。正是这些有意识的假设引导了他们的行为，使其看起来像是“学会”了规则。佩奇的研究更进一步，他发现参与者的行为强烈依赖于他们的“合作意愿”。当参与者察觉实验者的意图后，他们可以选择合作（让实验者多说“好”）、不合作（故意避免让实验者说“好”），甚至出于伦理考量而对抗（认为实验者在操纵数据）。

这个发现对AI设计者来说是颠覆性的。人类的行为是由内在的、主动的意义解读和目标导向所驱动的，而非单纯的外部强化。我们不是数据的被动接收器，而是积极的意义建构者。佩奇只需简单地将指令从“让我说‘好’”改为“让我停止说‘好’”，人类参与者就能瞬间逆转行为模式。而对于一个传统的机器学习模型，这几乎意味着需要重新收集数据、重新标注、重新训练一个全新的模型。它无法基于已有的“让我说好”的知识，通过逻辑推理瞬间理解其对立面“让我停止说好”并执行。

3.2 内在的对立性：意义的网络

这引出了人类思维的第二个核心特征：内在的对立性。我们的概念天然存在于一个充满对立和差异的关系网络中。“好”这个概念一出现，就暗含了“不好”或“坏”的可能性；“高”天然与“低”相对。这种对立性不是后天学来的规则，而是我们理解世界的基本框架。

对于计算机而言，“好”和“坏”最初只是两个独立的、等价的符号标记，它们之间的对立关系需要从海量数据中额外学习（例如，通过分析“好”和“坏”在语料中很少同时修饰同一个对象）。而人类婴儿在很早就表现出对这种对立关系的直觉把握。这意味着人类的“学习”效率在涉及逻辑关系和概念网络时，常常远高于需要遍历大量样例的机器学习。

3.3 情境依赖的记忆与意义建构

人类的记忆也与机器存储有本质不同。机器记忆是“上下文无关”的：一个数据块被存入特定地址，读取时原样取出。而人类记忆是“意义驱动”和“情境依赖”的。经典研究如克雷克与塔尔文（1975）的深度加工实验表明，如果我们在记忆“鲨鱼”这个词时，将其与“它是一种鱼吗？”这个问题（一个有意义的情境）联系起来，记忆效果会远好于单纯重复。

我们不会像数据库一样孤立地存储“锤子”这个信息。相反，“锤子”的意义随着情境流动：在工具箱里，它是工具；在危急时刻，它是武器；在风大的办公室，它是镇纸。这种动态的、情境化的意义建构能力，使得人类能够灵活地应对新环境、理解隐喻和幽默，并进行创造性的类比。而当前的AI，要理解“这个项目的‘基石’”或“团队中的‘润滑剂’”这样的隐喻，仍然困难重重，因为它缺乏将抽象概念跨领域映射的、基于身体经验和情境的认知基础。

4. 当前AI的能力边界与适用场景

认识到这些根本差异，并不是要否定AI已经取得的、令人惊叹的成就。恰恰相反，明确边界才能更好地运用工具。当前的机器学习，特别是深度学习，在以下类型的任务中表现出色，甚至超越人类：

4.1 模式识别与分类这是深度学习的“主场”。在图像识别（医学影像分析、人脸识别）、语音识别、围棋对弈等领域，AI通过海量数据训练出的复杂模式匹配能力，已经达到了实用乃至顶尖水平。这些任务的特征空间虽然巨大，但边界相对清晰，目标明确（例如：这张图片里有没有肿瘤？这个语音片段对应哪个单词？）。

4.2 大数据关联与预测基于历史数据进行趋势预测、风险评估、个性化推荐（如电商产品推荐、新闻推送）。虽然常因“不理解语境”而闹笑话，但在统计意义上，它确实能发现人类难以直观察觉的相关性。例如，预测机械设备的故障时间、分析金融市场的大量微观信号。

4.3 特定规则的自动化执行在规则明确、输入输出格式固定的流程中，AI可以极高效率、不知疲倦地工作。例如，文档格式转换、数据清洗、代码中的静态检查、制造业的质量检测（基于视觉）等。

4.4 创意元素的组合与生成通过学习人类作品的数据分布，AI可以生成新的图像、音乐、文本样式。它擅长“模仿”和“混搭”，能够提供灵感或快速生成大量备选方案，但其“创意”本质上是统计外推，而非源于情感体验或颠覆性的概念重构。

然而，在需要以下能力的场景中，当前AI仍面临巨大挑战：

4.5 需要深层语义理解与推理的任务

复杂对话与谈判：理解对话中的隐含意图、讽刺、双关，以及基于共同背景知识进行推理。
真正的阅读理解与总结：不是提取关键词，而是理解文章的论点、论据和逻辑脉络，并能从不同角度进行概括。
伦理与价值判断：自动驾驶的“电车难题”只是冰山一角。任何涉及权重、取舍、文化价值观的决策，都难以用统一的数学公式解决。

4.6 依赖物理常识与情境建模的任务

家庭机器人操作：“请把餐桌上的杯子放进水池”听起来简单，但需要机器人理解什么是“桌子”、“杯子”、“水池”，识别它们在具体杂乱环境中的实例，规划抓取路径而不碰倒其他物品，并理解“放进”意味着要打开水龙头吗？还是只是放入池内？这需要庞大的、难以穷举的物理常识和情境知识。
应对开放世界的突发状况：训练数据无法覆盖所有“长尾”极端情况。人类司机依靠常识可以处理从未见过的道路状况（如一棵树倒在路中间），而AI可能完全茫然。

4.7 需要长期目标与规划的任务

科学发现：提出可检验的全新科学假说，设计巧妙的实验来验证它。
复杂的多步骤项目管理：动态协调资源，应对突发风险，在多个相互冲突的目标间取得平衡，这需要基于经验的“直觉”和“判断力”。

实操心得：在考虑引入AI解决方案时，一个有效的评估框架是问自己：这个任务的核心是“识别模式”还是“理解意义”？是“处理明确规则”还是“应对模糊情境”？是“优化已知目标”还是“探索未知可能”？前者是AI当前的优势区，后者则仍需人类主导。

5. 迈向更“智能”的AI：可能的路径与挑战

承认差距不是为了唱衰，而是为了更清晰地看到前进的方向。要让AI突破当前的行为主义范式，向更接近人类智能的方向发展，学术界和工业界正在多条路径上探索：

5.1 从统计关联到因果模型当前深度学习主要挖掘变量间的相关关系。而人类智能的核心是构建因果模型——理解事物之间的作用机制。“打雷”和“下雨”相关，但人类理解是“乌云中的电荷作用导致闪电和雷声，同时水汽凝结导致降雨”。因果推理能让AI不仅预测“接下来可能发生什么”，还能回答“如果我干预了A，B会怎样？”，这对于医疗诊断、政策制定等领域至关重要。 Judea Pearl 等人倡导的因果推理框架，正试图将这一维度引入机器学习。

5.2 具身认知与物理交互越来越多的研究者认为，智能离不开与物理世界的互动。具身AI强调通过机器人等实体在与环境的具体交互中学习。这有助于AI建立关于物体属性（重量、硬度、弹性）、物理定律（重力、摩擦力）和空间关系的“常识”，这些知识很难从纯文本或图像数据中完整获得。就像婴儿通过抓、扔、咬来认识世界一样。

5.3 小样本学习与元学习人类善于“举一反三”，从少量样例中学习新概念。当前的AI则严重依赖大数据。小样本学习和元学习旨在让模型学会“如何学习”，使其在面对新任务时，能快速调整内部表示，利用先验知识进行有效泛化。这更接近人类基于抽象概念和类比进行学习的方式。

5.4 神经符号AI尝试将深度学习的强大感知、模式识别能力（“神经”部分）与符号系统可解释、可推理的逻辑能力（“符号”部分）结合起来。例如，用神经网络从图像中识别出“猫”和“毯子”，然后用符号推理引擎推断出“猫在毯子上”这一关系，并能回答“如果移动毯子，猫会怎样？”这类需要逻辑推理的问题。

5.5 构建更丰富的世界模型让AI不仅仅学习数据表面的统计规律，而是尝试构建一个关于世界如何运作的内部模型。这个模型能模拟不同行动可能带来的后果，从而进行规划和决策。DeepMind 在游戏环境中的一些研究，以及基于模型的强化学习，正朝这个方向努力。

5.6 正视“意义”难题最终，最根本的挑战或许是“意义”问题。如何让机器将内部符号与外部世界的指称、与主体的意图和目的联系起来？这涉及到哲学、认知科学和计算机科学的交叉。目前，一个务实的工程学思路是，不追求让AI获得人类般的“内在意识”，而是通过设计更精巧的任务框架、奖励函数和多模态交互，让AI的行为在功能上表现出对“意义”的把握。例如，通过让AI完成需要多步骤物理交互、语言指令理解的任务，迫使其建立跨模态的、实用的“意义”表征。

6. 给开发者和产品经理的实践建议

面对理论与现实的差距，我们在当下应该如何设计和应用AI系统？以下是一些基于上述分析的实践建议：

6.1 明确问题边界，避免AI“幻觉”在项目启动时，务必花时间厘清：你要解决的问题，其核心是模式匹配、预测，还是需要理解、推理和创造？对于后者，目前的AI更适合作为增强人类能力的辅助工具，而非全自动解决方案。例如，在内容审核中，AI可以标记可疑内容，但最终判定应由人类完成；在法律文档分析中，AI可以快速检索相关案例和条款，但策略制定和法庭辩论必须由律师负责。

6.2 设计“人在环路”的混合智能系统将人类擅长的情境理解、常识推理、价值判断，与AI擅长的海量数据处理、不知疲倦的模式识别结合起来。设计流畅的人机交互接口，让人类可以方便地纠正AI的错误、提供上下文、做出最终决策。例如，在设计智能客服时，系统应能准确判断用户问题是否超出知识库范围，并平滑地转接给人工客服，同时将对话历史和AI的分析摘要提供给客服人员。

6.3 高度重视数据质量与偏差既然当前AI严重依赖数据，那么数据的质量就直接决定了AI的“世界观”。必须对训练数据进行严格的清洗、去偏和评估。特别注意数据中可能隐含的社会文化偏见、历史偏见。一个经典的教训是，用于招聘的AI系统，如果使用历史招聘数据训练，可能会学会歧视女性或少数族裔，因为历史数据本身就反映了这种偏见。

6.4 持续监控与迭代，应对概念漂移现实世界是动态变化的，用户的行为模式、市场的趋势、语言的用法都会随时间演变（这被称为“概念漂移”）。一个上线时表现良好的推荐系统，可能因为社会热点事件或季节变化而效果下降。因此，AI系统需要建立持续的监控机制，定期用新数据评估其性能，并设计安全、高效的在线学习或定期重训练流程。

6.5 管理用户预期，进行透明化沟通避免过度宣传AI的能力，造成“AI万能”的误解。向用户清晰地说明系统能做什么、不能做什么，以及它的决策依据是什么（可解释性）。当AI出错时，应有明确的反馈和申诉渠道。建立用户对系统的合理信任，这种信任应基于对系统能力边界的了解，而非盲目的崇拜。

6.6 拥抱“狭域AI”，解决具体问题在现阶段，追求通用人工智能（AGI）仍是长远目标。更实际、更具商业价值的是开发解决特定领域具体问题的“狭域AI”或“垂直AI”。深耕一个行业，深入理解该领域的业务逻辑、专业知识和痛点，往往能设计出比通用模型更有效、更可靠的AI解决方案。例如，专门用于检测工业零件缺陷的视觉AI，其精度和效率可以远超通用图像识别模型。

技术的演进从来不是一蹴而就。从行为主义的机械关联，到认知心理学的意义建构，人类对自身智能的理解尚且经历了漫长的范式转换。对于机器智能的探索，我们或许正处在类似的转折点上。认识到“匹配”与“理解”之间的鸿沟，不是终点，而是更理性、更富创造力的起点。它指引我们不再满足于让机器简单地拟合数据，而是去思考如何为它们注入一点点关于世界如何运作的“常识”，以及如何与人类独有的意图和价值观进行协作。这条路很长，但每一步都指向一个更智能、也更人性化的未来。

查看全文

http://www.jsqmd.com/news/928120/