当前位置：首页 > news >正文

普林斯顿认知科学家发现：AI通不过的那些测试，恰好是人类智能里最重要的部分——他们把这片空白叫做“认知暗物质“

news 2026/7/18 19:03:01

宇宙里有一种东西，看不见，摸不着，不发光，不反射任何电磁波。

但如果没有它，银河系会在自身引力下土崩瓦解。

天文学家把它叫做暗物质——不是因为它神秘，而是因为它的存在只能从它的缺席里被推断出来。星系转得太快了，按照可见物质的质量根本撑不住，所以一定有什么东西我们还没看见。

2026年3月，普林斯顿大学认知科学系、Amaranth基金会和Protocol Labs的三位研究者，用完全相同的逻辑，描述了他们在AI里看到的一个结构性缺口。

他们把它叫做认知暗物质。

GPT-5、Claude Opus 4.5、Gemini 3.0 Pro——这些模型能通过律师资格考试，能解答奥数题，能看一张病理切片给出诊断意见，能在一小时内写出一个功能完整的Web应用。

但研究者做了一个简单的测试：让这三个模型各自运行10次，完成同一个任务——

写一个包含三道国际象棋"一步将死"残局的网页应用，要有拖拽功能。

没有一个模型能稳定通过。

原因不是代码能力不够——它们生成的HTML、CSS、JavaScript几乎无可挑剔，连拖拽逻辑都完美实现了。

失败的地方是：它们生成的国际象棋残局本身是无效的。黑方棋子已经被将军了，根本还没到白方走棋，残局就已经结束了。

这是任何一个真正下过象棋的人一眼就能看出来的错误。一个初学者可能不会摆出这样的残局。

但AI没有发现。

更奇怪的是：这个错误在代码层面完全可以被检测出来——这些模型在生成代码时，已经导入了能验证棋盘合法性的Python棋类库。它们拥有发现自己错误所需的全部工具，只是从来没有想到要用这个工具检查自己的输出。

研究者把这个现象起了个名字：锯齿状智能（Jagged Intelligence）——AI的能力不是一个完整的球体，而是一个奇怪的形状，某些方向上突出得极远，某些方向上有令人意外的深坑，而且你很难提前预测哪里会是坑。

他们的问题是：这些坑，为什么会在这里？

要理解这个问题，需要先理解AI是怎么被训练出来的。

现有的AI模型，学习的材料是人类行为的数字痕迹——文字、图像、代码、对话记录。这些都是行为的结果，而不是产生这些行为的认知过程。

举个例子：你在网上看到一篇数学论文，最终呈现的是一个完整的证明。但论文背后是什么？是作者在某个下午突然想到了一个新思路，是他意识到之前的方向走错了然后回头，是他在白板前站了两个小时发现了一个别人没注意到的模式。

这些东西都没有被写进论文。

AI学的是那个证明，不是写出那个证明的认知过程。

研究者把那些真正在人类智能运作中发挥关键作用、但很难从行为结果里推断出来的认知能力，统称为"认知暗物质"。

就像宇宙暗物质的存在是从"星系转得太快"这件事被推断出来的——认知暗物质的存在，是从AI在某些任务上的表现方式里被推断出来的。

那些任务，AI完成得很奇怪：对的部分非常对，错的部分非常奇怪，错误的类型不像人类会犯的错，更像一个不知道自己缺了什么的系统在盲目推进。

研究者列出了他们认为最关键的七个认知暗物质域。这七个能力，共同构成了人类智能里那个"看不见但撑起了一切"的隐形骨架。

第一片：元认知

知道自己知道什么，知道自己不知道什么，知道什么时候需要停下来检查自己的推断是否正确。

象棋残局那个例子里，缺失的正是这个——模型生成了棋局，但从来没有问自己"这个棋局合法吗"。它没有一个内置的声音在说"等等，我在这一步可能犯了错，让我验证一下"。

人类做复杂任务时会有这种内部检查机制，即便犯了很多错，也能在某个节点意识到"这个方向不对"然后转向。AI的成功率随着任务步骤的增加呈指数级下降，就是因为缺乏这个错误恢复机制——它每一步犯错，却不知道自己在犯错，然后继续走。

第二片：认知灵活性

当规则变了，或者反馈表明当前策略不管用时，快速切换到另一种策略的能力。

研究者尝试给Claude Code连续反馈，告诉它残局是无效的，让它换一个思路。失败了——模型反复使用同一种方法，哪怕每次都得到了"这条路走不通"的明确信号。

人类碰到这种情况会有一种认知层面的"卡住感"，然后主动寻找为什么卡住、有没有别的思路。这个机制在AI里大体缺失。

第三片：情节记忆

记住"这件具体的事是什么时候发生在我身上的"，然后用这段记忆来指导未来的行动。

当前部署的语言模型没有真正意义上的情节记忆。它们有训练数据里蒸馏出来的通用知识，但没有"我上次做类似任务时犯了这个错误"这种可以被检索和利用的个人化记忆。每次对话都是全新开始，之前积累的经验教训无法被内化。

第四片：终身学习

在不忘记已有知识的前提下，不断学习新东西，适应新环境的能力。

人类的神经系统在一生中都在持续更新，学新技能不会让之前的技能消失。现有的AI模型要更新知识，需要在海量数据上重新训练。这被称为"灾难性遗忘"问题——给模型加入新知识，旧知识就被覆盖了。

第五片：溯因推理

从已知的结果，推断出最有可能的原因——即便那个原因是全新的、之前从未被明确提出过的。

这是科学发现的核心机制。达尔文看到加拉帕戈斯群岛上不同的雀类，推断出了自然选择。牛顿看到苹果落地，推断出了万有引力。这种从零散观察里"跳跃"到一个全新解释框架的能力，极难被编码进训练数据，因为真正的"跳跃"在它发生之前没有人知道它会在哪里发生。

第六片：社会常识推理

理解人和人之间那些不成文的规则，理解"他知道我知道他知道什么"这种多层嵌套的社会认知。

人际交往里有大量的意义是通过沉默、语气、时机传递的，而不是通过字面意思。一个真正理解社会规则的系统，不需要被明确告知"在这种情况下不应该说这种话"——它有一个关于人类社会互动的内建模型。

第七片：情绪智能

识别、理解自己和他人的情绪状态，并据此调整自己的行为。

这不是在问"AI有没有感情"这个哲学问题。这是在问：在一个情绪高度敏感的对话场景里，AI能不能感知到对方的情绪信号，并给出在情感层面恰当的回应？相关事件显示，这个能力目前存在相当大的缺口。

你可能会问：这七件事，不就是更多的训练数据，或者更大的模型能解决的问题吗？

研究者的回答是：不是，因为问题不在于量，而在于类型。

他们分析了目前最大规模的神经成像数据集，发现了一个让人警觉的模式：

那些已经被AI掌握得很好的认知能力（视觉感知、语言理解、语言生成），有大量专门为AI训练而设计的大规模神经数据集。

那些AI还完全没有掌握的认知能力（元认知、认知灵活性、情绪智能），对应的大规模数据集几乎不存在。

这不是偶然。AI研究者收集和使用那些容易被测量、能产生明确正确或错误答案的数据。元认知发生在内部，通常不留痕迹；溯因推理的"灵感时刻"稍纵即逝，无法被大规模记录；情绪智能的微妙信号很难被标注成训练标签。

结果就是：AI学会了大量可以被测量的东西，但那些真正塑造人类行为、但难以被测量的东西，从来没有进入过任何训练集。

研究者还做了另一个分析：检查了GPT-5.2、Claude Opus 4.5、Gemini 3.0 Pro的发布文档里用到的所有评测基准——37个基准，分析每一个主要在考察什么认知能力。

结果：几乎所有基准都集中在中等难度的认知能力层级，对真正困难的认知暗物质域的测试几乎为零。

换句话说：AI在哪些方面进步，取决于我们在哪些方面给它出卷子。我们没有出这七道题，所以这七块地方从未被认真建设过。

论文里有一段话，读完之后会停在脑子里：

"问题不只是任务失败，而是失败的方式。在一个精良的象棋应用里硬编码了无效残局，不只是错误，更是陌生的。人类犯错有规律可循：忽略边缘案例，算术出错，注意力涣散。这些失败模式是可被理解的，这让协作成为可能。以不可预测的方式失败的AI，很难被整合进人类的社会网络。目标不只是减少失败，而是确保失败是可被发现和可被解释的。"

这句话说的是一件比能力本身更根本的事：可靠性的前提，不是永不出错，而是出错的方式让人能看懂。

一个人类同事犯了错，你大概能理解为什么——太累了，信息不够，理解有偏差。你知道下次怎么补救，知道在哪些环节多核查。这让人类之间的分工成为可能。

一个缺乏认知暗物质的AI犯了错，那个错误经常是莫名其妙的——它做对了99个步骤，然后在第100步犯了一个初学者都不会犯的错，没有任何预兆，没有任何你能事先检测到的信号。

这不只是技术问题，这是人机协作的根本挑战。

这篇论文最后的结论，有一种不常见的诚实：

研究者承认，他们提出的解决方向——收集大规模的过程数据、眼动追踪数据、神经成像数据，来训练AI学习认知过程而不只是行为结果——可能来不及在常规AI研究进展之前发挥作用。

如果scaling law继续下去，也许这七片暗物质会在某个未知的方式下被部分解决，而不需要等待神经科学数据的介入。

但他们认为，即便如此，这项研究依然值得做。原因是双重的：

一方面，这些数据能帮助AI变得更通用、更少锯齿。

另一方面，这些数据能帮助我们更好地理解人类自己的认知是怎么运作的——元认知究竟发生在大脑的哪个部位，情绪智能的神经基础是什么，溯因推理时大脑里在发生什么。

研究AI缺什么，结果帮我们更清楚地看到了人类有什么。

这个视角，让这篇论文的意义超出了单纯的AI研究边界。

回到开头的那个比喻。

宇宙暗物质之所以重要，不是因为它神秘，而是因为如果它不存在，我们观察到的宇宙就无法成立——那些星系根本不该转得那么稳定，那些结构根本不该那么完整。

认知暗物质之所以重要，是同样的逻辑：如果这七种能力真的只是可有可无的附加功能，那人类就不该如此稳定地在复杂的、不确定的、充满情感张力的真实世界里生存和合作。

它们一直在那里，支撑着我们，只是在AI被设计出来之前，我们从来没有需要给它们一个名字。

原论文：Patrick J. Mineault（Amaranth基金会）、Thomas L. Griffiths（普林斯顿大学）、Sean Escola（Protocol Labs），《Cognitive Dark Matter: Measuring What AI Misses》，arXiv:2603.03414，2026年3月5日

查看全文

http://www.jsqmd.com/news/888721/