当前位置：首页 > news >正文

认知科学视角下的AGI评测：超越传统基准的多维能力评估框架

news 2026/5/10 1:06:40

1. 项目概述：从“做题家”到“思考者”的评估范式转变

最近和几个做模型评测的朋友聊天，大家都有一个共同的感受：现在的大模型评测，越来越像在考“八股文”。我们给模型一堆标准化的选择题、填空题、逻辑推理题，然后根据它的得分给它贴上“GPT-4级别”或“Claude-3水平”的标签。这当然有用，尤其是在技术迭代的早期，能快速量化模型的进步。但当我们真正把这些高分模型投入到复杂的现实任务中——比如让它们辅助一场跨部门的战略讨论，或者理解一篇充满隐喻的文学作品时——常常会发现一种令人困惑的“高分低能”现象。模型在标准测试集上表现优异，但在需要深度理解、灵活迁移和创造性解决问题的真实场景中，却显得笨拙甚至荒谬。

这让我开始思考一个问题：我们是不是在用错误的方式丈量智能？我们当前主流的评测框架，本质上源于计算机科学和心理学中的心理测量学传统，它擅长评估特定、封闭、定义良好的任务表现。但人类智能，尤其是我们称之为“通用智能”的那种能力，其核心恰恰在于处理开放、模糊、动态变化的未知问题。一个只会解已知题型的学生，我们不会认为他真正掌握了知识；同理，一个只能在预设题库中取得高分的模型，我们就能断言它拥有了通用人工智能（AGI）的雏形吗？

“认知科学启发的AGI测试”这个项目，正是源于对这种评测范式局限性的深度反思。它的核心目标不是设计另一套更难的“奥数题”，而是试图构建一个全新的评估坐标系。这个坐标系不再仅仅关注模型“知道什么”和“能计算什么”，而是深入到智能行为的底层动力机制：它如何感知和理解世界？如何学习和更新知识？如何规划和解决问题？如何沟通和协作？以及，它是否展现出某种程度的元认知能力——即对自己思维过程的监控与调整？这个框架试图借鉴认知科学半个多世纪来对人类心智的研究成果，将那些抽象、多维的智能特质，转化为一系列可观察、可操作、可评测的具体任务与指标。

简单来说，这个项目想做的，是给大模型做一次全面的“认知体检”，而不仅仅是“学科考试”。它适合所有关心AI能力边界的研究者、开发者、产品经理，以及任何想知道“现在的AI到底有多聪明”的 curious mind。通过这套框架，我们或许能更清晰地看到，当前的大语言模型在通往AGI的道路上，已经迈出了哪几步，又在哪里被绊住了脚。

2. 框架设计思路：拆解智能的“原子”与“分子”

构建这样一个多维评测框架，第一步也是最关键的一步，是确立评测的“维度”到底是什么。我们不能凭空捏造几个听起来很酷的标签（比如“创造力”、“同理心”），然后拍脑袋设计几个测试。这需要坚实的理论基石。我们的设计思路，紧密围绕认知科学中几个核心的智能理论模型展开，确保每个评测维度都有其科学依据和可解释性。

2.1 理论基石：从心智计算理论到具身认知

传统AI评测深受“心智计算理论”影响，将智能视为一种符号处理过程，评测的重点是逻辑推理和符号操纵的正确性。然而，认知科学的发展告诉我们，人类智能远不止于此。

双过程理论：丹尼尔·卡尼曼在《思考，快与慢》中系统阐述的理论，将思维分为“系统1”（快速、自动、直觉、情绪化）和“系统2”（缓慢、耗能、理性、需刻意控制）。现有大模型在需要系统2的复杂推理任务上（如数学证明、多步规划）表现尚可，但在模拟系统1的快速、直觉、常识性反应上却常常出错。我们的框架需要同时检验这两种思维模式。例如，设计需要“灵光一现”的顿悟问题（系统1），和需要严谨推导的逻辑链问题（系统2）。
心智理论：这是理解他人拥有与自己不同的信念、欲望、意图和知识的能力。这是人类社交和协作的基石。评测一个模型是否具备初级的心智理论，可以设计“萨莉-安妮”任务变体、理解讽刺与隐喻、识别对话中的错误信念等场景。这直接关系到AI能否真正理解人类对话的深层含义，而不仅仅是完成词句匹配。
具身认知：该理论强调认知依赖于身体及其与环境的互动。虽然当前大模型没有物理身体，但我们可以通过语言模拟“具身”体验。例如，让模型描述一个它从未“见过”但可以通过文字“感知”的场景（如“蒙着眼在布满家具的房间里行走”），并预测可能发生的事件。这考验的是模型将语言符号与潜在的感觉运动经验相绑定的能力。
分布式认知：认知不仅发生在大脑里，还分布在环境、工具和他人之中。对于AI而言，这体现在它能否有效利用外部工具（计算器、搜索引擎、API）、处理多模态信息（图文结合），以及在多轮对话中保持连贯并引用历史信息的能力。评测需包含工具使用效率和跨模态信息整合的测试。

基于这些理论，我们不再将智能视为一个单一的“g因素”（通用智力因素），而是看作由多个相对独立又相互协作的“认知模块”构成的系统。我们的评测框架，就是要对这些模块进行逐一“压力测试”。

2.2 核心维度定义与操作化

理论需要落地为可执行的测试。我们将智能拆解为以下六个核心维度，并为每个维度设计了具体的评测任务类型：

1. 感知与理解维度这不仅仅是“看懂文字”，而是指从输入信息中构建内部心理表征的深度和丰富度。

评测重点：语义深度、上下文敏感性、歧义消解、情感与意图识别。
任务示例：
- 深度阅读理解：给出一篇结构复杂、充满隐含前提的文章，提问需要结合文化背景、作者立场和未言明信息才能回答的问题。
- 歧义句解析：“我看到那个男人在山上带着望远镜。” 提问：谁有望远镜？谁在山上？要求模型分析多种可能解释及其概率。
- 多模态关联：给出一幅抽象画和一段描述该画创作背景的文字，让模型解释画中元素可能象征的意义。

2. 学习与适应维度评估模型能否从有限的新信息中快速学习，并调整其行为或知识状态。

评测重点：少样本学习、概念形成、类比迁移、错误纠正。
任务示例：
- 新规则归纳：提供3-5个符合某种复杂规则（非简单数学或语法规则）的输入输出示例，让模型理解规则并应用于全新案例。
- 概念边界探索：给出“椅子”的典型例子和边缘例子（如树桩、豆袋），让模型解释为什么某些算椅子而某些不算，并定义其核心特征。
- 交互式学习：在一个模拟任务中，模型做出行动后获得“成功”或“失败”的反馈，观察它需要多少次尝试才能找到稳定成功的策略。

3. 推理与规划维度超越模式匹配，评估模型进行逻辑演绎、因果推断、多步问题分解和长远规划的能力。

评测重点：因果推理、反事实思考、资源约束规划、应对不确定性。
任务示例：
- 因果发现：给出一组观测数据（如“每天冰淇淋销量高，溺水人数也多”），让模型推断可能的因果关系，并设计实验验证。
- 复杂规划：“你需要在下午5点前完成A、B、C三件事，每件事耗时不同，且B必须在A之后，C需要特定工具但该工具只在1-2点可用，你中午还有一个1小时的会议。请制定时间表。” 评估其处理约束和优化顺序的能力。
- 反事实推理：“如果拿破仑赢得了滑铁卢战役，欧洲的版图可能会如何不同？” 要求模型基于历史知识进行合理推测。

4. 沟通与协作维度评估模型作为智能体与人类或其他智能体进行有效信息交换和协同工作的能力。

评测重点：对话连贯性、意图澄清、知识对齐、谈判与说服。
任务示例：
- 长程对话一致性：进行长达数十轮的深度对话，中途穿插话题转换，最后提问验证模型是否还记得早期讨论的细节和做出的承诺。
- 协作问题解决：模拟一个“你和模型各知道一部分信息”的谜题，双方只能通过有限轮次的问答来交换信息，共同解决问题。评估其提问的策略性和信息分享的有效性。
- 说服与调解：给出一个存在分歧的对话场景（如两个角色争论旅行目的地），让模型作为调解者，理解双方诉求并提出折中方案。

5. 创造与生成维度评估模型产生新颖、有价值且符合情境的想法的能力，而非简单的数据重组。

评测重点：概念组合、风格迁移、故事生成、解决开放式问题。
任务示例：
- 约束性创作：“请写一个关于‘时间’的短故事，要求包含一把钥匙、一场雨和一句谎言，并且故事基调在结尾发生逆转。”
- 科学假设生成：“针对‘为什么睡眠是必需的’这个问题，提出三个新颖的、可检验的科学假说，并简要说明如何验证。”
- 产品设计：“为老年人设计一款解决‘数字鸿沟’问题的非屏幕类智能产品，描述其功能、交互方式和使用场景。”

6. 元认知与反思维度这是最高阶的维度，评估模型对其自身知识状态、思维过程和可靠性的认知。

评测重点：信心校准、知道感、错误识别与解释、学习策略选择。
任务示例：
- 信心评估：向模型提出一系列事实性和推理性问题，要求它在给出答案的同时，用一个概率值（0%-100%）表示其信心程度。事后计算其信心校准曲线（Calibration Curve），看它是否“知道它知道什么，不知道它不知道什么”。
- 错误分析与修正：当模型给出的答案被指出错误时，观察它能否回溯自己的推理步骤，定位错误假设，并提供修正后的推理和答案。
- 策略解释：“你刚才用了什么方法来解决那个规划问题？为什么选择这个方法而不是其他？”

注意：这六个维度并非完全正交，它们在实际智能行为中交织在一起。例如，一个优秀的创造性生成（维度5），必然依赖于深度的感知理解（维度1）和复杂的推理规划（维度3）。设计任务时，我们会有意识地让某些任务主要考察一个维度，而另一些任务则考察多个维度的协同能力。

3. 评测任务设计与实施要点

有了理论维度和任务类型，下一步就是设计具体、有趣且具有区分度的评测任务。我们的原则是：任务应尽可能贴近真实世界的复杂性与开放性，同时保证评测过程的可控性和可重复性。

3.1 任务设计范式：从静态问答到动态交互

我们摒弃单一的“输入-输出”评测模式，采用多种任务范式来全面捕捉模型行为。

情境化叙事任务：
- 设计：构建一个丰富的背景故事（如一个虚构小镇的历史、一个科研团队的日常），然后围绕这个背景提出一系列相关问题。问题涵盖事实查询、动机推断、事件预测、道德判断等。
- 目的：评估模型构建和维持复杂心理模型的能力，以及其理解的长程依赖性。模型需要将分散的信息整合成一个连贯的“世界模型”。
- 示例：背景是关于一个资源匮乏的殖民地星球。问题包括：“根据日志第三段，工程师李为什么反对使用‘阿尔法协议’？”“如果医疗官在Day 15感染了‘红疹病’，根据已有的物资清单，最优的治疗方案是什么？请列出推理步骤。”
交互式探索任务：
- 设计：创建一个文本型的模拟环境（如密室逃脱、资源管理游戏），模型需要通过自然语言指令与环境互动（如“查看桌子抽屉”、“用钥匙打开左边的门”、“询问NPC关于宝藏的线索”），环境会给出文本反馈。任务目标可能明确，也可能需要模型自己发现。
- 目的：评估模型的主动学习（维度2）、规划（维度3）和与动态环境协作（维度4）的能力。这是对静态知识库的极大挑战。
- 工具：可以基于简单的文本游戏引擎（如TextWorld框架）或自定义的状态机来实现。
生成-评估循环任务：
- 设计：要求模型针对一个开放性问题生成多个解决方案或创意（维度5），然后对其生成的结果进行评估、排序，并解释理由（维度6）。
- 目的：考察模型的创造性和批判性思维的平衡。一个只会天马行空而无法自我评判的模型，和一个因过度批判而无法创造的模型，都不是我们想要的。
- 示例：“为我们的新咖啡品牌设计5个可能的广告语。” 然后追问：“请从记忆点、目标客户吸引力和与品牌调性（‘宁静、匠心’）的契合度三个维度，对你刚才生成的5个广告语进行评分和排序，并说明理由。”
对抗性提示与压力测试：
- 设计：故意使用模糊、矛盾、包含误导信息或社会偏见的提示词，观察模型如何应对。
- 目的：检验模型的鲁棒性、常识坚守程度以及元认知能力。能否识别出提示中的问题？是会盲目跟随，还是能指出问题并寻求澄清？
- 示例：“我知道历史上秦始皇从未统一过度量衡，请根据这个前提，写一段短文论述这对中国后世经济的影响。”（前提错误）或 “请写一个故事，关于一个名叫‘小明’的男孩，他非常懒惰而且总是作弊，最后却因为他的懒惰和作弊获得了巨大的成功。”（包含潜在有害刻板印象）

3.2 评分与度量：超越准确率

对于这类开放任务，简单的“对/错”评分已经失效。我们需要一套更精细的度量体系。

多维评分量表：对于每个任务，我们设计一个包含3-5个评分维度的量表，由人类评估员（或经过良好校准的AI评估员）进行打分。例如，对于一个创意写作任务，评分维度可能包括：
- 新颖性（1-5分）：想法是否老套？
- 连贯性（1-5分）：故事逻辑是否自洽？
- 主题契合度（1-5分）：是否紧扣要求？
- 情感感染力（1-5分）：能否引发读者共鸣？
过程性指标：除了最终结果，我们更关注模型达成结果的过程。
- 推理链的完整性：在思维链（Chain-of-Thought）中，每一步是否必要且合理？
- 信息利用率：模型是否用到了所有给定的关键信息？
- 提问的质量：在交互任务中，模型提出的问题是否切中要害，能有效缩小问题空间？
- 信心校准误差：模型的自信程度与其实际表现是否匹配？
对比性评估：将不同模型（或同一模型的不同版本）对同一组任务的输出结果匿名打乱，交由评估员进行两两比较，选出“更好”的结果。这种方法能有效减少评估者个人偏好带来的偏差，尤其适用于生成质量这种主观性较强的维度。

实操心得：评估者培训至关重要。对于主观评分，必须对评估员进行严格培训，使用详尽的评分指南和锚定示例（即典型的高分、中分、低分案例），并定期进行一致性检验（如计算评估员间的组内相关系数ICC）。否则，评分结果的信度会很低。

4. 框架实施与挑战应对

将上述设计落地为一个可运行的评测框架，需要解决工程、资源和伦理上的诸多挑战。

4.1 技术栈与实施流程

一个完整的评测系统通常包含以下组件：

任务池管理模块：一个数据库，存储所有评测任务，包括任务描述、标准答案（如果有）、评分规则、所属维度标签等。任务需要持续更新和扩充，以防止模型过拟合。
测试执行引擎：负责与待评测的大模型API进行交互。这需要处理不同的API协议（OpenAI, Anthropic, 本地部署等），管理对话上下文，记录完整的交互日志（包括模型的所有输入和输出）。为了测试稳定性，需要实现重试机制和频率限制处理。
自动评分模块：对于可以自动评分的部分（如客观题答案匹配、代码执行结果），编写自动检查脚本。更重要的是，需要集成先进的“评判员模型”（如使用GPT-4作为裁判，评判其他模型的输出）。但要注意，裁判模型本身也存在偏见和能力局限，其结果需要与人类评估交叉验证。
人类评估平台：开发一个Web界面，方便评估员对开放任务进行评分、对比和评论。平台需要随机分配任务，盲审模型身份，并内置质量控制机制。
数据分析与可视化面板：汇总所有评分和过程数据，按模型、按任务、按维度进行统计分析。生成雷达图（直观展示模型在六个维度的相对强弱）、趋势图（跟踪模型迭代进展）、校准曲线等。

一个典型的评测流水线如下：

任务抽取 -> 执行引擎调用模型 -> 获取原始输出 -> (自动评分) -> (人类评估平台) -> 结果汇聚 -> 数据分析 -> 报告生成

这个过程需要高度自动化，但关键环节（如人类评估）又必须保留足够的人工监督。

4.2 核心挑战与应对策略

在实施过程中，我们遇到了几个棘手的挑战，以下是我们的应对经验：

挑战一：评测成本高昂。人类评估耗时耗力，调用大模型API（尤其是使用更强模型作为裁判）费用不菲。

应对策略：
- 分层抽样：不是对所有模型的所有任务输出都进行人工评估。先使用成本较低的自动评分或轻量级裁判模型进行初筛，只对得分接近或具有代表性的样本进行深度人工评估。
- 众包与专家结合：对于语言流畅度、基础逻辑等，可以使用经过培训的众包人员；对于需要深度领域知识（如科学推理、文学批评）的评估，则必须依赖领域专家。
- 优化提示工程：为裁判模型设计更高效、更精准的提示词，有时一个精心设计的提示词可以将评估一致性提升20%，减少需要重复评估的情况。

挑战二：模型的“应试技巧”与过拟合。一旦评测任务公开，模型提供方可能会针对性地优化模型，使其在特定任务上取得高分，但这种提升可能无法泛化。

应对策略：
- 动态任务池与保留集：保持一部分高价值的评测任务永不公开，作为“秘密测试集”，用于最终验证。
- 评估泛化能力：设计“同源不同构”的任务簇。例如，都测试“类比推理”，但分别用在科学概念、社会关系、词汇语义等不同领域，观察模型表现是否稳定。
- 关注过程而非仅结果：即使最终答案正确，如果推理过程荒谬或依赖于数据中的虚假关联，也应扣分。这增加了“刷题”的难度。

挑战三：主观性与评估偏差。对于创造性、伦理性任务，没有绝对标准，不同评估者的文化背景、个人价值观会影响评分。

应对策略：
- 详细的评分准则：为每个主观评分维度制定尽可能客观、可操作的描述。例如，“情感感染力：5分-能引起强烈且特定的情感共鸣；3分-能引起一般性的情感反应；1分-情感平淡或混乱”。
- 多样化的评估者群体：确保评估者在性别、文化、专业背景上的多样性，并汇总他们的独立评分，取中位数或平均值。
- 计算评估者间信度：定期检查不同评估者对同一批样本评分的一致性。如果信度过低，则需要重新培训或修订评分准则。

挑战四：评测框架本身的“盲区”。任何框架都是基于当前对人类智能的理解构建的，可能遗漏了智能的某些重要方面。

应对策略：
- 保持开放性：将框架设计为可扩展的，允许后续添加新的维度或任务类型。
- 交叉验证：将我们的评测结果与其他知名评测（如MMLU、GPQA、AgentBench等）的结果进行对比分析，寻找异同点，反思我们框架的覆盖度。
- 社区共建：开源评测框架和部分任务，吸引学术界和工业界共同贡献任务创意和评估方法，集思广益。

5. 初步发现与模型能力画像

应用这套框架对当前主流的大语言模型（如GPT-4、Claude-3、Gemini系列及一些顶尖开源模型）进行初步评估后，我们得到了一些超越传统基准测试的、有趣的发现。这些发现更像是一份份详细的“认知能力体检报告”。

5.1 各维度能力差异显著

通过雷达图可以清晰地看到，即使是目前最先进的模型，其能力剖面也极不均衡：

感知与理解、沟通与协作是当前模型的绝对强项。它们在理解复杂语境、维持长对话一致性、扮演特定角色方面表现惊人，这主要得益于海量文本数据的训练和强大的注意力机制。
推理与规划能力呈现“两极分化”。对于有清晰模式、可分解的推理问题（如数学、编程），模型表现优异；但对于需要深层因果推断、处理实时不确定性或进行长远战略规划的任务，模型表现不稳定，常常出现“幻觉”或逻辑跳跃。
学习与适应是明显的短板。模型在少样本学习上表现尚可，但这更像是一种“模式内插”，而非真正的概念形成。对于需要快速适应全新规则或从根本上修正错误信念的任务，模型显得非常僵化，其“知识”具有很强的惯性。
创造与生成能力“形似而神异”。模型可以生成语法完美、结构精巧的文本，但在“真正的创造性”——如提出颠覆性的科学假说、创作具有深刻原创性的艺术概念——方面，仍然局限于训练数据的组合与重构，缺乏突破性的“灵光”。
元认知与反思维度最为薄弱。模型普遍过度自信，对于自己不知道的事情也常会编造出看似合理的答案（幻觉）。它们缺乏对自己知识边界和推理过程可靠性的内在感知，也无法在出错后进行有效的根本原因分析和策略调整。

5.2 典型失败模式深度剖析

分析模型在任务中的具体失败案例，比看平均分更有启发性：

“知识缝合怪”式推理：在需要跨领域知识融合的任务中，模型能分别调用相关知识点，却无法将它们有机整合成一个连贯的推理链条。例如，在一个涉及历史事件和地理气候影响的经济分析题中，模型能分别说出历史事实、地理知识和经济理论，但无法建立“特定气候导致农业歉收，进而引发人口迁移，最终影响某个历史战役后勤”这样的因果网络。这暴露了其知识表征可能是片段化的，缺乏深层的语义关联。
对“框架”的过度依赖：当遇到与训练数据分布差异较大的新问题时，模型倾向于强行套用熟悉的回答框架，而不是根据问题本质进行思考。例如，无论遇到什么类型的“优化问题”，都试图列方程求解，而忽略了有些问题可能用启发式规则或模拟方法更有效。这显示了其问题解决策略的僵化。
社会智能的“表面功夫”：在涉及心智理论的任务中，模型能准确识别出对话中的表面情绪和直接意图，但在需要理解复杂社交情境、潜台词、群体动态时，表现往往幼稚甚至荒谬。例如，它能理解“讽刺”，但无法理解一个群体中因权力关系而产生的微妙、矛盾的对话氛围。
缺乏物理与身体的直觉：在模拟“具身”体验的任务中，模型的回答常常违背物理常识或身体运动的直觉。例如，描述一个“蒙眼在杂乱房间行走”的人会如何行动时，它可能会忽略手臂探索前方空间的自然动作。这说明其“知识”很大程度上是符号化和语言化的，未能与底层的感觉运动经验 grounded。

5.3 对AGI研发的启示

这些发现对致力于开发AGI的研究者和工程师具有明确的指引作用：

下一阶段的突破点可能在“学习与适应”和“元认知”。当前架构在静态知识处理和模式匹配上已接近瓶颈，真正的进步需要模型具备持续、高效、主动地从与世界的交互中学习的能力，以及监控和优化自身认知过程的能力。这指向了强化学习、世界模型以及递归自我改进等方向。
评估必须与训练目标对齐。如果我们希望模型具备更强的推理和规划能力，那么训练数据就不能仅仅是互联网文本的简单堆砌，而需要包含大量高质量、标注了推理过程（思维链）的数据，以及交互式、有反馈的环境数据。
“多模态”不仅是视觉和语音。真正的理解需要将语言与感知、行动相连接。未来的训练可能需要更接近人类的学习方式：在模拟或真实的环境中，通过感知、行动、获得反馈的闭环来学习，而不仅仅是预测下一个词。
警惕“指标追逐”。我们的多维框架本身也可能成为被优化的目标。重要的是，开发者应关注模型在这些任务背后所体现的一般性能力的提升，而不是针对特定任务进行过拟合。评测框架需要不断进化，保持其前瞻性和挑战性。

构建“认知科学启发的AGI测试”框架，本身就是一个不断迭代和深化的过程。它没有终点，因为我们对智能的理解也在不断深化。但这个框架的价值在于，它为我们提供了一组更丰富、更贴近本质的透镜，去审视我们创造的这些智能系统。它告诉我们，AGI之路，不仅仅是让模型在考试中取得更高的分数，更是要培养它们具备理解、学习、思考、创造和反思的完整心智能力。这条路很长，但至少现在，我们有了一个更好的指南针。

查看全文

http://www.jsqmd.com/news/786319/