当前位置: 首页 > news >正文

谷歌DeepMind发布AGI评估框架,开启通用智能评测新时代

【导语:谷歌DeepMind发布重磅论文,提出将通用智能拆成10大认知能力,并配以三阶段评估协议,还发起20万美金Kaggle黑客松,旨在为AGI建立科学评估体系,解决现有评测体系的困境。】


10大认知能力:为AGI评估绘制蓝图

谷歌DeepMind的新论文《Measuring Progress Toward AGI: A Cognitive Framework》核心是一套“认知分类法”,将通用智能拆解为10种关键认知能力。其中包括8种基础能力,如感知,涵盖视觉、听觉和文本感知,LLM的文本感知是人类不具备的独特模态;生成能力中的“思维生成”评估困难;注意力需在专注与警觉间找到平衡;学习要求AGI部署后持续学习;记忆包括多种类型且遗忘也是智能一部分;推理涵盖多种逻辑推理方式;元认知能拉开系统差距;执行功能支撑目标导向行为。此外还有2种复合能力,问题解决综合多种能力解决具体问题,社会认知处理社交信息。

三阶段评估协议:验出AI真实成色

有了分类法,谷歌提出三阶段评估协议。第一步认知评测,让AI完成覆盖10种认知能力的任务,任务设计有严格要求,如针对具体能力、使用保密题库、经第三方审计、难度有梯度、格式多样。第二步收集人类基线,让大量具有代表性的成年人在相同条件下做题。第三步构建认知画像,将AI表现与人类表现对比,画出雷达图,因为AI能力呈“锯齿状”,雷达图可避免只看总分的片面性。不过,评估存在不确定性,如任务质量、构念效度和生成式AI的随机性。

旧评测体系困境:呼唤新评估框架

现有的AGI评测体系已无法满足需求。一方面存在“小镇做题家”困境,数据污染使AI可能靠记忆拿高分,无法证明具备通用智能。另一方面,现在的AI是完整系统,可调用多种工具,难以区分评测的是模型能力还是系统技能。题库泄漏、评测对象模糊等问题让旧体系千疮百孔,这促使DeepMind从认知科学重建评估框架,并将出题权交给全球研究者。

20万美金黑客松:填补评估缺口

与论文同步推出的Kaggle黑客松,奖金总计20万美元,精准瞄向评估缺口最大的5种认知能力:学习、元认知、注意力、执行功能、社会认知。参赛者可利用Kaggle新平台构建评估方案并在前沿大模型上验证。设5个赛道各2个一等奖,每个1万美元,还有4个2.5万美元的全场特等奖,鼓励做出通用评估工具。时间从3月17日开放提交到6月1日公布结果,若运转良好,该体系有望成为AGI领域公共基础设施。

框架之外:更棘手的问题待解

在讨论章节,团队列出认知评估“管不到”的重要维度。处理速度影响系统实用价值;系统倾向性涉及风险偏好和价值观对齐,影响部署安全;创造力难以客观评估;端到端部署评估与认知评测互补。DeepMind强调这套框架是“起点”,AI可能发展出人类认知分类法无法覆盖的能力,分类法需迭代,认知能力与现实表现关系也需进一步研究。编辑观点:谷歌DeepMind的研究为AGI评估带来了科学、可操作的框架,有望解决现有评测体系的困境。但AGI发展迅速,未来仍需不断完善评估体系,以适应技术的演进。

http://www.jsqmd.com/news/500423/

相关文章:

  • 2026年发动机缸盖工厂推荐:动力总成升级关键部件口碑好工厂与实力分析 - 十大品牌推荐
  • 2025-2026年充电桩厂家推荐:全球市场出海合规产品与技术支撑服务汇总 - 十大品牌推荐
  • 【无标题】嵌入式控制器原理及应用——STM32微控制器开发工具
  • 不必远行,武汉家门口的徒步路线,美到不想停
  • 北京宠物寄养哪家好?盘点专业正规、条件服务优质的宠物寄养机构 - 品牌2026
  • Nature新风口:PINN+知识蒸馏!思路学好转头就发顶会,新组合就是好上分
  • 2026年想在成都找家靠谱的GEO外包公司?要注重这几个要点 - 红客云(官方)
  • IOP-JPCS出版|EI会议2026年计算力学与智能系统国际学术会议(CMSS 2026)
  • 嵌入式春招笔试高频算法题(附解题思路)
  • 输入题目,输出高质量开题初稿——百考通AI让研究起点更稳!
  • 2026年发动机缸盖工厂推荐:全球化供应链体系下优质合作伙伴选择指南分析 - 十大品牌推荐
  • 前缀和算法 cpp
  • 5分钟本地跑起大模型
  • 从“笔耕不辍”到“智绘蓝图”:书匠策AI如何重塑问卷设计新生态?
  • 服务器安装向量数据库-Docker版本
  • Claude AI编程实战 的32 个技巧,建议收藏
  • OpenClaw树莓派摄像头任务测试
  • [具身智能-21]:深度解析:ROS 2 (底层) + Android (上层) 双系统架构
  • 构建高效能团队:研发效能平台如何赋能企业创新?
  • 学习java第2天
  • 《防雷设计不止于“避雷针”:沃虎PoE++防护方案如何实现供电与数据的“双冗余安全”》
  • 关于Linux中的日志问题
  • 塔讯总线协议转换信捷 PLC 对接 TCP/IP 设备实战方案
  • 盘点2026年最靠谱的京东e卡回收渠道 - 团团收购物卡回收
  • 锂电池测试设备采集到本地数据库的解决方案
  • 2025-2026降AI率工具12家实测:学生党零成本最优解是它
  • AI外呼破局|成人教育降本关键,告别高转化成本
  • 千匠网络B2B软件开发:定制化赋能企业数字化交易闭环
  • 欧盟小额包裹监管趋严低客单模式如何调整才能不亏
  • AI辅助氢氧切割,助力工业企业零碳转型