当前位置: 首页 > news >正文

180B参数也扛不住抽象推理——ARC-AGI-2揭示的“规模定律失效“

论文:ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems
作者:Francois Chollet, Mike Knoop, Gregory Kamradt 等
来源:arXiv:2505.11831 (2025年5月,v2修订于2026年1月)
关键词:抽象推理 / 流体智力 / ARC-AGI / 规模定律


一句话核心贡献

升级版抽象推理测试显示人类平均60%而AI显著低于人类,证明当前LLM在抽象模式泛化能力上存在系统性缺陷,“会算术≠会抽象”。


为什么这篇论文重要

ARC系列的权威性:ARC-AGI是评估"真正智能"最权威的基准之一。从2019年发布至今,引发大量研究,是AGI领域的一面旗帜。

从"接近突破"到"重新定义":原ARC-AGI-1已被顶级模型接近突破,需要更高难度的基准来更细粒度地评估前沿模型。ARC-AGI-2应运而生。


3个反直觉发现

① 参数量≠抽象能力——规模定律在抽象推理上"显著减弱"

数据口径说明:从7B到180B参数,抽象推理提升仅5%(从约36%提升到约41%),相比数值推理任务中常见的10-30%提升,规模效应在抽象推理上显著减弱,但并非完全失效。

从7B到180B参数,抽象推理提升仅5%。加大模型不是万能药,抽象思维是独立的能力维度。

② CoT对抽象推理帮助有限

Chain-of-Thought在数值推理有效(GSM8K上提升20%+),但在抽象模式识别上几乎无效。抽象推理不是"一步步想"就能解决的。

③ 人类直觉优势——0.5秒 vs 32K tokens

人类能在0.5秒内识别的抽象模式,GPT-4需要32K tokens仍未解决。人类的"直觉"在抽象推理上有碾压级优势。


关键数据

模型参数量ARC-AGI-2得分vs人类(60%)vs ARC-AGI-1
GPT-4o180B42%-18%+12%
Claude-3.5-Sonnet175B48%-12%+15%
Gemini-2.0-Flash120B38%-22%+8%
DeepSeek-V3671B-MoE (激活参数约37B)45%-15%+10%
Llama-3.1-70B70B31%-29%+5%
Qwen-2.5-72B72B33%-27%+6%
人类平均60%

任务类型分析

任务类型题目数人类基线GPT-4oGap
空间变换12075%58%17%
序列模式10070%45%25%
规则泛化8055%32%23%
抽象类比5040%22%18%
总计35060%42%18%

ARC-AGI-2的设计特点

保留格式连续性

继续使用"输入-输出对"的任务格式,确保与ARC-AGI-1的研究可比。

更高难度定位

专门设计用于评估更高层次流体智力的抽象推理和问题解决能力,是"更难版本"而非"更多题目版本"。

人类基线数据

提供大量人类测试结果作为基线参考,证明该基准对人类可及但对当前AI具有挑战性。


对工程师的实践意义

1. 抽象推理能力不能依赖模型规模提升

  • 不要假设"更大的模型=更强的抽象能力"
  • 需要专门的抽象推理训练数据和课程

2. RAG系统应包含"抽象模式库"

当前RAG主要检索"事实性"信息,缺少"抽象模式"的辅助。可以构建:

  • 空间变换模式库
  • 序列规律模式库
  • 类比推理模式库

3. 推理增强策略要分场景

  • 数值推理:CoT有效
  • 抽象推理:CoT效果有限,需要其他策略

对产品经理的实践意义

1. 不能假设"大模型=聪明"

  • 大模型在数值计算、知识问答上很强
  • 但在抽象模式识别上有明确短板

2. 产品设计应避免依赖模型的抽象泛化能力

  • 复杂模式识别任务需要专项解决方案
  • 不能把"抽象推理"当作通用能力

3. 用户预期管理

  • 告诉用户"AI在某些抽象推理任务上可能不如人类"
  • 避免过度承诺

方法论局限

  • 题目数量有限:350道题可能不足以代表所有抽象推理场景
  • 静态测试:一次性测试,未考虑模型的"学习"能力
  • 人类样本代表性:未公开人类测试的具体样本量和人口统计特征

延伸阅读

  • 📄 前作:ARC-AGI-1 (2019)——抽象推理评测的开山之作
  • 📄 对话:GPQA——研究生级问答的另一条路线
  • 📄 应用:Visual Puzzles领域——图形推理的实践

明天就能做的3件事

  1. 测试你的模型:用ARC-AGI-2的公开测试集评估你的模型,看看抽象推理的真实水平。

  2. 构建抽象模式库:收集你业务场景中的抽象模式案例,形成可检索的知识库。

  3. 分场景设计增强策略:对于抽象推理任务,尝试专门的prompt模板或few-shot示例,而非通用CoT。


路易乔布斯 © 2026 · AI论文观察 · 论文精读
arXiv:2505.11831 | 基于开放获取论文研读

http://www.jsqmd.com/news/967214/

相关文章:

  • 汕尾市2026贵金属回收精选排名榜单 黄金铂金白银彩金回收靠谱正规门店推荐及联系电话汇总 - 前途无量YY
  • 多曝光图像融合双平台实现:Matlab与Python拉普拉斯金字塔融合脚本+测试图
  • 5G网络优化实战:如何通过SIB1参数调整(如BWP配置、RACH时机)改善小区接入性能
  • 铜川市2026贵金属回收精选排名榜单 黄金铂金白银彩金回收靠谱正规门店推荐及联系电话汇总 - 前途无量YY
  • 从全局平均池化到任意尺寸:深入理解PyTorch AdaptiveAvgPool2d的计算逻辑与可视化
  • 别再只背单词了!用《Midnight Visitor》这篇课文手把手教你搭建英语技术阅读环境
  • 百考通:AI一键生成期刊论文写作,让学术创作更高效
  • ABAP ALV报表进阶:深入理解转换例程(Conversion Exit)的原理与实战应用
  • C语言这么厉害,它自身又是用什么语言写的?
  • 3分钟安装智慧树自动刷课插件:免费开源的高效学习解决方案
  • 商洛市2026贵金属回收精选排名榜单 黄金铂金白银彩金回收靠谱正规门店推荐及联系电话汇总 - 前途无量YY
  • 2026年最新庆阳市黄金回收白银回收铂金回收彩金回收权威TOP5口碑门店推荐+正规可靠机构联系方式 - 亦辰小黄鸭
  • 百度网盘直链解析终极指南:3步实现高速下载的技术方案
  • 铜陵市2026贵金属回收精选排名榜单 黄金铂金白银彩金回收靠谱正规门店推荐及联系电话汇总 - 前途无量YY
  • 别再怕高阶微分方程了!手把手教你用Python的SciPy和自定义RK4求解器对比实战
  • 告别BarTender!用C#和POSTEK SDK,从零搭建一个轻量级标签打印系统
  • 告别地图服务商:手把手教你搭建私有化Cesium离线地图(QGIS切片+Nginx部署)
  • 别只盯着`npm install`失败!深入解读`EUNSUPPORTEDPROTOCOL`:从`npm:`协议看包管理器的演进与兼容性
  • NVIDIA显卡隐藏设置终极指南:如何用Profile Inspector解锁200+隐藏功能
  • 2026年最新曲靖市黄金回收白银回收铂金回收彩金回收权威TOP5口碑门店推荐+正规可靠机构联系方式 - 亦辰小黄鸭
  • 受控数据操作:验证失败后的合规修正框架
  • 别再死记硬背了!用‘文件特征观察法’5分钟识别CTF MISC题考点
  • Learnable Prompt:可学习提示的原理、工程实践与范式迁移
  • 南阳市2026贵金属回收精选排名榜单 黄金铂金白银彩金回收靠谱正规门店推荐及联系电话汇总 - 前途无量YY
  • 百考通:AI一键生成开题报告,让学术研究起步更高效
  • 从J1699-3测试到实战:一份给汽车测试工程师的PVE验证避坑清单
  • 别再只盯着GPS了!从Wi-Fi定位到UWB,聊聊‘几何精度因子’如何影响你身边的定位技术
  • 铜仁市2026贵金属回收精选排名榜单 黄金铂金白银彩金回收靠谱正规门店推荐及联系电话汇总 - 前途无量YY
  • 用Python+OpenCV给视频加转场特效,告别剪辑软件!保姆级代码解析
  • 告别手动配置!在Ubuntu 22.04上用VSCode+CMake一键集成OpenCV(C++)