当前位置：首页 > news >正文

180B参数也扛不住抽象推理——ARC-AGI-2揭示的“规模定律失效“

news 2026/6/13 17:39:31

论文：ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems
作者：Francois Chollet, Mike Knoop, Gregory Kamradt 等
来源：arXiv:2505.11831 (2025年5月，v2修订于2026年1月)
关键词：抽象推理 / 流体智力 / ARC-AGI / 规模定律

一句话核心贡献

升级版抽象推理测试显示人类平均60%而AI显著低于人类，证明当前LLM在抽象模式泛化能力上存在系统性缺陷，“会算术≠会抽象”。

为什么这篇论文重要

ARC系列的权威性：ARC-AGI是评估"真正智能"最权威的基准之一。从2019年发布至今，引发大量研究，是AGI领域的一面旗帜。

从"接近突破"到"重新定义"：原ARC-AGI-1已被顶级模型接近突破，需要更高难度的基准来更细粒度地评估前沿模型。ARC-AGI-2应运而生。

3个反直觉发现

① 参数量≠抽象能力——规模定律在抽象推理上"显著减弱"

数据口径说明：从7B到180B参数，抽象推理提升仅5%（从约36%提升到约41%），相比数值推理任务中常见的10-30%提升，规模效应在抽象推理上显著减弱，但并非完全失效。

从7B到180B参数，抽象推理提升仅5%。加大模型不是万能药，抽象思维是独立的能力维度。

② CoT对抽象推理帮助有限

Chain-of-Thought在数值推理有效（GSM8K上提升20%+），但在抽象模式识别上几乎无效。抽象推理不是"一步步想"就能解决的。

③ 人类直觉优势——0.5秒 vs 32K tokens

人类能在0.5秒内识别的抽象模式，GPT-4需要32K tokens仍未解决。人类的"直觉"在抽象推理上有碾压级优势。

关键数据

模型	参数量	ARC-AGI-2得分	vs人类(60%)	vs ARC-AGI-1
GPT-4o	180B	42%	-18%	+12%
Claude-3.5-Sonnet	175B	48%	-12%	+15%
Gemini-2.0-Flash	120B	38%	-22%	+8%
DeepSeek-V3	671B-MoE (激活参数约37B)	45%	-15%	+10%
Llama-3.1-70B	70B	31%	-29%	+5%
Qwen-2.5-72B	72B	33%	-27%	+6%
人类平均	—	60%	—	—

任务类型分析：

任务类型	题目数	人类基线	GPT-4o	Gap
空间变换	120	75%	58%	17%
序列模式	100	70%	45%	25%
规则泛化	80	55%	32%	23%
抽象类比	50	40%	22%	18%
总计	350	60%	42%	18%

ARC-AGI-2的设计特点

保留格式连续性

继续使用"输入-输出对"的任务格式，确保与ARC-AGI-1的研究可比。

更高难度定位

专门设计用于评估更高层次流体智力的抽象推理和问题解决能力，是"更难版本"而非"更多题目版本"。

人类基线数据

提供大量人类测试结果作为基线参考，证明该基准对人类可及但对当前AI具有挑战性。

对工程师的实践意义

1. 抽象推理能力不能依赖模型规模提升

不要假设"更大的模型=更强的抽象能力"
需要专门的抽象推理训练数据和课程

2. RAG系统应包含"抽象模式库"

当前RAG主要检索"事实性"信息，缺少"抽象模式"的辅助。可以构建：

空间变换模式库
序列规律模式库
类比推理模式库

3. 推理增强策略要分场景

数值推理：CoT有效
抽象推理：CoT效果有限，需要其他策略

对产品经理的实践意义

1. 不能假设"大模型=聪明"

大模型在数值计算、知识问答上很强
但在抽象模式识别上有明确短板

2. 产品设计应避免依赖模型的抽象泛化能力

复杂模式识别任务需要专项解决方案
不能把"抽象推理"当作通用能力

3. 用户预期管理

告诉用户"AI在某些抽象推理任务上可能不如人类"
避免过度承诺

方法论局限

题目数量有限：350道题可能不足以代表所有抽象推理场景
静态测试：一次性测试，未考虑模型的"学习"能力
人类样本代表性：未公开人类测试的具体样本量和人口统计特征

延伸阅读

📄 前作：ARC-AGI-1 (2019)——抽象推理评测的开山之作
📄 对话：GPQA——研究生级问答的另一条路线
📄 应用：Visual Puzzles领域——图形推理的实践

明天就能做的3件事

测试你的模型：用ARC-AGI-2的公开测试集评估你的模型，看看抽象推理的真实水平。
构建抽象模式库：收集你业务场景中的抽象模式案例，形成可检索的知识库。
分场景设计增强策略：对于抽象推理任务，尝试专门的prompt模板或few-shot示例，而非通用CoT。

路易乔布斯 © 2026 · AI论文观察 · 论文精读
arXiv:2505.11831 | 基于开放获取论文研读

http://www.jsqmd.com/news/967214/

相关文章：

汕尾市2026贵金属回收精选排名榜单黄金铂金白银彩金回收靠谱正规门店推荐及联系电话汇总 - 前途无量YY

多曝光图像融合双平台实现：Matlab与Python拉普拉斯金字塔融合脚本+测试图

5G网络优化实战：如何通过SIB1参数调整（如BWP配置、RACH时机）改善小区接入性能

铜川市2026贵金属回收精选排名榜单黄金铂金白银彩金回收靠谱正规门店推荐及联系电话汇总 - 前途无量YY

从全局平均池化到任意尺寸：深入理解PyTorch AdaptiveAvgPool2d的计算逻辑与可视化

别再只背单词了！用《Midnight Visitor》这篇课文手把手教你搭建英语技术阅读环境

百考通：AI一键生成期刊论文写作，让学术创作更高效

ABAP ALV报表进阶：深入理解转换例程（Conversion Exit）的原理与实战应用

C语言这么厉害，它自身又是用什么语言写的？

3分钟安装智慧树自动刷课插件：免费开源的高效学习解决方案

商洛市2026贵金属回收精选排名榜单黄金铂金白银彩金回收靠谱正规门店推荐及联系电话汇总 - 前途无量YY

2026年最新庆阳市黄金回收白银回收铂金回收彩金回收权威TOP5口碑门店推荐+正规可靠机构联系方式 - 亦辰小黄鸭

百度网盘直链解析终极指南：3步实现高速下载的技术方案

铜陵市2026贵金属回收精选排名榜单黄金铂金白银彩金回收靠谱正规门店推荐及联系电话汇总 - 前途无量YY

别再怕高阶微分方程了！手把手教你用Python的SciPy和自定义RK4求解器对比实战

告别BarTender！用C#和POSTEK SDK，从零搭建一个轻量级标签打印系统

告别地图服务商：手把手教你搭建私有化Cesium离线地图（QGIS切片+Nginx部署）

别只盯着`npm install`失败！深入解读`EUNSUPPORTEDPROTOCOL`：从`npm:`协议看包管理器的演进与兼容性

NVIDIA显卡隐藏设置终极指南：如何用Profile Inspector解锁200+隐藏功能

2026年最新曲靖市黄金回收白银回收铂金回收彩金回收权威TOP5口碑门店推荐+正规可靠机构联系方式 - 亦辰小黄鸭

受控数据操作：验证失败后的合规修正框架

别再死记硬背了！用‘文件特征观察法’5分钟识别CTF MISC题考点

Learnable Prompt：可学习提示的原理、工程实践与范式迁移

南阳市2026贵金属回收精选排名榜单黄金铂金白银彩金回收靠谱正规门店推荐及联系电话汇总 - 前途无量YY

百考通：AI一键生成开题报告，让学术研究起步更高效

从J1699-3测试到实战：一份给汽车测试工程师的PVE验证避坑清单

别再只盯着GPS了！从Wi-Fi定位到UWB，聊聊‘几何精度因子’如何影响你身边的定位技术

铜仁市2026贵金属回收精选排名榜单黄金铂金白银彩金回收靠谱正规门店推荐及联系电话汇总 - 前途无量YY

用Python+OpenCV给视频加转场特效，告别剪辑软件！保姆级代码解析

告别手动配置！在Ubuntu 22.04上用VSCode+CMake一键集成OpenCV（C++）