当前位置: 首页 > news >正文

AI能力进化还在狂飙!Epoch数据洞察打破人们对AI进化减缓的预期

Epoch AI最新发布的监测数据显示,AI能力进化还在狂飙。

这与METR的时间跨度基准(Time Horizon benchmark)得出的加速结论遥相呼应。

2024年4月,全球AI综合能力的增长速率在这一刻暴涨了90%。同年10月,METR的时间跨度基准出现40%加速。

在过去的两年里,AI模型在Epoch能力指数(Epoch Capabilities Index,ECI)上的得分增长速度,几乎是此前两年的两倍。

为了提供更多数据,Epoch包含了2023年前的模型,但当时基准分数相对稀少。排除这些数据,核心结论依然坚如磐石:我们正处在AI的加速坡道上。

这种剧烈的非线性跃升,打破了人们对于技术进步通常呈现S型曲线末端边际效应递减的预期。

这两组独立数据的共振揭示:随着推理模型(Reasoning Models)的崛起和强化学习(RL)在顶级实验室的普及,我们正处于一个新的加速周期之中。

Epoch AI与METR

在AI日新月异的今天,如何公平地衡量一个模型的智力,其难度不亚于制造模型本身。

Epoch AI是一家非营利性研究机构,专注于预测和跟踪AI的发展轨迹。

他们不直接开发大模型,而是作为第三方的裁判员,致力于用严谨的数据和统计学方法,为AI的进步建立坐标系。

其资金来源于Open Philanthropy等慈善机构,这保证了其研究的独立性和客观性。

METR(Model Evaluation and Threat Research,原ARC Evals)是一个专注于AI安全评估的研究组织,更侧重于从安全和自主性角度评估AI。

他们的核心关注点不是AI知道什么,而是AI能独立做什么以及能做多久。

这两个机构推出的核心指标——Epoch Capabilities Index (ECI)METR Time Horizon,正是目前能够捕捉到这波技术加速浪潮的精密仪器。

ECI:AI能力的罗塞塔石碑

Epoch Capabilities Index (ECI) 是为了解决AI评估界的一个顽疾:基准测试的通货膨胀与碎片化。

在过去,一个新出的基准测试(如MMLU)往往在几个月内就会被模型刷爆——得分迅速接近100%,从而失去区分度。这导致我们无法用同一套试卷去衡量跨度几年的模型。

ECI引入了心理测量学中的项目反应理论(Item Response Theory, IRT),这是一种通常用于人类标准化考试(如GRE、SAT)的统计学框架。

统一难度坐标:IRT假设存在一个潜在的能力变量。它不再单纯看分数的绝对值,而是通过分析模型在不同难度题目上的表现,推算出模型在这一潜在能力轴上的位置。

基准缝合(Stitching):ECI将39个截然不同的基准测试缝合在了一起。无论是一个简单的Python编程题,还是FrontierMath中那些连数学教授都要解几小时的难题,都被映射到了同一个难度标尺上。

抗饱和设计:当简单的基准被刷爆饱和后,ECI会自动依赖更难的基准来提供区分度。这就像是一个自适应的考试系统,题太简单了就自动换难题,确保永远能测出考生的真实上限。

通过这种方法,ECI成功地将从2023年至今的126个模型、1103个评分数据点整合成了一条连续的能力曲线,让我们得以窥见AI进化的全貌。

ECI底层汇聚了39个极具代表性的基准测试。

这些测试涵盖了数学、代码、科学问答、甚至通过终端操作计算机的能力。还包括了从逻辑推理(ARC-AGI)、代码多语言能力(Aider Polyglot)、到长文本理解(L-Series)的全方位测试。

ECI正是通过综合这些五花八门的测试结果,剥离了单一测试的偶然性,提炼出了那个名为通用智能的核心变量。

METR Time Horizon:衡量自主性的维度

ECI衡量的是智力的高度,METR的Time Horizon(时间跨度)衡量的是智力的耐力。

METR Time Horizon 的定义非常直观且具有冲击力:一个AI模型能够在不需要人类干预的情况下,以50%的成功率独立完成的任务,其对应的人类专家耗时是多少?

2023年初的模型,可能只能独立完成人类几分钟就能做完的简单脚本编写。

2024年的顶尖模型,已经开始向独立完成人类需要数小时甚至数天才能完成的复杂软件工程任务发起冲击。

2024年10月观测到的40%加速,正是AI从助手(Chatbot)向代理(Agent)蜕变的动力。

这种能力的提升,直接来源于模型在长逻辑链条上的稳定性增强——这正是推理模型(Reasoning Models)的核心优势。

当模型学会了三思而后行(Chain of Thought)和自我反思,它就能在长时间的任务中保持航向,不再轻易迷失。

ECI的数据洞察告诉我们:AI的能力提升不仅没有触顶,反而在换挡加速。

随着推理能力的解锁和强化学习的深入,我们正在见证智能系统从博学向精深,从瞬间反应向长时思考的跨越。

参考资料:

https://epoch.ai/benchmarks/eci

https://epoch.ai/data-insights/ai-capabilities-progress-has-sped-up

https://x.com/YafahEdelman/status/2002871018193670556

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

http://www.jsqmd.com/news/144917/

相关文章:

  • 东莞哪里可以开病例证明病假条
  • 供应链计划系统架构实战(三):全球平台数据与实现难点分析
  • 数字人民币跨境支付试点启动,稳定币会被取代吗?
  • 计算机Java毕设实战-基于springboot的考研学生在线学习与交流系统的设计与实现基于SpringBoot的考研规划与交流平台设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 云服务器成本优化
  • 长沙哪里可以开病例证明病假条
  • “AI大语言模型+”助力大气科学相关交叉领域实践技术应用
  • 通过TDE + DBG 实现数据库“存储加密 + 字段脱敏”双模防护方案
  • STM32项目分享:智能家用垃圾桶
  • 技术鸿沟与角色突围:AI时代产品经理的能力重构与CAIE认证价值
  • [Mac] Now冥想音频提取工具,无需会员,安装即用
  • 【计算机毕业设计案例】基于springBoot考研资讯系统设计与实现基于springboot的考研学生在线学习与交流系统的设计与实现(程序+文档+讲解+定制)
  • 武汉哪里可以开病例证明病假条
  • 2025年12月气体检测仪高性价比榜单深度解析
  • 网站打不开提示不安全?怎么解决
  • IDEA的三种搜索方式都有啥区别
  • B2B企业做品牌战略咨询选哪家公司靠谱?奇正沐古 - 资讯焦点
  • SYP 密码管理器:基于 UI 自动化的 CS 代填如何做到“安全可用”?
  • 华三交换机定时关闭端口和定时重启
  • 从“技术焦虑”到“策略通关”:一位产品经理的CAIE认证备考心路
  • STM32单片机分享:智能晾衣架系统
  • AI作为金融安全底座——澳大利亚银行如何重塑风险管理模式
  • U盘文件“隐形”难题:不显示却占空间,数据恢复全攻略
  • 苏州哪里可以开病例证明病假条
  • 男人宠你的 9 个 “藏不住” 本能反应
  • MySQL SQL 面试核心考点与注意事项总结
  • 【软件测试】8_接口测试 _全量字段校验
  • 看看灵光、秒哒、NoCode、Gemini、iThinkAir各家做应用的效果
  • 2026最新软件测试面试题(一)
  • AI终于学会“动手“了:一文搞懂AI Agent和MCP的魔法