当前位置: 首页 > news >正文

人类最后考试已不够用,Agent最后考试来了!

AI 飞速进步,各类问答基准几乎天天刷新 SOTA,人类最后考试(HLE)上,刚发布的最强 Claude 模型已经接近 65%,问答类基准已被刷爆了。

人类最后考试已不够用,伯克利牵头、250 多位行业专家参与的研究团队开始给AI上难度, Agents' Last Exam(智能体最后的考试,ALE)诞生。

当前最强AI,在这最难的题上只拿到 8.6% 通过率,主流系统平均 2.6%。这场智能体最后考试告诉所有人,AI 距离真正替人干活,还差得远。

考试卷子该换了

过去几年,AI 系统一个接一个攻克知名基准测试,下棋赢了世界冠军,奥数拿了高分,编程竞赛刷到顶尖。

HLE 这类知识问答基准上,Claude 已接近 65%,被攻破只是时间问题。

经济产出这条真正重要的指标上,AI 的影响却一直有限,基准测试上的胜利积累得很快,核心行业的实际改变慢得多。

研究团队把这个现象叫做效用问题。

基准测试的功能不只是记录能力,它还引导研究注意力,定义工程目标,决定哪些领域值得投入。

ImageNet 对计算机视觉的作用就是典型例子,有了可验证、广泛使用的评估标准,进步就加速,落地跟着来了。

金融、法律、电气工程、制造这些经济核心领域,一直缺少类似的评估。

现有基准到底差在哪?长流程的真实工作流很难收集,必须来自真实的软件和组织环境,之前基准往往选了更容易收集的短流程电脑操作、合成环境、纯问答模式。行业覆盖面也窄,现有基准通常只评估有限几个领域。

验证更是难题,正确输出可能是一个文件、一张表格、一段媒体、一份报告、一个设计或一个模型,输出形态太杂,很多基准干脆依赖人工打分。已有的基准往往只能在不真实、不全面、不可验证之间取舍。

ALE 则同时做到真实、全面、可验证。

Agents' Last Exam,为什么叫最后考试?名字有两层含义。

最后作为能力门槛,Agent 通过了某个行业的考试,就证明它有能力持续完成该行业有价值的工作,而不只是回答关于这个行业的问题。

最后也作为难度前沿,ALE 的题目扎根于需要专业判断的真实长流程工作流,坐在当前系统能力的边界上。

ALE 包含 960 个由专家编写的工作流,共 1490 个任务实例,覆盖 55 个子领域、13 个行业集群。

任务来源不是凭空编造的场景,是从业者真实完成过的项目,经过多轮质量控制才收录。

行业分类骨架用的是 O*NET/SOC 2018,美国联邦的职业分类体系,研究团队把具有相似软件操作流程的职业聚类为 ALE 行业,排除了核心工作并非数字化的领域。

从分布看,工程与建筑 368 个任务实例,计算与数学科学 237 个,视觉与媒体艺术 226 个,商业与金融 189 个,健康与医疗 155 个,生命科学 111 个。也有方向覆盖很少,能源与核工程只有 4 个,城市与空间规划 5 个,法律 15 个。

任务筛选标准有三条。

代表性,工作流要符合真实专业实践,用领域专家实际使用的软件,比如建筑专家用 SolidWorks 或 Rhino,不是 AutoCAD。

复杂性,任务必须是端到端的交付物,专家完成它需要可观时间,几步 UI 操作搞定的不算。研究团队做了区分,在达芬奇里加个颜色滤镜太窄,只是单个局部编辑,把奔跑的猎豹移到另一段赛马视频中才合格,要追踪、遮罩、合成、调色一整套耦合工作流。

可验证性,输出必须能被确定性检查或明确的评分规则评判,设计一个 RPG 游戏这种没法客观打分的题目不行,用 RPG Maker XP 还原 mota.exe 就行,因为地图几何、角色属性、事件状态都能自动对比参考版本。

Agent 得能文能武

ALE 测的不是只会答题的模型,是能在电脑上像人一样完成真实工作的 Agent。

研究团队把这类 Agent 叫做 Generalist Computer-Use Agent(GCUA,通用电脑使用智能体)。

研究团队把 Agent 的操作能力拆成五个功能层。

Brain(大脑)负责 LLM 推理和规划,Eyes(眼睛)负责 GUI 感知,通过截图理解屏幕内容,Body(身体)负责编排和控制流,Hands(双手)负责结构化工具调用,Feet(双脚)负责运行时底层,动作在这个层面生效。

传统 CLI Agent(命令行智能体)有 Brain、Body、Hands、Feet,缺 Eyes,看不到图形界面。

GUI Agent(图形界面智能体)有 Brain 和 Eyes,Body、Hands、Feet 都受限,写不了代码、管不了文件、撑不住长流程。

ALE 的任务要求 Agent 同时具备两套能力,在 GUI 和 CLI 之间自由切换,操作桌面应用、跑命令行、写代码、调工具,一口气走完整个工作流。

ALE 提供了完整的任务执行和评分环境。任务脚本负责加载任务、准备环境、最终评分,Agent 根据任务描述自己观察环境、选择动作、持续执行。

环境是远程虚拟机,有标准化四目录布局,input 放只读输入资产,software 放预装应用,output 是 Agent 唯一可写的目标,reference 放参考答案,Agent 看不到,只用来评分。

ALE 故意避免用 LLM 当裁判。如果一个任务只能靠问模型结果对不对来评分,这个任务会被退回,重新设计出可检查的输出物。

少数确实需要 LM 评分的任务,也不是笼统地问看起来对不对,是用窄范围、有锚定证据的是非探测,答案汇总成分数。93.2% 的任务能自动判分,不需要人工。

ALE 把任务分成三个难度档。

Near-Term(近期档)59 个任务,当前前沿 Agent 能部分完成,最高通过率约 42%,适合短期迭代和排行榜竞争。

Full-Spectrum(全谱档)55 个任务,确保 55 个子领域每个至少有 1 个实例,适合全面评估。

Last-Exam(最终考试档)36 个任务,是最难的工作流,大多数 Agent 通过率为 0%,留给里程碑式评估。

成绩单出来了

Last-Exam 档,当前最强配置 Codex + GPT-5.5,完整通过率只有 8.6%。这个组合在 Terminal-Bench 上能拿 82%,在 ALE 最简单档也只拿到 42.4%。

主流 Agent 系统在 Last-Exam 档的平均完整通过率是 2.6%。

Claude Code + Opus 4.7 在 Last-Exam 档完整通过率 0%,均分 2.1%。

具体的失败案例更能说明问题。

音乐转谱任务,需要提交总谱 PDF、MIDI 文件和界面截图,AI 只导出了 MIDI,拿了 0 分。

注塑仿真任务,AI 在 Moldex3D 中完成了仿真并导出结果,没能稳定提取关键数值,得分 0.4762。

绿幕合成任务,AI 导出了视频,结果没满足参考要求,同样 0 分。

研究团队还做了失败原因分类。

以 Claude Code + Opus 4.7 为例,31% 属于理解问题,Agent 没搞懂任务要什么;47% 属于方法问题,Agent 理解了但选错了做法;22% 属于执行问题,方法对了没执行到位。

理解和方法问题合计约八成,研究团队据此判断,当前系统的主要瓶颈在领域知识,不在执行能力。缺少专业知识的时候,Agent 会默认写临时脚本代替目标领域软件,34% 的任务指定了图形界面软件作为主要工具,Agent 在 GUI 上的操作占比却始终很小,更倾向用 Bash/CLI 替代。

换模型和换框架,哪个影响更大?

研究团队做了对照实验。固定 Agent 框架只换模型,整体通过率最高和最低差了 18 个百分点。固定模型只换框架,差距大约 5 到 6 个百分点。模型选择的影响,约等于框架选择的 3 倍。

从领域表现看,GPT-5.5 和 Opus 4.7 的领域画像很相似,计算数学和农业/环境得分最高(约 60%),视觉媒体和教育最低(低于 30%)。两个前沿模型在哪个领域强、哪个领域弱几乎一样,大概反映了模型本身在各领域能力不均衡,训练中代码相关领域覆盖远多于专业工作流。

还有个有意思的发现,更多资源投入不等于更好成绩,有些配置花了更多钱、更多时间,结果反而不如轻量级方案。

还不完美

ALE 有明显的不足。行业分类基于 SOC 2018,覆盖的主要是软件型、数字化专业工作,蓝领和实体操作不在范围内,任务目前运行在 Linux 或 Windows 虚拟机中。

不同领域覆盖不均衡,有些方向任务多,有些只有个位数。公开集目前只占完整任务池约 10%(150 个),其余 1017 个在私有池,323 个还在等质量控制。

研究团队做过一次检验,在 Claude Code + Opus 4.7 上,公开子集和完整任务池在各领域通过率上的相关系数是 0.89,代表性尚可但不完美。

知识问答类的 MMLU、GPQA、HLE 测的是模型知道什么,能做什么是另一回事。HLE 上 Claude 接近 65%,但知道和做到之间还有很大鸿沟。

Agent 类的 SWE-bench、OSWorld、WebArena 加了多步交互和工具使用,只覆盖少数软件领域,任务也来自策划编写而非真实专业工作流。

最接近的 GDPval 和 RLI 面向经济价值的项目级评估,行业覆盖分别只有 16/55 和 14/55,而且依赖昂贵人工打分。

ALE 是第一个覆盖全部 55 个 SOC/O*NET 行业的基准,每个任务来自 300 多位从业者真实完成的项目,用确定性脚本和结构化评分取代人工评判。

研究团队把 ALE 定位为一个持续更新的活基准。

未来任务池会继续扩展到新的工作流和行业,私有池中的任务会定期轮换进入公开集,保证评估面不被污染。

ALE 的目标不只是一份排行榜,是作为缩小基准成功和 GDP 影响之间差距的工具,当前沿 Agent 真能通过这场最后的考试,基准上的进步才有望体现为真实的经济转变。

参考资料:

https://agents-last-exam.org/

https://arxiv.org/pdf/2606.05405v1

https://github.com/rdi-berkeley/agents-last-exam

http://www.jsqmd.com/news/1003968/

相关文章:

  • 2026年贵阳学习摄影就选择莫瑶影视教育,贵阳摄影学校哪家好 - 全国职业学校推荐官
  • 大模型相对位置编码层归零技术解析与工程实践
  • HFSS新手避坑指南:用单元法搞定矩形波导阵列仿真(附详细步骤图)
  • 2026年除尘灰粘合剂源头厂家筛选 全行业实用落地经验分享
  • 别再写Flask了!用Gradio 3.x快速给你的AI模型做个Web演示界面(附用户登录和反馈功能实战)
  • 2分钟看懂:企业级RAG+Agent知识库的“四层神图”!
  • EA-Swin:基于Swin Transformer的AI生成视频检测技术
  • 2026年 回转柜生产厂家实力之选:智能回转柜/北京档案回转柜/医用回转柜/药品回转柜/电动自动回转柜专业制造商 - 品牌发掘
  • 银河麒麟NetworkManager接管 ifcfg-eth0配置
  • 2026年成都锦江区工商代办注册公司评测:成都无地址公司注册托管地址工商代办/哪家更可靠 - 优质品牌商家
  • Vue项目快速接入Live2D看板娘的开箱即用组件包,含模型资源与配置模板
  • 告别GUI点点点:用Matlab脚本批量处理OpenBMI脑电数据,效率提升10倍
  • 别再对着引脚图发愁了!Jetson TX2 NX 40针GPIO实战:从点亮第一个LED到读取传感器数据
  • 大模型安全对齐:红队测试与越狱防御的方法论与工程实践
  • HS2-HF Patch技术解决方案:Honey Select 2游戏兼容性与功能扩展架构
  • RFID智能货架和智能托盘厂家有哪些?仓储场景下的识别、联动与落地选择
  • MMdetection模型调优实战:如何利用官方coco_error_analysis.py生成并解读PR曲线图
  • GPT-4稀疏激活原理:1.8万亿参数为何仅用2%计算
  • 从148Mpps跌到57Mpps:一次ECMP哈希极化引发的软件交换机转发雪崩
  • WorkshopDL深度指南:无需Steam轻松获取创意工坊模组
  • JSP 项目静态资源后拼接版本号/时间戳,免刷新
  • 卖家福音:一键生成详情页、主图、模特穿戴图,省时80%
  • XUnity自动翻译器:打破语言壁垒的终极Unity游戏本地化指南
  • DPDK ACL分类器设计深度解析:从148Mpps跌到72Mpps,一次ACL规则膨胀引发的性能雪崩
  • 别再死记硬背了!用这5个SV功能覆盖率实战案例,帮你彻底搞懂covergroup和coverpoint
  • MATLAB一键运行的IEEE标准测试系统潮流计算包(4/14/30/57/118/300节点全支持)
  • 电赛备赛避坑指南:从‘采样不准’到‘稳流失效’,我的稳压电源调参血泪史
  • 深度解析NCMconverter:网易云音乐加密格式破解与音频转换技术实现
  • 告别静态地图!用Cesium CallbackProperty打造会呼吸的动态三维场景
  • 为什么程序员都在用 Claude 写代码?实测 Debug 能力与大模型选型攻略