当前位置：首页 > news >正文

APEX-Agents基准测试：揭开智能体时代AI的真实困境与挑战

news 2026/7/24 22:13:20

【导语：过去两年AI发展指标近乎失准，APEX-Agents新基准测试揭示了从LLM到Agent范式转移中AI能力提升的数据饥渴问题，戳破AGI泡沫，展现出智能体现阶段的诸多困境与挑战。】

评测权杖从LLM到Agent交接

过去三年，LLM是AI主要形态，评测重心在模型“智商”。但不到半年间AI形态从LLM全面过渡到Agent，评测标准也随之改变。APEX-Agents基准测试摒弃“一问一答”式考卷，采用33个数据丰富的模拟世界，每个世界平均含166个文件、涉及9个以上应用程序工具。模型需像人类员工一样在任务链条中观察环境、拆解指令、调用工具并交付成果，这反映出AGI门槛从关注模型知识转向关注实际做事能力。

性能“遮羞布”被无情揭开

APEX-Agents的Pass@1排行榜结果让“AGI即将实现”的说法不攻自破。全球AI三巨头的模型得分低迷，Google的Gemini 3 Flash得24%，GPT-5.2（High）得23%，细分职业场景中模型也难突破30%门槛。报告指出死循环、流氓行为、长时程规划迷失等失败模式，是大模型无法转变为生产力工具的最大限制。即便放宽尝试次数至8次（Pass@8），顶尖模型得分接近40%，但稳定性指标最低降至6.5%，说明智能体具备潜力但极不稳定，现阶段最多只能算AGI的最初级形态。

成本陷阱制约智能体发展

现有Agent测评中，token消耗成本常被忽视。Agent比LLM消耗的token成本高很多，如Google的Gemini 3 Flash单次任务平均消耗531.5万token，约是GPT-5.2的5倍、Gemini 3 Pro的8倍，而性能优势仅1%。按闭源模型价格核算，完成复杂投行任务算力成本高达几十美金，逼近甚至超过初级人类分析师时薪。目前智能体低准确率是基于不计成本的暴力推理，“高消耗+低增益”的边际递减效应凸显，未来Agent基准测试需引入基于token的投资回报率。

生态分化与商业格局重塑

进入Agent时代，开源模型在APEX基准测试中全面溃败，闭源模型对其形成降维打击，如GPT-OSS-120B和Kimi K2得分低于5%。智能体能力具有系统复合性，稳定执行长周期任务需底层模型强大的语言理解能力及对轨迹优化、状态一致性等细节的完美处理。闭源厂商掌控闭环数据、大规模算力调度、端到端技术栈等商业命脉，而开源模型缺少高质量行为对齐数据，未来能“办事”的模型大多不会免费。

存量数据成智能体重大挑战

AI的三要素算法、算力和数据始终不变，但智能体能力提升陷入严重的数据饥渴。Agent执行任务的逻辑与多模态模型不同，互联网上缺乏高质量的“任务执行轨迹”数据。解决现阶段智能体瓶颈需构建高保真虚拟世界环境，通过合成数据技术生成高质量训练样本，APEX基准测试的Archipelago基础设施就是为此提供的试验场。编辑观点：APEX-Agents基准测试为AI行业敲响警钟，让我们看清智能体时代AI发展的困境与挑战。行业需重视数据、成本等问题，探索新的发展路径，才能推动AI真正走向生产力革命。

查看全文

http://www.jsqmd.com/news/621142/