当前位置: 首页 > news >正文

ProgramBench 重新定义 AI Coding 评估:大模型软件工程能力遭“团灭”,瓶颈在哪?

地狱级新 benchmark 结果震撼

SWE - Bench 创建者放出新 benchmark,Claude Opus 4.7、GPT - 5.4、GPT - 5 mini、Gemini 3.1 Pro、Gemini 3 Flash 等一线模型全部 0% 完成率,意味着今天的大模型会写代码,但不会做软件工程。

ProgramBench 重新定义评估方式

Meta FAIR 联合斯坦福、哈佛等机构发布 ProgramBench,它把问题推进到软件工程层面,让 AI 从零开始构建可执行软件系统,如 ffmpeg、SQLite、ripgrep,且不能联网。它采用行为等价打分,用 agent - driven fuzzing 做测试,结果所有模型 0% 完成率。

模型表现细节

Figure 4 显示模型常能完成一部分,少数任务接近完成,但要求 100% 行为等价就不行。Claude 系列表现相对最好,Claude Opus 4.7 只有 3% 的任务接近完成。模型倾向于生成单体化代码,与人类工程师习惯相反,暴露其擅长局部代码生成,不擅长全局系统规划的问题。

不同语言与任务难度表现

研究团队统计模型在 C/C++、Go、Rust 等语言项目上的表现,C/C++ 项目完成度最高,Rust 最差。不同模型在任务难度排序上一致,简单 CLI 工具通过率高,复杂系统难推进,说明复杂软件系统对当前模型有稳定压制。

围绕 ProgramBench 的争议及回应

有人质疑 ProgramBench 是考模型背过 FFmpeg 吗,知名硅谷投资人 Deedy Das 回应称任何 benchmark 都可能被 overfit,真正重要的是模型完成这类任务的能力可能泛化到其他工程场景。还有人吐槽 benchmark 不合理,Deedy Das 认为 benchmark 目标是推动模型向更高层次智能逼近,人类做不到不意味着没价值。

ProgramBench 的缺陷与改进方向

ProgramBench 存在缺陷,如没测试 Claude Code、Codex 等完整 agent harness,只统计是否完成,限制联网能力等。但这些问题可随 benchmark 演进修正,它第一次把 AI Coding 评估从函数级拉到系统级,暴露出行业断层。

行业研究新方向

当前大模型缺乏维护复杂系统的能力,行业开始研究 memory、agents、repo - level reasoning、long - horizon planning、autonomous software engineering 等关键词,下一阶段竞争可能是谁能持续稳定维护软件系统。

http://www.jsqmd.com/news/773815/

相关文章:

  • 3大核心功能揭秘:KH Coder如何让文本分析像查字典一样简单
  • 解密世界杯转播费天价之谜:这 7 大因素是关键
  • Tensory:为AI智能体构建原生记忆系统的四层架构与实战指南
  • 基于电液耦合转向铰接列车的换道轨迹规划及跟踪【附代码】
  • SKILL0框架:基于上下文学习的智能体强化学习新范式
  • 从零构建大语言模型:深入理解Transformer架构与PyTorch实践
  • 5分钟搭建原神私服:KCN-GenshinServer一键GUI完全指南
  • 为什么MCU只认二进制,我们却一直在烧录HEX文件?
  • 2026奇点大会闭门报告流出:AISMM与FinOps融合将淘汰64%的传统云成本岗位——你准备好了吗?
  • TFT-Overlay:让云顶之弈新手秒变高手的桌面智能助手
  • 从技术爆发到产业深融:2026 年 AI 发展现况全景解析
  • Gemini和ChatGPT同时要开始投广告了:AI聊天机器人的“免费午餐“时代终结
  • 多轴无人驾驶平台底盘域运动系统的控制策略硬件在环【附代码】
  • 想同时降维普查重和AIGC率?这款工具亲测好用
  • AI代理框架设计:从模块化架构到工程化实践
  • NCM格式解锁全攻略:3种方法让网易云音乐自由播放
  • Paperidea 论文格式神器|上传学校范文一键自动排版,免费实现毕业论文 100% 范文化
  • 测试用例设计方法与理论基
  • VideoDownloadHelper:5分钟掌握高效视频下载技巧的终极指南
  • 终极Windows风扇控制神器:Fan Control完整指南与实战教程
  • 口碑好的永城市装修哪家专业
  • 潜伏9年通杀全版本!Copy Fail 内核提权漏洞分析(CVE-2026-31431)
  • Java 方法 (Java 入门笔记)
  • 让游戏焕发新生:BepInEx插件框架的魔法世界
  • FIR滤波器设计原理与工程实践指南
  • 2026奇点大会闭门报告首度流出:AISMM评估体系+7个垂直行业落地瓶颈清单(仅限前500名技术决策者查阅)
  • docxcpp开源库,用于读写docx
  • Flutter for OpenHarmony 校园闲置跳蚤市场APP 实战DAY3:商品卡片封装+模拟假数据+分类联动筛选
  • 大路灯护眼灯有必要吗?护眼大路灯最建议买的十个牌子,精选推荐
  • 特斯拉Model 3 CAN总线数据解析:解锁智能汽车的“神经系统“