当前位置: 首页 > news >正文

Cognition发布FrontierCode:突破现有局限,精准衡量AI代码“可合并性”

【导语:当AI编程模型代码正确性不再是难题,衡量代码“质量”成新焦点。Cognition发布FrontierCode评测基准,与现有基准不同,聚焦代码是否能被维护者合并,为AI编程能力评估带来新变革。】


FrontierCode:聚焦代码“可合并性”评测

当AI编程模型的代码正确性不再是问题,如何衡量代码“质量”成为新焦点。Cognition发布的FrontierCode,是专门衡量AI模型能否写出达到生产合并标准代码的评测基准。它与现有编程评测基准不同,不评估“代码对不对”,而是关注“维护者会不会真的合并这个PR”。

现有基准局限性凸显

当前主流编程评测基准如SWE - Bench Verified和Pro,设计针对能力较弱阶段的模型,存在明显局限性。它们只验证代码的功能正确性,不验证代码质量,且误分类错误率较高,即通过测试的代码补丁未必能被人类维护者真正接受。METR实验证实,许多在现有基准上高分的模型,生成的补丁在实际代码审核中会被拒绝。

FrontierCode的创新解决思路

FrontierCode与开源社区顶级维护者合作,36个旗舰开源项目的维护者参与任务构建,每人花在每个任务上的时间超过40小时。他们定义了各自代码仓库中“可合并”的具体标准,并将这些标准转化为评分规则。

评分维度涵盖行为正确性、回归安全性、机械清洁度、测试质量、代码范围以及代码质量等方面。为解决测试覆盖不足问题,引入“反向经典测试”机制,确保测试的有效性;还引入“自适应经典评分”方法,对多样化解法进行严格而确定的测试。

各模型在FrontierCode下的表现

FrontierCode共包含150个任务,分为三个难度子集。目前最佳模型Claude Opus 4.8在最难的Diamond子集上仅得分13.4%,GPT - 5.5得6.3%,Gemini 3.1 Pro得4.7%,开源模型中表现最好的Kimi K2.6在Diamond上仅得3.8%,这表明即使是当前最强大的模型,在这项新标准下仍有巨大提升空间。

FrontierCode:准确排名推动能力突破

Cognition表示,FrontierCode的评分误差比SWE - Bench Pro低81%,是目前最准确的模型能力排名。为防止任务污染,Cognition不打算公开任务内容,而是向所有模型开发者开放评测服务,希望推动前沿编程能力的进一步突破。

编辑观点:FrontierCode的出现弥补了现有编程评测基准的不足,为AI模型生成代码的质量评估提供了更精准的标准,有望推动AI编程能力迈向新高度。

http://www.jsqmd.com/news/983527/

相关文章:

  • 2026 年鹤壁市优质财税公司实力排行榜 专业财税服务机构综合测评推荐 - GrowthUME
  • 嵌入式硬件设计:从数据手册电气特性到稳定可靠的MCU系统实战
  • 3分钟搞定Windows和Office激活:KMS_VL_ALL_AIO智能激活脚本完全指南
  • 如何快速集成Qt PDF查看器:QPDF Widget完整指南
  • [AI in Education] 上海高中语文作文评分 prompt
  • 明日方舟自动助手:告别重复操作,解放你的游戏时间
  • 无锡 2026 瓷砖空鼓翘边拱起原因及解决办法 免砸砖快速修复 - 苏易房屋修缮
  • 寄快递哪家便宜?寄半折寄件5折起 - 快递物流资讯
  • OnmyojiAutoScript:阴阳师自动化脚本,每天为你节省2小时游戏时间
  • 图论建模入门:把‘放黄油’问题变成最短路径,手把手教你解决信息学奥赛典型题
  • 2026年电脑蓝屏不再愁,河源启科安联教你轻松解决 - 信息热点
  • RBAC 详解(基于角色的访问控制)
  • 2026 年 6 月 Riverhawk/GMN/NHBB 轴承官方授权代理商 苏州德胜恩全国现货直供 - GrowthUME
  • 3个关键维度评估:如何为你的时间序列预测项目选择最佳技术方案?
  • Java初学者可用的医院挂号系统完整源码(SpringBoot+MySQL+前后端分离)
  • 从电路原理到电力电子技术-零基础设计开关电源(理论基础+仿真+设计)(一)
  • 嵌入式接口时序设计:从理论到i.MX 7Solo实战解析
  • 热门的汽车内饰脚垫企业 - 信息热点
  • 依托正规认证与地理标志授权,众德怀药赋能富硒山药粉产品代工 - GrowthUME
  • UnityExplorer:Unity游戏实时调试与修改的终极免费解决方案
  • 湘潭好吃的麻辣烫是哪家?本地人实测,人气与口味双料第一推荐 - 信息热点
  • 英语阅读_The mirror of friendship
  • 光学实验室“祖传”MetroPro数据怎么给Zemax用?一个命令将Zygo dat转成zxg格式
  • 工业仿真新手的宝藏库:Modelica标准库(MSL v4.0.0)核心模块使用避坑指南
  • 华硕笔记本性能优化终极指南:用G-Helper轻松掌控你的ROG设备
  • 泉州卫浴仓储店加盟排行:5家品牌实力维度对比 - 起跑123
  • NJU OS C 标准库原理
  • 靠谱的 ozon 新手选品排名拆解!干货选品公式 + 实操落地,小白照着榜单选品轻松稳出单
  • SQL/NoSQL数据库为何成为TVA的记忆系统(3)
  • AI搜索平台引用源权重实测:豆包/通义/文心/DeepSeek的内容偏好差异