当前位置: 首页 > news >正文

Smoke日报:GPT-5.5 92.58分登顶 材料约束19分差距决定胜负

#GPT-5.5 #材料约束 #代码执行满分 #Smoke评测 #模型排名

Smoke今日凌晨数据一出,最直接的结论已经摆在眼前:代码执行不再是分水岭,材料约束成了真正的战场。

满分执行掩盖下的真实差距

前九名模型代码执行全部拿到100分,这意味着在10道快测题里,模型基本都能完成可运行的代码。真正决定排名的,是材料约束这一项。GPT-5.5拿到83.5分,文心一言4.5只有64.3分,中间差了19.2分。0.45的权重放大后,直接造成主榜36分以上的总分差距。

这种格局不是偶然。过去半年,主流模型在代码能力上快速收敛,执行题已变成“及格题”。现在比拼的是模型是否会在引用外部材料时胡编、是否会忽略约束条件、是否会把不该暴露的信息写进代码注释。

前五名几乎打成一团

GPT-5.5、豆包Pro、Claude Opus 4.7、Gemini 3.1 Pro、Claude Sonnet 4.6五家主榜分差不到2.5分。豆包Pro能排第二,靠的是82.3分的约束成绩,证明其在中文材料处理上仍有优势。Claude Opus 4.7虽然约束81分略低,但整体仍稳居第三,显示其在工程判断(侧榜,AI辅助评估)上的积累仍在发挥作用。

反观GPT-o3和文心一言4.5,执行分直接掉到50分,说明它们在快测的代码题里已经出现无法通过的错误。这两家目前只能靠材料约束勉强维持及格线。

行业信号:约束能力正在定价

从今天的数据看,约束分数每提升1分,对主榜的贡献是0.45分。而执行已经接近天花板,继续堆执行能力带来的边际收益远低于堆约束。未来三个月,预计各实验室会把更多RLHF资源转向“材料使用合规”而非“代码写得更快”。

没有异常波动也说明一件事:当前模型能力分布已经相对固化,短期内不会出现黑马把前五名直接掀翻。

材料约束每差一分,模型在真实落地场景里就多一分“不能用”的风险。

数据来源:赢政指数 (YZ Index) | Run #155 | 查看原始数据

© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

http://www.jsqmd.com/news/988834/

相关文章:

  • 计算机毕业设计之基于o2o 模式的外卖点餐系统
  • roma2 - MKT
  • 百奥几何完成数亿融资,GeoFlow模型迭代加速AI制药商业化进程
  • 四川富实威电气接地服务评测:全流程对接能力解析 - 优质品牌商家
  • 2026年Q2杭州吉岩建筑工程:钻井服务对接及技术支撑推荐 - 优质品牌商家
  • 动态扭矩传感器哪个品牌靠谱?广东犸力提升装配良率至99.2%,实战表现优异 - 品牌速递
  • Java Web员工信息管理系统毕设资源包(含JSP源码、MySQL脚本、论文文档及运行截图)
  • 江苏寄快递怎么收费?哪家便宜?教你3步省一半 - 快递物流资讯
  • Python 后端基础(二):RESTful API 设计规范,接口命名、状态码和返回格式怎么写
  • 拓竹打印机工艺参数-温度及材料设置
  • 温州专业GEO服务商推荐|2026年口碑效果双保障 TOP5-10企业权威榜单 + 完整服务指南 - 玖叁鹿
  • 2026办公编程显示器优选,明基4款RD按工位挑选
  • Claude Code 一键安装指南(Windows/macOS/Linux)
  • 2026年开关有哪些品牌?行业知名品牌推荐 - 品牌排行榜
  • 2026年 系统门窗品牌推荐榜单:高性能隔热与匠心设计之选,深度解析选购关键点与避坑指南 - 品牌发掘
  • AI精准量化碳足迹,企业碳管理不再“摸黑走路”
  • traceback 模块
  • 2026年新消息:杭州知名舞美设备租赁平台综合服务解析 - 品牌鉴赏官2026
  • 意图共鸣科技《AI记忆链商业化白皮书3.0》精读:第二大脑,你的AI参谋
  • 基于3D-DFT架构下的ICL文件生成(DFT)
  • 数据的加密与解密(23:46)
  • Mac微信防撤回终极指南:3分钟解锁完整聊天记录保护
  • 2026广州中高端财税服务商权威测评:合规评级与服务能力双维度排行 - 互联网科技品牌测评
  • RN/hook/TS
  • Makepad 界面怎么做得更像产品,而不是示例
  • 宜兴住宅智能家居装修前应该怎么规划:先把点位、布线和验收边界说清楚
  • Grounding DINO实战:开放词汇目标检测上手指南
  • 终于不用再“盲猜”了:一位硬件工程师的 SC2010 使用手记
  • 2026 湛江市 GEO 推广优化服务商 TOP5 权威排名完整新闻合集(含榜单表格) - 广东科技观察
  • 数据的加密与解密(23:55)