当前位置: 首页 > news >正文

Claude Sonnet 4.6 97.53 分领跑,材料约束把文心一言拉开 40 分

#Claude Sonnet 4.6 #材料约束 #Smoke轻量评测 #主榜排名 #执行满分

Smoke 今日快测最直接的结论是:代码执行已成及格线,材料约束才是真正分水岭。

前三名差距仅 1.58 分,Claude 两连冠

Claude Sonnet 4.6 以 97.53 分位居第一,Opus 4.7 紧随其后 96.54 分,Grok 4 95.95 分排第三。三者代码执行均为 100 分,真正拉开差距的是材料约束:Sonnet 94.5、Opus 92.3、Grok 91。0.45 的权重让这三项分数直接决定了主榜名次。

执行满分已成常态,文心一言成唯一例外

11 个模型里,10 个代码执行拿到 100 分。唯一不及格的是文心一言 4.5,仅 50 分。这直接把它的主榜分数压到 53.83,比第二名低近 44 分。执行维度已经不再是大多数模型的短板,材料约束反而成为决定性变量。

材料约束分差超过 33 分,国产模型集体承压

材料约束最高 94.5,最低 58.5,极差 36 分。GPT-5.5、豆包 Pro、Gemini 系列均在 75-79.5 区间徘徊,Qwen3 Max 仅 61 分。约束能力不足的模型,在需要严格引用原文、避免幻觉的题目上会持续丢分,这也是今日排名后半段扎堆的主要原因。

今日数据再次印证一个趋势:当执行能力普遍达标后,模型间的真实差异就集中体现在对输入材料的忠实程度上。Claude Sonnet 4.6 在这一维度的领先,已经连续两日转化为榜首优势。

材料约束每提升 10 分,主榜就能多抢 4.5 分,文心一言用 50 分执行和 58.5 分约束交出了最贵的一课。

数据来源:赢政指数 (YZ Index) | Run #156 | 查看原始数据

© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

http://www.jsqmd.com/news/995798/

相关文章:

  • 从‘角色扮演’到‘对抗测试’:用Midjourney和ChatGPT搞创作的进阶玩法
  • 别再只懂Over模式了!用Python+OpenCV实战Alpha融合的5种模式(附代码避坑)
  • DHCP抓包实战:从DISCOVER到ACK,一张图看懂华为设备下的地址分配全过程
  • 2026年当前护套品牌推荐:聚焦工业管线防护的可靠选择 - 品牌鉴赏官2026
  • 计算机毕业设计之基于人脸识别的药物交易平台
  • 深入高通ABL/XBL:像理解JNI一样理解UEFI Protocol通信机制
  • 字节大模型应用岗实习两小时拷打:记忆机制 + RAG 全链路,13 道题逐个答透
  • 从Gardner算法到环路滤波:在GnuRadio中调试OQPSK时钟恢复的完整避坑指南
  • openEuler网络配置与管理:从基础到高级的完整教程
  • Blender3mfFormat:高效实现3D打印工作流的完整解决方案
  • XR技术在社交机器人研究中的创新应用与挑战
  • 别再死记硬背了!用这个‘水管模型’图解BJT放大原理,5分钟让你豁然开朗
  • 【Springboot毕设全套源码+文档】基于springboot大学健身场所管理系统设计与开发(丰富项目+远程调试+讲解+定制)
  • 手机浏览器里直接手写批注PDF:Canvas绘图+PDF.js渲染,开箱即用
  • 基于Multisim的高频谐振放大器仿真与性能调优实战
  • OpenFOAM twoPhaseEulerFoam求解器实战:从双流体模型到代码实现,手把手教你搞定气液两相流模拟
  • 终极指南:使用XUnity.AutoTranslator轻松实现Unity游戏多语言本地化
  • 极客与商业思维的融合实践(1)
  • STM32F401定时喂食器教学套件:Keil源码+Proteus可运行仿真+详细设计文档
  • 用IDA Pro 7.7反汇编Rust ELF:从一行`println!`宏看编译器如何“搞事情”
  • 3分钟掌握漫画翻译神器:BallonTranslator完全指南
  • QDB6525X至为芯支持最大75W的远距离无线充方案。
  • 别再死记硬背了!用Wireshark抓包实战,5分钟搞懂USB的四种端点到底怎么用
  • 5分钟掌握歌词自由:开源歌词下载工具的终极解决方案
  • OptiScaler完整指南:打破硬件壁垒的跨平台超分辨率解决方案
  • 告别LPC!从硬件工程师视角看eSPI总线如何解决老系统的三大痛点
  • 2026年成都快充充电桩销售公司怎么选?行业现状与实力厂商深度分析 - 优质品牌商家
  • 深度解析Umi-OCR性能瓶颈:从根源分析到优化实战
  • 老旧电视盒子改造为Armbian服务器的技术实践探索
  • NSK W2513FA-4-C5T25 高速精密滚珠丝杠技术手册