当前位置: 首页 > news >正文

Claude Sonnet 4.6 Smoke主榜暴跌15.3分,代码执行单日掉25分

在赢政指数2026年6月Smoke评测中,Claude Sonnet 4.6主榜得分从97.84分跌至82.52分,单日降幅15.3分。

核心维度变化

代码执行维度从昨日100.00分跌至75.00分,降幅25分;材料约束从95.20分降至91.70分,降幅3.5分。两个侧榜维度则出现明显回升,工程判断从89.60分升至100.00分,任务表达从75.80分升至92.50分。

Smoke评测的抽样特性

Smoke评测每日仅10题,每维度2题,样本量极小。代码执行维度单日25分波动,在该评测框架下属于正常范围。材料约束仅降3.5分,说明模型在约束遵循方面的基础能力未出现系统性退化。

工程判断和任务表达两个侧榜维度同时提升,表明模型在本次抽到的题目上,判断逻辑与表达清晰度反而更好。这进一步支持波动主要来自题目难度差异,而非模型能力整体下滑。

是否需要持续关注

主榜15.3分跌幅主要由代码执行单一维度驱动,且该维度昨日满分、今日75分,极可能源于2道题目中至少1道难度显著高于昨日。诚信评级维持pass,未出现异常信号。

在当前数据下,Claude Sonnet 4.6的这次下跌更接近抽签波动,而非真实退化。建议观察后续3-5天Smoke数据,若代码执行持续低于85分,再考虑启动正式长榜复测。

一次Smoke暴跌,更可能是两道题的运气,而不是模型的退步。

数据来源:赢政指数 (YZ Index) | Run #205 | 查看原始数据

© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

http://www.jsqmd.com/news/1111526/

相关文章:

  • LV3296与STM32L011K4在低功耗信号处理系统中的应用
  • 大模型相关重要项目地址.
  • 深入理解pytest fixture:从依赖注入到自动化测试框架设计
  • 微信小程序蓝牙打印实战资源包:斑马/凯盛诺双协议支持,含文字、图片、二维码打印模板与指令文档
  • OpenCV+HOG+SVM单图行人检测实战包(含Anaconda一键配环境指南)
  • SQLMap核心参数详解:risk与level的攻防平衡艺术
  • 德生TSW-F4社保读卡器Windows开发套件:含驱动、SDK、测试工具与实测型号参考
  • ksmbd内核模块模糊测试实战:从覆盖率引导到漏洞挖掘
  • TensorFlow图像去雨实战包:含训练测试脚本、预训练模型与雨天样图
  • JSPX Webshell XML语法混淆技术:从原理到实战对抗
  • 140、【Agent】【OpenCode】启动分析(await)
  • JMeter性能测试环境搭建:从Java配置到第一个测试计划
  • Python初学者也能跑起来的方块世界小样例,Pyglet零依赖开箱即玩
  • 浏览器端音频解密技术探索:Unlock Music架构设计与实现
  • 纯ANSI C实现的FFT算法源码包,含测试用例与完整使用文档
  • C# WinForm中把记事本、计算器等独立程序当子窗口嵌进主界面
  • 影刀RPA新手教程:第一个自动化项目完全指南——从想法到跑通只需30分钟
  • Web入侵事件复盘:从文件上传到权限提升的完整攻击链剖析
  • RabbitMQ真实生产故障问题还原与分析
  • Codex 实战:AI 编程助手接入真实项目,把学习路线落到项目证据
  • STM32F745ZG驱动WS2812实现动态灯光效果
  • XSSer.me开源平台:自动化XSS测试工具部署与实战指南
  • 前端XSS攻击防御全解析:从原理到实战的多层安全防线
  • 基于LV3296与PIC18F46K22的嵌入式条码采集系统设计
  • DeepAgent 多子代理协作:中断授权与 Agent 间通讯机制
  • 统信UOS服务器版+鲲鹏ARM64平台可用的OpenCV 4.5.0完整动态库包
  • C#仓库管理系统全套开发资源:SQL Server数据库+设计文档+存储过程脚本
  • ARIMA残差+LSTM建模的时序预测实战代码(含价格数据、绘图脚本与可复现配置)
  • 【javascript】函数中的this的四种绑定形式 — 大家准备好瓜子,我要讲故事啦~~
  • STM32F103实时波形采集系统:ADC+DMA驱动LCD动态显示电压数值