当前位置: 首页 > news >正文

大语言模型综合排行榜 26-02-01图片本周排名前10的模型为:Gemini 3 ProGPT-5.2Gemini 3 FlashClaude Opus 4.5GPT

大语言模型综合排行榜 26-02-01

原创 网球玩的人 老网的博客2026年2月1日 16:25加拿大

本周排名前10的模型为:

Gemini 3 Pro

GPT-5.2

Gemini 3 Flash

Claude Opus 4.5

GPT-5.1

Kimi-K2.5

GPT-5

DeepSeek v3.2

GLM-4.7

GPT-5.1 Mini

简介:

本表格汇总了常用大语言模型在主流评测排行榜上的表现。评测范围涵盖:

人类偏好(文字和视觉),知识与推理,数学能力,代码能力,长文本推理,和指令遵循能力。

在整合各项评测结果的基础上,计算出综合排名。

更新:

本次排名,Kimi-K2.5模型首次加入榜单。它没有特别出彩的表现,但综合实力均衡,且比Kimi-K2有明显提升,跻身第六。

artifical analysis边的数据更新了Qwen 3 max的推理模型的结果。比起非推理模型,整体能力大幅提升。

除了gpt-4.5,本榜单所有模型皆为推理模型。推理能力基本上是顶尖模型的标配了。

总结:

综合实力最强:Gemini 3 Pro

国内最强模型:Kimi-K2.5/DeepSeek v3.2/GLM-4.7

最强开源模型:Kimi-K2.5/DeepSeek v3.2/GLM-4.7

最强代码模型:Gemini 3 Pro/GPT-5.2/Claude Opus 4.5

本项目仓库:

https://github.com/Tennisatw/LLM-Leaderboard

http://www.jsqmd.com/news/331555/

相关文章:

  • Qwen3-Coder: 在世界中自主编程
  • 为什么 MES 集成项目会普遍采用“点对点”的集成模式
  • 2026-02-02 全国各地响应最快的 BT Tracker 服务器(移动版)
  • UE5 多线程(2-3):时间范围类 FDateRange 与 TRange<T>。
  • Linux基础指令(一)
  • 不是所有AI爆款都靠运气,Clawbot作者之一Peter Steinberger,已经为开源社区写了10多年的贡献
  • Nano-Banana保姆级教学:white background+flat lay提示词组合技巧
  • WAN2.2-文生视频+SDXL_Prompt风格实战案例:独立开发者打造AI短视频SaaS原型
  • 轻量级模型实测:YOLOv13-N仅2.5M参数高效运行
  • 深入探讨Clang 16的Niebloid编译问题
  • RTX 4090优化神器:Anything to RealCharacters 2.5D转真人实战体验
  • DeepSeek-OCR-2惊艳案例:手写签名+印刷正文混合文档,仅正文结构化输出
  • 巴菲特-芒格的氢能源投资:清洁能源的下一个前沿
  • 深入解析:在Exchange Online PowerShell中排序邮箱文件夹权限
  • Qwen-Image-Lightning极速文生图:4步生成高清大图保姆级教程
  • 深入探讨 .ConfigureAwait() 的实际用途
  • Qwen2.5-1.5B开源镜像教程:torch.no_grad显存优化+temperature/top_p参数调优
  • EagleEye作品展示:支持多边形ROI区域设定,仅检测指定兴趣区内的目标
  • 解决C++库冲突:raylib与cURL并用
  • AI应用架构师视角:经济学多智能体系统的目标函数设计
  • 开源MinerU镜像免配置实操:3步完成学术论文图像解析与多轮对话
  • 深入理解二因素方差分析中的匹配对比
  • 从XML到JSON的转换与解析
  • 零基础也能用!万物识别-中文-通用领域镜像保姆级入门教程
  • Lychee多模态重排序模型在电商搜索中的惊艳效果展示
  • 函数调用的艺术:如何优雅地组合函数
  • YOLOv13镜像真实案例:产线微小缺陷检测成功
  • 企业级和智慧生活商城系统管理系统源码|SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】
  • Qwen3-4B模型压缩技术:ONNX转换部署教程
  • 造相Z-Image实战案例:如何用AI生成中国传统风格高清插画