当前位置: 首页 > news >正文

Gemini-3.1-Pro中文测评结果发布 | 全球第二!

Gemini-3.1-Pro中文测评结果发布 | 全球第二!

原创 SuperCLUE SuperCLUE CLUE中文语言理解测评基准2026年2月26日 11:26

在小说阅读器中沉浸阅读

模型介绍

Gemini-3.1-Pro-Preview(high) 是Google在2026年2月19日发布的最新旗舰,据官方介绍,该模型是一款更智能、更强大的复杂问题解决基准模型,在推理能力上实现了飞跃。

SuperCLUE团队基于2025年年度中文大模型测评基准体系,对 Gemini-3.1-Pro-Preview(high) 的中文能力进行了测评,以下是测评结果与分析:

测评结果与分析

一、榜单概览

1. SuperCLUE智能指数(2025年年度测评)

2. SuperCLUE2025年年度测评总分对比(含补测)

3. 2025年年度总体表现(加入补测模型)

二、测评分析

总体来看,Gemini-3.1-Pro-Preview(high)展现出了极为强劲的性能,目前以71.03的总分位列全球第二,仅次于 Claude-Opus-4.6(high effort)(71.93分),处于同一水平线。二者相比:

1.Gemini-3.1-Pro在数学推理任务上领先较大。Gemini-3.1-Pro 在数学推理上展现了极强的统治力(84.96 vs 77.88),这是图中两者差距最大的一个维度。这与官方宣传的3.1在推理能力上的进步一致。

2. 精确指令遵循Gemini-3.1-Pro略胜一筹。Gemini-3.1-Pro在该任务上取得 53.70 分,小幅领先Claude-Opus-4.6(51.78分),这通常意味着在处理极其繁琐、有特定格式要求的约束指令时,Gemini-3.1-Pro 的执行力更强。

3.Claude-Opus-4.6在智能体和代码任务上领先较大。Claude-Opus-4.6在这一项领先约 6.5 分,Claude-Opus-4.6在将大目标拆解为小步骤、调用工具以及长程任务管理上更具“大局观”。

Claude-Opus-4.6保持了其在编程领域的传统优势,比Gemini-3.1-Pro高出近 5 分,对于开发者来说,Claude-Opus-4.6依然是更理想的辅助工具。

4. 在幻觉控制和科学推理任务上,二者势均力敌,Claude略微领先。Gemini-3.1-Pro和Claude-Opus-4.6在这两个任务上的表现非常接近,均处于国际顶尖水平。

Gemini-3.1-Pro-Preview(high)(71.03)较上个版本 Gemini-3-Pro-Preview(65.59)提升5.44 分,六大任务均有提升,排名从第5跃升至第2。具体来看:

1. 精确指令遵循能力提升显著。从Gemini-3-Pro的43.56分提升至53.70分,提升超过10分,是六个维度中增幅最大的,表明新版本严格遵守输出格式、长度限制等复杂指令约束方面有了大幅的改进。

2. 代码生成任务取得显著进步。Gemini-3-Pro在该任务中得分为47.17分,与顶尖国际模型Claude-Opus-4.6相差超过12分,差距显著;与国内模型如Kimi-K2.5-Thinking(53.33分)相比,也存在约6分的差距。随后发布的Gemini-3.1-Pro(55.05分)则大幅缩小了与国际顶尖模型在代码能力上的差距。

3. 智能体和推理能力稳步提升。

智能体(任务规划):71.03 vs 65.02(↑6.01分,相对提升9.24%)表明新版本在多步骤任务分解、工具调用序列规划与异常处理策略上更加成熟。

数学推理:84.96 vs 80.87(↑4.09分,相对提升5.06%)Gemini-3.1-Pro延续了3.0在数学领域的强势地位(均维持在80+高分段),提升幅度处于中等水平,84.96的得分在现有开闭源模型对比中仍处于头部区间,巩固了Gemini在STEM领域的优势地位。

科学推理:77.05 vs 73.77(↑3.28分,相对提升4.45%)科学推理提升幅度(4.45%)与数学推理(5.06%)保持同步,表明两者共享的底层逻辑推理模块得到了系统性优化,形成了理科能力的正向协同效应。

4. 幻觉控制持续优化。Gemini-3.1-Pro在该任务取得84.42分,相较上个版本(83.16分)有1.26分的提升。

5. 兼顾高性能和高效率。Gemini-3-Pro的平均每题推理耗时为99.86秒,Gemini-3.1-Pro在综合性能大幅提升的情况下,平均每题的推理耗时仅增长到119.83秒,Gemini-3.1-Pro每提升1分的综合性能,仅需额外消耗约13.87秒的推理时间。

6. 性价比有所改善。Gemini-3.1-Pro在维持与旧版本相同价格的情况下,综合性能提升显著,性价比有所改善,但整体来看依旧处于低性价比区间。

注意:Gemini-3-Pro与Gemini-3.1-Pro的API价格是相同的,但我们在测评的时候由于测评时间不同,受汇率变动的影响二者API价格会存在些许差异。

测评说明

本次2025年年度通用基准测评共有31个国内外模型参与(包括补测模型),测评集包括六大任务:数学推理、科学推理、代码生成(含Web开发)、智能体(任务规划)、精确指令遵循、幻觉控制,共998题。详细的测评说明可见介绍文章:通用大模型中文基准测评2025年年度测评结果,2026年1月28日发布!

中文版完整报告下载地址:

https://www.cluebenchmarks.com/superclue_2025

英文版完整报告下载地址:

https://www.cluebenchmarks.com/superclue_2025_en

或点击下方阅读原文下载报告

SuperCLUE排行榜地址:www.superclueai.com

http://www.jsqmd.com/news/414215/

相关文章:

  • ABAP-ALV合并单元格
  • Webpack 是如何工作的?
  • 500元微信立减金回收94折,猎卡回收解锁高价门道 - 京回收小程序
  • 华为昇腾NPU上运行pytorch —— 使用torch_npu进行模型迁移
  • 基础算法题解一览
  • LeetCode 每日一题 #21:合并两个有序链表|Python 递归与迭代双解法
  • 电力巡检无人机选哪家?核心维度、Top5厂家推荐与场景化选型指南 - 深度智识库
  • 2026年 杭州叉车厂家推荐排行榜:电动叉车与内燃叉车专业选购指南,实力品牌深度解析 - 品牌企业推荐师(官方)
  • 2026 国产真空炉 感应加热设备 高频感应加热设备 中频感应加热设备 高频焊机全攻略:五大品牌排行、选购技巧与口碑推荐 - 深度智识库
  • 2026年全国航空货运哪家靠谱?实力强口碑好 适配各类空运需求 覆盖全国各类空运场景 - 深度智识库
  • 安川机器人遇见的问题汇总
  • 2026川渝滇黔污水处理药剂厂家优质推荐榜 - 优质品牌商家
  • 2026年评价高的无添加红糖公司推荐:养生红糖、原汁红糖、原汁黄冰糖、古法红糖、孕妇可食红糖、手工红糖选择指南 - 优质品牌商家
  • 电力巡检无人机Top5揭晓:谁在定义智能电网的“空中之眼”? - 深度智识库
  • 2026WMS系统客观测评:如何选择适配的仓库管理系统 - 深度智识库
  • 潮玩一番赏小程序玩法分析(附开发者技术落地与合规要点)
  • 分析颜语堂考研数学,专业靠谱吗,费用大概多少钱? - 工业品牌热点
  • 2026年2月日化车间净化厂家推荐,专业制造与品牌保障口碑 - 品牌鉴赏师
  • 2026年口碑好的面粉生产成套设备厂家推荐,专业企业全解析 - mypinpai
  • 2026年Q1,寻找可靠数显/游标卡尺产地的企业选型指南 - 2026年企业推荐榜
  • Webpack entry深度解析
  • 说说倍克朗专业吗,泳池漆费用及选购要点分析 - 工业品网
  • 2026年2月压铆机中心厂家推荐,五金加工配套设备指南 - 品牌鉴赏师
  • 组里有个P7,为了防止被裁,把核心计费模块的代码写得晦涩难懂,还加了自定义的混淆逻辑,甚至不提交Git, 结果CTO直接招了个外包团队
  • 销售电主轴/丝杆/转台的平台网站有哪些?如何选择适合自己的? - 品牌推荐大师1
  • 联合省选 R1
  • 这次终于选对!断层领先的AI论文软件 —— 千笔ai写作
  • 交换系统评估:把控接入路由质量、需求匹配度与配置合规性
  • 看完就会:风靡全网的AI论文软件 —— 千笔·专业学术智能体
  • 2026年红糖公司权威推荐:孕妇可食红糖/手工红糖/手工黄冰糖/无添加红糖/无添加黄冰糖/正宗黄冰糖/选择指南 - 优质品牌商家