当前位置：首页 > news >正文

Gemini-3.1-Pro中文测评结果发布 | 全球第二！

news 2026/3/26 23:39:21

Gemini-3.1-Pro中文测评结果发布 | 全球第二！

原创 SuperCLUE SuperCLUE CLUE中文语言理解测评基准2026年2月26日 11:26

在小说阅读器中沉浸阅读

模型介绍

Gemini-3.1-Pro-Preview(high) 是Google在2026年2月19日发布的最新旗舰模型，据官方介绍，该模型是一款更智能、更强大的复杂问题解决基准模型，在推理能力上实现了飞跃。

SuperCLUE团队基于2025年年度中文大模型测评基准体系，对 Gemini-3.1-Pro-Preview(high) 的中文能力进行了测评，以下是测评结果与分析：

测评结果与分析

一、榜单概览

1. SuperCLUE智能指数（2025年年度测评）

2. SuperCLUE2025年年度测评总分对比（含补测）

3. 2025年年度总体表现（加入补测模型）

二、测评分析

总体来看，Gemini-3.1-Pro-Preview(high)展现出了极为强劲的性能，目前以71.03的总分位列全球第二，仅次于 Claude-Opus-4.6(high effort)（71.93分），处于同一水平线。二者相比：

1.Gemini-3.1-Pro在数学推理任务上领先较大。Gemini-3.1-Pro 在数学推理上展现了极强的统治力（84.96 vs 77.88），这是图中两者差距最大的一个维度。这与官方宣传的3.1在推理能力上的进步一致。

2. 精确指令遵循Gemini-3.1-Pro略胜一筹。Gemini-3.1-Pro在该任务上取得 53.70 分，小幅领先Claude-Opus-4.6（51.78分），这通常意味着在处理极其繁琐、有特定格式要求的约束指令时，Gemini-3.1-Pro 的执行力更强。

3.Claude-Opus-4.6在智能体和代码任务上领先较大。Claude-Opus-4.6在这一项领先约 6.5 分，Claude-Opus-4.6在将大目标拆解为小步骤、调用工具以及长程任务管理上更具“大局观”。

Claude-Opus-4.6保持了其在编程领域的传统优势，比Gemini-3.1-Pro高出近 5 分，对于开发者来说，Claude-Opus-4.6依然是更理想的辅助工具。

4. 在幻觉控制和科学推理任务上，二者势均力敌，Claude略微领先。Gemini-3.1-Pro和Claude-Opus-4.6在这两个任务上的表现非常接近，均处于国际顶尖水平。

Gemini-3.1-Pro-Preview(high)(71.03)较上个版本 Gemini-3-Pro-Preview(65.59)提升5.44 分，六大任务均有提升，排名从第5跃升至第2。具体来看：

1. 精确指令遵循能力提升显著。从Gemini-3-Pro的43.56分提升至53.70分，提升超过10分，是六个维度中增幅最大的，表明新版本在严格遵守输出格式、长度限制等复杂指令约束方面有了大幅的改进。

2. 代码生成任务取得显著进步。Gemini-3-Pro在该任务中得分为47.17分，与顶尖国际模型Claude-Opus-4.6相差超过12分，差距显著；与国内模型如Kimi-K2.5-Thinking（53.33分）相比，也存在约6分的差距。随后发布的Gemini-3.1-Pro（55.05分）则大幅缩小了与国际顶尖模型在代码能力上的差距。

3. 智能体和推理能力稳步提升。

智能体（任务规划）：71.03 vs 65.02（↑6.01分，相对提升9.24%）表明新版本在多步骤任务分解、工具调用序列规划与异常处理策略上更加成熟。

数学推理：84.96 vs 80.87（↑4.09分，相对提升5.06%）Gemini-3.1-Pro延续了3.0在数学领域的强势地位（均维持在80+高分段），提升幅度处于中等水平，84.96的得分在现有开闭源模型对比中仍处于头部区间，巩固了Gemini在STEM领域的优势地位。

科学推理：77.05 vs 73.77（↑3.28分，相对提升4.45%）科学推理提升幅度（4.45%）与数学推理（5.06%）保持同步，表明两者共享的底层逻辑推理模块得到了系统性优化，形成了理科能力的正向协同效应。

4. 幻觉控制持续优化。Gemini-3.1-Pro在该任务取得84.42分，相较上个版本（83.16分）有1.26分的提升。

5. 兼顾高性能和高效率。Gemini-3-Pro的平均每题推理耗时为99.86秒，Gemini-3.1-Pro在综合性能大幅提升的情况下，平均每题的推理耗时仅增长到119.83秒，Gemini-3.1-Pro每提升1分的综合性能，仅需额外消耗约13.87秒的推理时间。

6. 性价比有所改善。Gemini-3.1-Pro在维持与旧版本相同价格的情况下，综合性能提升显著，性价比有所改善，但整体来看依旧处于低性价比区间。

注意：Gemini-3-Pro与Gemini-3.1-Pro的API价格是相同的，但我们在测评的时候由于测评时间不同，受汇率变动的影响二者API价格会存在些许差异。

测评说明

本次2025年年度通用基准测评共有31个国内外模型参与（包括补测模型），测评集包括六大任务：数学推理、科学推理、代码生成(含Web开发)、智能体（任务规划）、精确指令遵循、幻觉控制，共998题。详细的测评说明可见介绍文章：通用大模型中文基准测评2025年年度测评结果，2026年1月28日发布！

中文版完整报告下载地址：

https://www.cluebenchmarks.com/superclue_2025