国产AI大模型综合能力全球排行 - 20260527期
测评指标说明
评测数据日期:2026-05-27
基于独立评测机构 Artificial Analysis 发布的最新 AI 模型基准测试结果,本文围绕以下三个指标进行综合分析
Artificial Analysis(简称 AA)是 2023 年成立于美国的独立 AI 评测机构,总部位于旧金山,由 George Cameron 与 Micah Hill-Smith 联合创立,被誉为 “AI 领域的标杆” 与 “新一代 Gartner”。
Artificial Analysis Intelligence Index (人工分析智能指数)
衡量AI在电信、终端、科学、法律、知识、推理、伦理、人类价值观、专业深度、批判性思维等十大领域,解决专业、复杂、开放性的现实世界问题的综合高阶智能能力
人工智能分析智能指数v4.0包含10项评估:Artificial Analysis Intelligence Index v4.0 incorporates 10 evaluations: GDPval-AA, 𝜏²-Bench Telecom, Terminal-Bench Hard, SciCode, AA-LCR, AA-Omniscience, IFBench, Humanity's Last Exam, GPQA Diamond, CritPt
GDPval-AA、²-Bench电信、终端-Bench硬、SciCode、AA-LCR、AA-全知、IFBench、人类最后的考试、GPQA钻石、CritPt
Artificial Analysis Coding Index(人工分析编码指数)
衡量AI在真实、复杂环境中,编写严谨、专业、可直接应用的工程代码与科学代码的综合实战能力。
包含两项评估:Represents the weighted average of coding benchmarks in the Artificial Analysis Intelligence Index (Terminal-Bench Hard, SciCode)
代表人工分析智能指数中编码基准的加权平均值(终端-基准硬,SciCode)
Artificial Analysis Agentic Index(人工分析代理指数)
衡量AI在自主决策核心场景中,解决复杂现实问题、制定长期战略、并做出最优技术决策的智能体与专家级能力。
包含两项评估:Represents the average of agentic capabilities benchmarks in the Artificial Analysis Intelligence Index (GDPval-AA, 𝜏²-Bench Telecom)
代表人工分析智能指数中代理能力基准的平均值(GDPval-AA,²-电信基准)
指标一:Artificial Analysis Intelligence Index (人工分析智能指数)
衡量AI在电信、终端、科学、法律、知识、推理、伦理、人类价值观、专业深度、批判性思维等十大领域,解决专业、复杂、开放性的现实世界问题的综合高阶智能能力。
总榜
评分达到50分及以上模型
第一梯队国产有5个
Qwen3.7 Max(56.6分)
MiMo-V2.5-Pro(53.8分)
DeepSeek V4 Pro(Max)(51.5分)
GLM-5.1(51.4分)
MiniMax-M2.7(49.6分)
达到40分小于50分模型
第二梯队国产有3个
DeepSeek V4 Flash(Max) (46.5)
Qwen3.5 397B A17B(45.0)
DeepSeek V3.2 (41.7)
结论:国产全面对标海外顶尖水平
AI应对现实世界问题的综合高阶智能能力,国内大模型已达到全球领先水平,差距不大。但头部前4名还是被国外AI头部厂商占据。全球评分50分及以上的14款模型中,国内占5席。
指标二:Artificial Analysis Coding Index(人工分析编码指数)
衡量AI在真实、复杂环境中,编写严谨、专业、可直接应用的工程代码与科学代码的综合实战能力。
总榜
1、评分达到50分及以上模型
第一梯队国产有1个
Qwen3.7 Max(56.6分)
2、评分40-50分模型模型
第二梯队国产有6个
DeepSeek V4 Pro(Max) (47.5分)
Kimi K2.6(47.1分)
MiMo-V2.5-Pro (45.5分)
GLM-5.1(43.4分)
MiniMax-M2.7(41.9分)
Qwen3.5 197B A17B(41.3分)
结论:国产模型部分达到海外顶尖水平
AI应对工程代码与科学代码能力方面,国内头部模型已达到全球头部平均水平,存在一定差距,但整体差距可控接近。头部前5名被国外AI头部厂商占据。全球评分40分及以上的16款模型中,国内占已7席,接近一半。
指标三:Artificial Analysis Agentic Index(人工分析代理指数)
衡量AI在自主决策核心场景中,解决复杂现实问题、制定长期战略、并做出最优技术决策的智能体与专家级能力。
总榜
1、评分达到60分及以上模型
第一梯队国产有7个
MiMo-V2.5-Pro (67.4分)
DeepSeek V4 Pro(Max) (67.2分)
GLM-5.1 (67.1分)
Qwen3.7 Max (66.6分)
Kimi K2.6 (66.0分)
MiniMax-M2.7 (61.5分)
DeepSeek V4 Flash(Max) (61.3分)
2、评分50-60分及以上模型
第二梯队国产有2个
Qwen3.5 197B A17B(55.8分)
DeepSeek V3.2 (52.9分)
结论:在自主决策能力层面,国产模型跻身前列
AI应在自主决策核心场景中能力,国内大模型已全面达到全球领先水平,大部分最新模型均处在第一梯队。头部前4名还是被国外AI头部厂商占据,但分差不大,全球评分60分及以上的14款模型中,国内占7席。
采购建议:根据不同场景的模型性能排名&官网模型的token接入价格综合选用,优先采用高性能模型,同性能一梯队选择最便宜的性价比较高!!
数据来源:https://artificialanalysis.ai/models
