当前位置: 首页 > news >正文

Gemini-3-Pro强势登顶,GPT-5.1转向“创作型选手”?丨多模态模型11月最新榜单揭晓

多模态大模型的崛起,正在重新定义我们理解与使用 AI 的方式。当模型能够像人类一样,将图像、文本、语音、视频等信息自然融会贯通时,它便获得了更完整、更真实的世界视角。跨模态的统一认知让 AI 不再停留在“看见”“听到”的感知层面,而是能够读懂语境、推演逻辑、辅助决策,展现出向通用智能迈进的关键能力。随着算法、数据与算力的不断进化,多模态大模型正加速从实验室走向产业深处,在越来越多的应用场景中持续释放价值,引领智能时代的全面升级与加速到来。

持续关注大模型的发展动态,基于闭源评测基准,近期针对国内外主流多模态模型进行了全面评测,现公布多模态模型 11 月评测榜单

需要提示的是:由于榜单规则,为提升闭源评测集榜单的时效性与先进性,我们对部分旧模型进行了移除,并测试了他们的最新版本。

综合榜单解读

整体性能排名

  • 本次评测中,随着 Gemini-3-Pro 的发布,榜单的最高得分再创新高,达到了 66.35。

  • 在整体性能上,Gemini-3-Pro 在空间感知能力上的大幅度领先以及在信息图形感知能力上的优势,助力其以大比分领先第二名的 Seed1.6-vision-250815,而其在视觉质量感知和多模态创作领域虽仍居于前列,但仍无法达到全方面领先。

  • 在其他本次新上榜的模型中,OpenAI 的 GPT-5.1 在综合能力上有所下降,但在多模态创作领域却能斩获最高分,印证了 OpenAI 对 GPT-5.1 的 “更具对话感、更加温暖” 的宣传。Qwen3-VL-235B-A22B-Thinking 则再次成为最强开源多模态模型。

深层洞察

开源模型再次冲击榜单新高,推理模型优势明显

  • 开源模型 Qwen3-VL-235B-A22B-Thinking 跃居第三,超越 GLM-4.5V ,成为开源模型中排名第一的模型,进一步巩固了国产多模态模型在开源赛道的领先地位。

  • 值得关注的是,推理模型,如 Qwen3-VL-235B-A22B-Thinking、GLM-4.5V,在多模态推理、信息图形理解两个领域拥有普遍的优势,也导致推理模型普遍能够在总榜单中获得更高的排名。本次新入榜的 RBDash-v2.0-Thinking,在多模态推理维度获得了显著高于同参数量级指令模型的得分,展现了 Thinking 模式在该领域的有效性。

  • 而在视觉质量感知领域,反而是小模型和非推理的指令模型获得了相对优势。可见 Thinking 模式也非各个领域的万能灵药。

闭源模型突破瓶颈,有望引领多模态模型能力的进一步提升

  • Gemini-3-Pro 相比 Gemini-2.5-Pro 实现全维度提升:通用感知、空间感知、信息图形、多模态推理等领域均有显著进步,展现了 Google 在多模态领域的持续迭代能力。

  • Gemini-3-Pro 打破了上一季度第一梯队模型集中在 60 分左右的格局,以总分 66 分大比分领先,这展示了多模态模型的进步仍有不俗潜力,相信在 Gemini-3-Pro 的刺激下,各大模型厂商也将能够愈战愈勇,将多模态模型的整体水平带上一个新的台阶。

  • GPT-5.1 模型在多模态创作领域获得了显著提升,和 Qwen3-VL-235B-A22B-Thinking 共同打破了多模态创作领域的得分纪录。但值得注意的是,GPT-5.1 在其他领域表现欠佳,整体得分仅达到 GPT-5-nano 水平,可见 GPT-5.1 是一个有些偏科的选手,也许是 OpenAI 为了回应前段时间 GPT-5 “缺少人情味” 的指摘,在创作领域重点发力。不知面对 Gemini-3-Pro 的挑战,OpenAI 后续会交出一份怎样的答卷。

榜单规则说明

本榜单基于闭源测试数据,对不同多模态模型在 通用感知、空间感知、视觉质量感知、信息图形理解、多模态推理、多模态创作 六大能力维度上的表现进行了评测,并基于 归一化分数 计算模型的平均得分进行排序。闭源评测基准拥有较为丰富的题目类型,包含单选、多选、填空、开放性创作等,且为中英文双语,可以同时考验模型的多语言理解能力。

子维度能力解读

通用感知

在通用感知能力方面,闭源模型 Seed1.6-vision-250815 与 Gemini-3-Pro 并列第一。在通用感知测试中存在涉及人物识别的问题,其中 GPT 模型在此问题上现象比较严重,一定程度上影响了得分情况。下方的性能展示图片标注了每个模型的拒答比率。

视觉质量感知

在视觉质量感知方面,在前 5 名中 Qwen3-VL-235B-A22B-Instruct 为本次榜单新近上榜,此类任务涉及对图像缺陷的判断,这一特殊的任务类型,使很多综合实力很强的模型得分不高,而一些小模型,如 SAIL-VL-2B、OVis2-8B 反而获得了较高的得分。

空间感知

在空间感知方面,很多新模型都获得了较大幅度的提升。最为亮眼的当属 Gemini-3-Pro,在此能力上大幅领先其他模型,展现了 Gemini 在世界知识上的强大能力。同样亮眼的是新上榜的 VideoChatOnlineV2,获得了与 Seed1.6-vision-250815 并列第一的好成绩。

信息图形感知

在信息图形感知方面,同样是 Gemini-3-Pro 取得了排名第一的成绩,但分差并没有领先第二名的 Seed1.6 太多。开源模型则相较上期榜单在这一方面有一定性能提升,Qwen3-VL-235B-A22B-Thinking 追平了 GPT-5-mini-20250807,另外一个新上榜的模型 RBDash-v2.0-Thinking 以 38B 的参数量同样跻身前十名的行列,期待开源模型能够在后续取得更好的成绩

多模态推理

在多模态推理方面,GPT-5-20250807 在评测中维持了第一名的成绩,而 Gemini-3-Pro 则超越了前代 Gemini-2.5-Pro,成为了新的第二名。总体而言,闭源模型在推理能力方面占据较强的统治地位,开源模型仍在持续追赶中,Qwen3-VL-235B-A22B-Thinking 跻身前十,而开源模型中的第一名依然是 InternVL3.5-241B-A28B。

多模态创作

在多模态创作方面,GPT-5.1 异军突起,虽然在其他维度的能力仅为中上游,但在多模态创作能力上较第二名打出了一个较大的分差,可见 GPT 在创作领域的补强卓见成效。而 Qwen3-VL-235B-A22B-Thinking 和 Qwen3-VL-235B-A22B-Instruct 的表现同样亮眼,两个模型双双强势进入前十名,打破了此前闭源模型在此维度的大幅领先地位。

http://www.jsqmd.com/news/76504/

相关文章:

  • 一些有价值的网站
  • VOC气体检测仪的技术特性与实用价值|深圳霍尼艾格
  • Venera漫画阅读器终极配置指南:5分钟搭建个人专属漫画库
  • 【Golang】——Gin 框架中间件详解:从基础到实战 - 实践
  • 农商云G68软路由学习-usb刷机和串口终端使用
  • 多模态模型正则化实战:从过拟合困境到生产级部署
  • 多模态AI巨人:CLIP模型原理解析
  • 22、Fedora系统软件安装、仓库添加及用户组管理全攻略
  • C# 基于halcon的视觉工作流-章67 深度学习-分类
  • AntdUI聊天控件实战指南:打造专业级WinForm聊天界面的终极教程
  • 代码重构的艺术:提升软件质量的关键
  • Monaco Editor文档注释样式终极定制指南:从零到精通的完整实战手册
  • 5分钟攻克AI项目Docker部署难题:从诊断到实战全解析
  • CAN基础信息
  • 外定点式应变传感光缆
  • 2025年专业的物联箱式变电站/智能箱式变电站厂家最新热销排行 - 品牌宣传支持者
  • 人像精灵 AI 智能相馆:特征解耦与条件生成对抗网络(cGANs)在人像重构中的应用
  • Bodymovin插件终极部署与高效应用指南
  • 纯净版刷机固件合集 + 避坑指南
  • 露,无创血压测量系统 小动物无创血压系统 大鼠血压测量系统 大鼠无创血压测量系统 小动物无创血压分析系统
  • Zen Browser 5大隐藏功能终极指南:解锁高效浏览新境界
  • 突破性模型压缩技术:ERNIE 4.5实现3000亿参数低成本高效部署
  • MediaPipeUnityPlugin实战指南:让Unity项目快速拥有专业级计算机视觉能力
  • 2025济南记账报税公司TOP5权威推荐:助力中小企业财税合 - myqiye
  • 终极服务器监控实战:哪吒监控完整部署与应用指南
  • IP6529_Q1至为芯支持PD快充的45W车规级DC-DC芯
  • 2025单相真空接触器靠谱生产商TOP5权威推荐:高压单相真 - 工业推荐榜
  • Qwen3-VL-8B-Thinking-FP8技术评测:80亿参数如何实现多模态AI性能突破
  • 2025实力强的单相真空接触器企业TOP5权威推荐:甄选低压 - 工业品牌热点
  • Hap视频编解码器:专业级QuickTime硬件加速终极指南