当前位置: 首页 > news >正文

大模型榜单周报(2026/01/31)

1. 本周概览

本周大模型行业迎来多项重要进展,百度文心5.0正式发布,通义千问开源Qwen3-TTS语音模型,Kimi发布并开源K2.5模型。榜单方面变化剧烈,MiMo V2 Flash (free)遭遇断崖式下跌,DeepSeek V3.2强势跃升,编程领域竞争格局发生重大变化,Grok Code Fast 1领先优势萎缩,新模型Kimi K2.5强势闯入前五。

2. 重点关注事件

  • 百度于1.24日正式发布文心5.0,搭载2.4万亿参数原生全模态架构,在40余项基准测试中领跑国际第一梯队,被称为"最强文科生"
  • 通义千问于1.26开源Qwen3-TTS全系列语音模型,支持3秒克隆与音色创造,延迟低至97ms,开源1.7B(极致性能)和0.6B(轻量高效)两个版本,满足从云端到边缘的多样化部署需求;同时Qwen3-Max-Thinking上线,引入自适应工具调用与测试时扩展技术两大核心创新
  • DeepSeek于1.27更新OCR模型,DeepSeek-OCR 2通过引入DeepEncoder V2架构,实现视觉编码从「固定扫描」向「语义推理」的范式转变,将原本基于CLIP的编码器替换为轻量级语言模型(Qwen2-500M),并引入具有因果注意力机制的「因果流查询」
  • Kimi于1.27发布并开源K2.5模型,该模型为原生多模态架构设计,支持最高256,000 tokens的标准上下文长度,支持视觉与文本输入、思考与非思考模式、对话与Agent任务,并进一步提升开源模型的代码水平,尤其在前端开发领域表现突出
  • MiniMax于1.29发布MiniMax Music 2.5,在「段落级强控制」与「物理级高保真」两大技术难题上实现突破,辅以华语优化及专业混音,让格莱美级音乐创作无需录音棚即可实现

3. 榜单变化

  • OpenRouter整体模型调用量方面,MiMo V2 Flash (free)遭遇断崖式下跌,调用量从582B tokens骤降至280B,排名由第2滑落至第9,周增长率从+18%转为-52%;DeepSeek V3.2实现强势跃升,调用量从364B增至464B,排名从第7升至第4,周增长率由4%大幅提升至27%;Claude Opus 4.5由高速增长转为明显回调,调用量从395B降至339B,周增长率从+35%转为-14%;Gemini 2.5 Pro跌出前十榜单,其上周413B的调用量本周被gpt-oss-120b以272B进入前十取代;Gemini 2.5 Flash稳步复苏,排名从第8上升至第5,调用量从364B增至394B,周增长率由-3%转正为+8%
  • OpenRouter模型市占率方面,DeepSeek调用量从上周457B增至本周553B,市场占比由8.0%提升至9.4%;Google主导地位略有削弱,调用量从1.48T降至1.4T,占比由26.0%下滑至24.0%;Xiaomi遭遇断崖式下跌,从第6名(441B,7.8%)直接跌出前十榜单;MoonshotAI强势入局,新进前十并直接占据第7位,获得203B调用量(3.5%份额);长尾市场爆发式增长,Others类别调用量从349B激增至598B,占比由6.1%飙升至10.2%
  • OpenRouter模型吞吐量方面,GPT-OSS-120B(Groq提供)具有超强统治力,体现在速度够快+成本可控+规模化验证,速度第2(936 tok/s),成本适中($0.35/M),请求量最高,可能是当前最主流的生产环境选择;Qwen3 32B(Cerebras提供)崛起,速度第3(736 tok/s),圆点第二大,显示国产模型可能在国际开发者工具链中已占核心位置
  • OpenRouter编程调用量方面,Grok Code Fast 1领先优势急剧萎缩,调用量占比由22.8%大幅下滑至16.4%;MiniMax M2.1实现跨越式增长,调用量从56.8B翻倍至115B,占比由4.0%大幅提升至7.4%;Kimi K2.5强势闯入前五,以139B tokens和8.9%占比新晋榜单第4位;GPT-5系列双模型重回前十,GPT-5.2与GPT-5.2-Codex分别以61.4B和54.5B tokens调用量占据第8、第9位;上周三大热门模型集体跌出前十,MiMo V2 Flash (free)、Devstral 2 2512 (free)与DeepSeek V3.2分别从上周第5、第7、第9位滑落至十名之外
  • 图像编辑能力榜单(Text to Image Arena):hunyuan-image-3.0-instruct新上榜单,评分基于预发布测试,可能会随着公开发布后社区反馈和投票的变化而调整
  • 图像编辑能力榜单(Artificial Analysis Image Editing Leaderboard):Reve V1分数超过FLUX.2 [pro],二者排名易位,分别排名8、9
  • 文生图能力榜单(Artificial Analysis Text to Image Leaderboard):FLUX.2 [dev] Turbo分数超过ImagineArt 1.5 Preview,二者排名易位,分别排名10、11
  • GAIA榜单:Shawn Agent更新v3.1,排名第7,得分达89.37%

4. 排行榜

测评类型 第一名 第二名 第三名
模型调用量 Claude Sonnet 4.5 Gemini 3 Flash Preview Grok Code Fast 1
公司市占率 Google Anthropic OpenAI
模型速度 gpt-oss-safeguard-20b gpt-oss-120b Qwen3 32B
编程模型调用量 Grok Code Fast 1 Claude Sonnet 4.5 Claude Opus 4.5

各公司按不同能力领域排名汇总

测评类型 领先公司
大语言模型 Text Arena Google、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面
编程能力 Code Arena Anthropic、OpenAI、Google、智谱、MiniMax
编程能力 LiveCodeBench OpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite 基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统
图像编辑和生成能力 Image Edit Arena OpenAI、Google、字节、腾讯、Black Forest Labs、Reve
文生图能力 Text-to-Image Arena OpenAI、Google、Black Forest Labs、腾讯
图像编辑和生成能力 Image Editing Leaderboard OpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve
文生图能力 Text to Image Leaderboard OpenAI、Google、Black Forest Labs、字节、Fal
GPQA OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath OpenAI、Google、DeepSeek、月之暗面、Anthropic、xAI
Humanity's Last Exam Google、OpenAI、Anthropic
GAIA JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org、ShawnAgent、ZTE-AICloud、LR AILab等

关注我,第一时间掌握更多AI前沿资讯!

http://www.jsqmd.com/news/325888/

相关文章:

  • 2025年市面上有实力的尘埃粒子检测仪工厂电话,台式粒子计数器/尘埃粒子测试仪公司哪家强
  • Chandra OCR效果惊艳:多页PDF自动分节,章节标题识别与Markdown锚点生成
  • 分析光纤收发器源头厂家,哪家品牌靠谱且价格有优势呢?
  • 2025年市面上热门的中型货架品牌怎么选,层板货架/平台货架/重型货架/穿梭式货架/库房货架,中型货架制造商推荐
  • 探讨工程净化生产企业哪家费用低,靠谱选择别错过
  • 为什么verl更适合生产环境?三大优势解析
  • 2026年柠檬酸钠制造企业排名,出货快的柠檬酸钠厂家哪家好
  • 2025年丝印机选购必看:本地口碑爆棚的产品推荐,丝印机口碑推荐优选实力品牌
  • 盘点上海工业扫码枪工程案例多的品牌,这些制造商值得关注
  • 当AI测出我的职业焦虑症:软件测试者的破局三法则
  • 极地计算测试实战:跨越温差的可靠性挑战
  • 深度解析:智能体系统成熟后,组织面临的隐蔽风险——“创新高原期”
  • Scaling Laws:《Scaling Laws for Neural Language Models》Figure 3 解读
  • OrCAD快速入门:图解说明主菜单与工具栏功能
  • 吐血推荐专科生必备!9款一键生成论文工具TOP9测评
  • 普通型光纤收发器国内厂家排名情况如何,哪家产品更靠谱
  • 互联网大厂Java求职面试实战:Spring Boot微服务与Kafka消息队列应用解析
  • 为什么脑波疲劳监测成为开发团队的必备工具?
  • 计算机毕业设计springboot考研社区网站 SpringBoot驱动的考研互助交流平台设计与实现 基于SpringBoot的考研信息共享与二手交易网站开发
  • 【开题答辩全过程】以 基于安卓的空巢老人服务平台的开发为例,包含答辩的问题和答案
  • 2026年二维码扫描器供应企业推荐,专业品牌口碑大比拼
  • 政策破冰:AI测试示范区的三重战略价值
  • 2026年远距离读码器品牌排行出炉,新算技术上榜
  • 书籍-乔治·马戛尔尼+约翰·巴罗《马戛尔尼使团使华观感》
  • 一文弄懂AI“幻觉“是什么?收藏!AI产品经理必备的5大解决方案
  • 编剧爆款密码:跟着创一AI的剧本原石,创作不踩雷
  • 行业地震的深层解读:量子技术重构测试工程师职业边界
  • 智能教育照明:打造健康教室光环境的关键要素
  • 生成式AI的隐性成本:测试员的能源消耗之战
  • 实用指南:Spring Boot 注解全栈指南:涵盖 Bean 注册、配置加载、请求映射、事务控制、数据校验等一网打尽