当前位置: 首页 > news >正文

大模型榜单周报(2026/01/24)

1. 本周概览

本周大模型行业动态频发,美团更新了大规模推理模型LongCat-Flash-Thinking-2601,智谱开源轻量化模型GLM-4.7-Flash,MiniMax发布AI原生工作台。在榜单方面,OpenRouter模型调用量出现显著变化,Claude Opus 4.5调用量大幅下滑,而Claude Sonnet 4.5升至榜首,编程领域竞争激烈,各大公司继续在不同能力维度展开激烈角逐。

2. 重点关注事件

  • 美团于1.15更新大规模推理模型LongCat-Flash-Thinking-2601,该模型拥有5600亿参数,基于创新的MoE架构构建,引入了重思考模式(Heavy Thinking Mode),能够同时启动8路思考并最终总结出更全面、更可靠的结论
  • 智谱于1.20开源30B混合思考模型GLM-4.7-Flash,激活3B参数,提供免费API,性能超越同量级模型,为轻量化部署提供新选择
  • MiniMax于1.20发布Agent 2.0(AI-native Workspace),实现本地云端一体,推出Expert Agents垂直专家系统,具备读文件、写脚本、制作PPT、跑定时任务等功能,定义AI原生工作台概念
  • DeepSeek新模型MODEL1于1.21曝光,代码显示采用全新架构,具体差异体现在KV缓存布局、稀疏性处理和FP8解码方面,在内存优化上有多处创新
  • Anthropic于1.22开源全新「AI宪法」(Claude's Constitution),确立了当不同价值观发生冲突时的权衡顺序:「广泛安全」、「广泛道德」、「遵守Anthropic准则」、「真诚助人」
  • 谷歌DeepMind于1.22发布D4RT(Dynamic 4D Reconstruction and Tracking),用于跨时空4D场景重建和跟踪,采用统一的编码器-解码器Transformer架构,在各类4D重建任务中均优于此前方法

3. 榜单变化

  • OpenRouter整体模型调用量方面,Claude Opus 4.5调用量大幅下滑35%至395B tokens,排名从第一暴跌至第六;Claude Sonnet 4.5升至榜首但增幅仅11%;免费模型MiMo-V2-Flash持续走强,占比增长18%至582B tokens,排名从第三升至第二;Gemini 2.5 Pro异军突起,调用量暴增300%至413B tokens,首次进入前十即位列第五;Grok 4.1 Fast增长13%至282B tokens;Gemini 2.5 Flash Lite调用量陷入停滞,零增长导致排名从第八跌至第十
  • OpenRouter模型市占率方面,Google模型份额跃升至26.0%,增幅达2.8个百分点,持续扩大领先优势;Anthropic份额大幅下滑4.7个百分点至16.7%,虽仍位居第二但与榜首差距明显拉大;OpenAI份额小幅回升0.6个百分点至13.1%;x-ai份额上升1.3个百分点至12.6%,但因增速不及OpenAI导致排名从第3降至第4;Mistral AI份额下降0.3个百分点至3.5%,被Qwen以0.9个百分点的增幅反超,双方排名发生易位
  • OpenRouter编程调用量方面,Claude Opus 4.5占比断崖式下跌,从20.6%骤降至10.6%,降幅达10个百分点,是两周内变化幅度最大的模型,排名从第2位跌至第3位;Grok Code Fast 1持续扩大领先优势,占比从21.6%小幅攀升至22.8%,增幅1.2个百分点,稳居市场第一;免费模型MiMo-V2-Flash异军突起,占比从2.8%飙升至5.5%,增幅2.7个百分点,排名从第8位跃升至第5位;Claude Sonnet 4.5占比显著增加,从7.7%升至14.1%,增幅6.4个百分点,排名从第4位升至第2位
  • 编程能力榜单(Code Arena):gemini-3-flash (thinking-minimal) 上榜,排名第8,超过GPT-5.2
  • 图像编辑能力榜单(Text to Image Arena):flux-2-flex分数追平nano-banana,二者排名易位
  • 文生图能力榜单(Artificial Analysis Text to Image Leaderboard):ImagineArt 1.5 Preview上榜,排名第10
  • GAIA榜单:Shawn Agent更新v3.1,排名第7,得分达89.37%

4. 排行榜

测评类型 第一名 第二名 第三名
模型调用量 Claude Sonnet 4.5 MiMo-V2-Flash(free) Grok Code Fast 1
公司市占率 Google Anthropic OpenAI
编程模型调用量 Grok Code Fast 1 Claude Sonnet 4.5 Claude Opus 4.5

各公司按不同能力领域排名汇总

测评类型 领先公司
大语言模型 Text Arena Google、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面
编程能力 Code Arena Anthropic、OpenAI、Google、智谱、MiniMax
编程能力 LiveCodeBench OpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite 基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统
图像编辑和生成能力 Image Edit Arena OpenAI、Google、字节、Black Forest Labs、Reve
文生图能力 Text-to-Image Arena OpenAI、Google、Black Forest Labs、腾讯
图像编辑和生成能力 Image Editing Leaderboard OpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve
文生图能力 Text to Image Leaderboard OpenAI、Google、Black Forest Labs、字节、ImagineArt
GPQA OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath OpenAI、Google、DeepSeek、月之暗面、Anthropic、xAI
Humanity's Last Exam Google、OpenAI、Anthropic
GAIA JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org、ShawnAgent、ZTE-AICloud、LR AILab等

关注我,第一时间掌握更多AI前沿资讯!

http://www.jsqmd.com/news/298272/

相关文章:

  • 2026年市面上新型方形逆流冷却塔制造厂家哪里有卖,方形逆流冷却塔/工业冷却塔/冷却水塔生产商哪家权威
  • 2026降AI工具红黑榜:6款热门工具实测踩坑指南
  • 【Git Git Clone 完整流程详解】 - 指南
  • 2026年徐州包车公司报价深度解析与优质服务商盘点
  • 2026毕业季必备:6款降AI工具实测,帮你把AI率压到10%以下
  • 手把手教你用角色设定法降AI(附10个提示词模板)
  • AI率高背后的3个真相:为什么你写的也会被误判?
  • 前端如何定位组件变化及性能问题
  • 文件上传作业
  • 2026年沈阳有名的国考税务面试培训公司,红旗公考值得关注
  • 2026年股权激励计划制定比较靠谱的公司,创锟咨询值得关注
  • 2026年江西专业的安全阀在线检测仪制造厂,哪家技术强Top10
  • 2026年武汉东篱老屋排名,特色田园体验好去处揭秘
  • 2026必备10个降AIGC工具,研究生速看!
  • 面试官:短信接口被刷,一夜损失5万!如果是你,怎么防?
  • 生产环境 CPU 飙升 100%!别再去翻日志了,这 3 行命令教你 1 分钟定位代码行号
  • 小红书MySQL内核秒杀能力重磅再升级
  • 概率论与数理统计期末考试专项突破:古典概型与组合概率的精讲与实战应用
  • 高可用架构三板斧:冗余、隔离、降级
  • 上海探讨注意力涣散的治疗方法和注意力不集中的原因哪家好
  • 高性价比的专精特新小巨人申报公司多少钱,华夏泰科咨询集团收费合理吗?
  • 股权激励方案设计公司怎么选?为你揭秘优质之选
  • 2026年武汉耘野亲子农场与其他农场对比优势大揭秘,选哪家好
  • 印度作者投稿iMeta费用由政府统一支付APC
  • iMeta系列期刊助理编辑(统计)招聘启事(可居家办公,弹性工作)
  • 突发!CTO 被解雇。。。因不道德行为。。。
  • 考虑源荷不确定性的电力系统机组低碳调度:Matlab + Yalmip + Gurobi 实践
  • 救命神器10个AI论文平台,自考学生轻松搞定毕业论文!
  • 2026年四川梯具源头供应商综合评估与选择指南
  • 液冷接头数控机床怎么选?2025年热门品牌推荐,数控机床/4轴数控机床/医疗器械数控机床,液冷接头数控机床厂家排行榜