当前位置: 首页 > news >正文

MiniMax M3 发布实测:国产模型编程能力首次超越 GPT-5.5

头条:MiniMax M3 发布,国产大模型首次在编程能力上超越 GPT-5.5

6 月 1 日,MiniMax 正式发布新一代大模型MiniMax M3。这不是一次常规的版本更新——各项 benchmark 数据显示,M3 在编程能力上全面超越 GPT-5.5 和 Gemini 3.1 Pro,成为目前编程能力最强的公开模型。

MiniMax 这家公司你可能不太熟,但它是国内最早做 MoE(混合专家模型)的团队之一,上一代模型 MiniMax-Text-01 就以 104 万上下文长度闻名。这次 M3 直接把上限拉到了新的高度。

M3 的核心看点

1. 全新稀疏注意力架构(MSA)

M3 采用了自研的MiniMax Sparse Attention(MSA)架构。简单说,传统 Transformer 的注意力计算量随上下文长度平方增长,而 MSA 通过稀疏化把计算量降到线性增长。

这就是为什么 M3 能支持100 万 token 上下文的同时,推理速度反而比上代快 2.3 倍。

2. 编程能力实测

BenchmarkMiniMax M3GPT-5.5Gemini 3.1 Pro
LiveCodeBench68.2%64.1%65.8%
SWE-bench Verified54.7%49.3%51.2%
HumanEval+94.1%92.7%93.5%
Aider-Polyglot61.8%57.2%59.1%

LiveCodeBench 和 SWE-bench 是目前最权威的编程能力评测集。M3 在这两项上领先 4-5 个百分点,对于这个级别的模型来说,差距已经很大了。

3. 100 万 token 上下文

不是噱头,是真的能用。官方展示了用 M3 一次性分析 2000+ 个文件的代码仓库并完成重构的案例。相比之下,GPT-5.5 的上下文窗口是 256K,Gemini 3.1 Pro 是 128K。

4. 原生多模态

M3 不是纯文本模型,它原生支持图片、视频输入和电脑操作(Computer Use)。这点直接对标 Claude 的 Computer Use 功能。

实际体验

我拿到 API 权限后做了几轮测试,说说真实感受:

好的一面

  • 代码生成质量确实强,尤其是 Python 和 TypeScript。复杂逻辑的生成比 GPT-5.5 更少出错。
  • 超长上下文的处理很流畅,丢给它一个完整项目让它分析,不会"忘记"前面的文件。
  • 中文理解明显好于海外模型,毕竟是国产模型。

不太行的一面

  • 多模态能力还比较初步,尤其是视频理解,跟 Gemini 3.1 Pro 有差距。
  • API 价格不便宜,比 DeepSeek 贵不少。
  • 生态建设刚起步,没有 GPTs 生态、也没有 Claude 那样的 Projects 功能。

价格对比

模型输入(/1M tokens)输出(/1M tokens)
MiniMax M3¥12¥40
DeepSeek-V4¥2¥8
GPT-5.5¥45¥180
Claude Opus 4.8¥60¥240

M3 的价格是 DeepSeek 的 5 倍左右,但只有 GPT-5.5 的 1/4 到 1/5。对于需要超长上下文的场景,性价比很高。

这个消息对开发者意味着什么

三个判断:

1. 国产模型的差距正在以肉眼可见的速度缩小

一年前,国产模型还在追 GPT-4 的能力。现在 MiniMax M3 已经在编程能力上超过了 GPT-5.5。这种进步速度意味着在编程这件事上,你没必要只用海外模型了

2. 上下文长度正在成为新的竞争焦点

从 128K 到 256K 到 1M,模型的上下文窗口在半年内翻了 8 倍。这对 RAG 类应用的影响最大——当模型能一次性读完整个代码仓库,RAG 的必要性就在降低。

3. 模型选型越来越复杂,也越来越需要策略

以前只需要选 GPT 还是 Claude。现在要在 DeepSeek、MiniMax、通义千问、Kimi、智谱、豆包之间做选择。建议的策略

  • 日常编程辅助:DeepSeek(性价比最高)
  • 复杂项目分析/重构:MiniMax M3(长上下文优势)
  • 多模态任务:Gemini 3.1 Pro
  • 长文档写作/翻译:Claude Opus 4.8

写在最后

MiniMax M3 的发布是一个标志性事件——这是国产模型第一次在核心能力上明确超越最强的海外对手。不管你是 AI 从业者还是普通开发者,这件事都值得关注。

把 M3 加入你的工具箱试试,至少在编程这件事上,它不会让你失望。


你开始用 MiniMax M3 了吗?在编程场景下体验如何?欢迎在评论区分享你的实测对比。

本文由 Zyentor(智元界) 原创发布


本文发布于 Zyentor(智元界) —— AI 开发者社区
原文链接:https://www.zyentor.com/news/3522

http://www.jsqmd.com/news/993734/

相关文章:

  • 多模态嵌入技术:模态间隙解析与优化策略
  • 企业级数据集成平台架构设计与技术实现深度解析
  • 从零构建一个AI驱动的英语单词默写小程序:技术架构全解析
  • 攻克Samba与Windows XP兼容难题:从协议降级到认证配置的实战解析
  • 2026佛山卡地亚手表回收避坑指南!佛山手表回收内行都懂的靠谱渠道 - 薛定谔的梨花猫
  • Visual Studio Code更新管理终极指南:如何轻松掌控版本更新
  • 昆明黄金回收避坑:报价高于大盘全是套路,教你一句话识破 - 奢侈品回收评测
  • 国内合规催化燃烧设备厂家实测排行权威盘点 - 起跑123
  • PostHog产品分析平台终极指南:从零到精通的开源数据分析解决方案
  • GR3-Fourier V9.4 底层硬核技术密档 纯裸源码+原始参数本文展示了工业控制领域的核心底层代码实现,包含四个关键部分:1) SVPWM空间矢量调制算法源码,详细给出扇区判定、时间计算和输出
  • 实战指南:基于ROS2与海康相机的rm_vision装甲板识别项目快速部署(视觉实战篇)
  • 从滤波到选频:RC/RL串联电路在Arduino和ESP32信号处理中的实战应用
  • 2026年Q2升降机厂家权威排名:TOP5推荐榜、国内知名升降机厂家、安徽升降机厂家推荐”、“安徽升降机厂家名单、升降机厂家电话18356581485 - 安互工业信息
  • 2026年众智商学院SCMP供应链管理专家报名:质量管理人员怎么学?模块选择、资料领取和课程咨询入口 - 众智商学院职业教育
  • 深圳PPH过滤器厂家排行:合规与场景适配实测对比 - 起跑123
  • 通俗易懂掌握树与二叉树:定义、核心概念与JS实现遍历
  • 郑州名包回收怎么选?多家门店行情对比参考 - 禹竞
  • CANN技术解读|metadef元数据结构与模型定义规范——深度解析昇腾CANN计算架构中基础数据层的核心设计
  • 计算机毕业设计之基于Python的教师科研成果数据管理系统的设计与实现
  • Navicat重置试用期终极方案:3种方法解决14天限制问题
  • 终极指南:yuzu-android - 在安卓设备上畅玩Switch游戏的完整教程
  • 2026年6月最新版驻马店第三方CMACNAS甲醛检测治理机构口碑名单:万清CMA检测中心等5家公司深度测评万清CMA检测中心TOP1推荐 - 一修哥咨询
  • BiliBiliCCSubtitle实战指南:高效下载与转换B站CC字幕的完整解决方案
  • Java IO流总结
  • Buzz语音转录技术深度剖析:本地化AI转录引擎架构解析
  • 川藏自驾游/川藏线自驾俱乐部口碑专业团队排行:专业包车拼车服务与安全保障实测 - 互联网科技品牌测评
  • 2026年6月最新版遵义第三方CMACNAS甲醛检测治理机构口碑名单:万清CMA检测中心等5家公司深度测评万清CMA检测中心TOP1推荐 - 一修哥咨询
  • 华硕笔记本性能控制终极指南:G-Helper轻量控制中心完全教程
  • 如何实现多语言歌词罗马化:Rush支持中日韩印等语言的音译技术详解
  • NFC NTAG21xF芯片实战:从场检测低功耗到内存管理全解析