MiniMax M3 发布实测:国产模型编程能力首次超越 GPT-5.5
头条:MiniMax M3 发布,国产大模型首次在编程能力上超越 GPT-5.5
6 月 1 日,MiniMax 正式发布新一代大模型MiniMax M3。这不是一次常规的版本更新——各项 benchmark 数据显示,M3 在编程能力上全面超越 GPT-5.5 和 Gemini 3.1 Pro,成为目前编程能力最强的公开模型。
MiniMax 这家公司你可能不太熟,但它是国内最早做 MoE(混合专家模型)的团队之一,上一代模型 MiniMax-Text-01 就以 104 万上下文长度闻名。这次 M3 直接把上限拉到了新的高度。
M3 的核心看点
1. 全新稀疏注意力架构(MSA)
M3 采用了自研的MiniMax Sparse Attention(MSA)架构。简单说,传统 Transformer 的注意力计算量随上下文长度平方增长,而 MSA 通过稀疏化把计算量降到线性增长。
这就是为什么 M3 能支持100 万 token 上下文的同时,推理速度反而比上代快 2.3 倍。
2. 编程能力实测
| Benchmark | MiniMax M3 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|
| LiveCodeBench | 68.2% | 64.1% | 65.8% |
| SWE-bench Verified | 54.7% | 49.3% | 51.2% |
| HumanEval+ | 94.1% | 92.7% | 93.5% |
| Aider-Polyglot | 61.8% | 57.2% | 59.1% |
LiveCodeBench 和 SWE-bench 是目前最权威的编程能力评测集。M3 在这两项上领先 4-5 个百分点,对于这个级别的模型来说,差距已经很大了。
3. 100 万 token 上下文
不是噱头,是真的能用。官方展示了用 M3 一次性分析 2000+ 个文件的代码仓库并完成重构的案例。相比之下,GPT-5.5 的上下文窗口是 256K,Gemini 3.1 Pro 是 128K。
4. 原生多模态
M3 不是纯文本模型,它原生支持图片、视频输入和电脑操作(Computer Use)。这点直接对标 Claude 的 Computer Use 功能。
实际体验
我拿到 API 权限后做了几轮测试,说说真实感受:
好的一面:
- 代码生成质量确实强,尤其是 Python 和 TypeScript。复杂逻辑的生成比 GPT-5.5 更少出错。
- 超长上下文的处理很流畅,丢给它一个完整项目让它分析,不会"忘记"前面的文件。
- 中文理解明显好于海外模型,毕竟是国产模型。
不太行的一面:
- 多模态能力还比较初步,尤其是视频理解,跟 Gemini 3.1 Pro 有差距。
- API 价格不便宜,比 DeepSeek 贵不少。
- 生态建设刚起步,没有 GPTs 生态、也没有 Claude 那样的 Projects 功能。
价格对比
| 模型 | 输入(/1M tokens) | 输出(/1M tokens) |
|---|---|---|
| MiniMax M3 | ¥12 | ¥40 |
| DeepSeek-V4 | ¥2 | ¥8 |
| GPT-5.5 | ¥45 | ¥180 |
| Claude Opus 4.8 | ¥60 | ¥240 |
M3 的价格是 DeepSeek 的 5 倍左右,但只有 GPT-5.5 的 1/4 到 1/5。对于需要超长上下文的场景,性价比很高。
这个消息对开发者意味着什么
三个判断:
1. 国产模型的差距正在以肉眼可见的速度缩小
一年前,国产模型还在追 GPT-4 的能力。现在 MiniMax M3 已经在编程能力上超过了 GPT-5.5。这种进步速度意味着在编程这件事上,你没必要只用海外模型了。
2. 上下文长度正在成为新的竞争焦点
从 128K 到 256K 到 1M,模型的上下文窗口在半年内翻了 8 倍。这对 RAG 类应用的影响最大——当模型能一次性读完整个代码仓库,RAG 的必要性就在降低。
3. 模型选型越来越复杂,也越来越需要策略
以前只需要选 GPT 还是 Claude。现在要在 DeepSeek、MiniMax、通义千问、Kimi、智谱、豆包之间做选择。建议的策略:
- 日常编程辅助:DeepSeek(性价比最高)
- 复杂项目分析/重构:MiniMax M3(长上下文优势)
- 多模态任务:Gemini 3.1 Pro
- 长文档写作/翻译:Claude Opus 4.8
写在最后
MiniMax M3 的发布是一个标志性事件——这是国产模型第一次在核心能力上明确超越最强的海外对手。不管你是 AI 从业者还是普通开发者,这件事都值得关注。
把 M3 加入你的工具箱试试,至少在编程这件事上,它不会让你失望。
你开始用 MiniMax M3 了吗?在编程场景下体验如何?欢迎在评论区分享你的实测对比。
本文由 Zyentor(智元界) 原创发布
本文发布于 Zyentor(智元界) —— AI 开发者社区
原文链接:https://www.zyentor.com/news/3522
