当前位置：首页 > news >正文

MiniMax M3 发布实测：国产模型编程能力首次超越 GPT-5.5

news 2026/7/30 19:36:36

头条：MiniMax M3 发布，国产大模型首次在编程能力上超越 GPT-5.5

6 月 1 日，MiniMax 正式发布新一代大模型MiniMax M3。这不是一次常规的版本更新——各项 benchmark 数据显示，M3 在编程能力上全面超越 GPT-5.5 和 Gemini 3.1 Pro，成为目前编程能力最强的公开模型。

MiniMax 这家公司你可能不太熟，但它是国内最早做 MoE（混合专家模型）的团队之一，上一代模型 MiniMax-Text-01 就以 104 万上下文长度闻名。这次 M3 直接把上限拉到了新的高度。

M3 的核心看点

1. 全新稀疏注意力架构（MSA）

M3 采用了自研的MiniMax Sparse Attention（MSA）架构。简单说，传统 Transformer 的注意力计算量随上下文长度平方增长，而 MSA 通过稀疏化把计算量降到线性增长。

这就是为什么 M3 能支持100 万 token 上下文的同时，推理速度反而比上代快 2.3 倍。

2. 编程能力实测

Benchmark	MiniMax M3	GPT-5.5	Gemini 3.1 Pro
LiveCodeBench	68.2%	64.1%	65.8%
SWE-bench Verified	54.7%	49.3%	51.2%
HumanEval+	94.1%	92.7%	93.5%
Aider-Polyglot	61.8%	57.2%	59.1%

LiveCodeBench 和 SWE-bench 是目前最权威的编程能力评测集。M3 在这两项上领先 4-5 个百分点，对于这个级别的模型来说，差距已经很大了。

3. 100 万 token 上下文

不是噱头，是真的能用。官方展示了用 M3 一次性分析 2000+ 个文件的代码仓库并完成重构的案例。相比之下，GPT-5.5 的上下文窗口是 256K，Gemini 3.1 Pro 是 128K。

4. 原生多模态

M3 不是纯文本模型，它原生支持图片、视频输入和电脑操作（Computer Use）。这点直接对标 Claude 的 Computer Use 功能。

实际体验

我拿到 API 权限后做了几轮测试，说说真实感受：

好的一面：

代码生成质量确实强，尤其是 Python 和 TypeScript。复杂逻辑的生成比 GPT-5.5 更少出错。
超长上下文的处理很流畅，丢给它一个完整项目让它分析，不会"忘记"前面的文件。
中文理解明显好于海外模型，毕竟是国产模型。

不太行的一面：

多模态能力还比较初步，尤其是视频理解，跟 Gemini 3.1 Pro 有差距。
API 价格不便宜，比 DeepSeek 贵不少。
生态建设刚起步，没有 GPTs 生态、也没有 Claude 那样的 Projects 功能。

价格对比

模型	输入（/1M tokens）	输出（/1M tokens）
MiniMax M3	¥12	¥40
DeepSeek-V4	¥2	¥8
GPT-5.5	¥45	¥180
Claude Opus 4.8	¥60	¥240

M3 的价格是 DeepSeek 的 5 倍左右，但只有 GPT-5.5 的 1/4 到 1/5。对于需要超长上下文的场景，性价比很高。

这个消息对开发者意味着什么

三个判断：

1. 国产模型的差距正在以肉眼可见的速度缩小

一年前，国产模型还在追 GPT-4 的能力。现在 MiniMax M3 已经在编程能力上超过了 GPT-5.5。这种进步速度意味着在编程这件事上，你没必要只用海外模型了。

2. 上下文长度正在成为新的竞争焦点

从 128K 到 256K 到 1M，模型的上下文窗口在半年内翻了 8 倍。这对 RAG 类应用的影响最大——当模型能一次性读完整个代码仓库，RAG 的必要性就在降低。

3. 模型选型越来越复杂，也越来越需要策略

以前只需要选 GPT 还是 Claude。现在要在 DeepSeek、MiniMax、通义千问、Kimi、智谱、豆包之间做选择。建议的策略：

日常编程辅助：DeepSeek（性价比最高）
复杂项目分析/重构：MiniMax M3（长上下文优势）
多模态任务：Gemini 3.1 Pro
长文档写作/翻译：Claude Opus 4.8

写在最后

MiniMax M3 的发布是一个标志性事件——这是国产模型第一次在核心能力上明确超越最强的海外对手。不管你是 AI 从业者还是普通开发者，这件事都值得关注。

把 M3 加入你的工具箱试试，至少在编程这件事上，它不会让你失望。

你开始用 MiniMax M3 了吗？在编程场景下体验如何？欢迎在评论区分享你的实测对比。
本文由 Zyentor（智元界）原创发布

本文发布于 Zyentor（智元界） —— AI 开发者社区
原文链接：https://www.zyentor.com/news/3522

查看全文

http://www.jsqmd.com/news/993734/

多模态嵌入技术：模态间隙解析与优化策略

企业级数据集成平台架构设计与技术实现深度解析

从零构建一个AI驱动的英语单词默写小程序：技术架构全解析

攻克Samba与Windows XP兼容难题：从协议降级到认证配置的实战解析

2026佛山卡地亚手表回收避坑指南！佛山手表回收内行都懂的靠谱渠道 - 薛定谔的梨花猫

Visual Studio Code更新管理终极指南：如何轻松掌控版本更新

昆明黄金回收避坑：报价高于大盘全是套路，教你一句话识破 - 奢侈品回收评测

国内合规催化燃烧设备厂家实测排行权威盘点 - 起跑123

PostHog产品分析平台终极指南：从零到精通的开源数据分析解决方案

GR3-Fourier V9.4 底层硬核技术密档纯裸源码+原始参数本文展示了工业控制领域的核心底层代码实现，包含四个关键部分：1) SVPWM空间矢量调制算法源码，详细给出扇区判定、时间计算和输出

实战指南：基于ROS2与海康相机的rm_vision装甲板识别项目快速部署（视觉实战篇）

从滤波到选频：RC/RL串联电路在Arduino和ESP32信号处理中的实战应用

2026年Q2升降机厂家权威排名：TOP5推荐榜、国内知名升降机厂家、安徽升降机厂家推荐”、“安徽升降机厂家名单、升降机厂家电话18356581485 - 安互工业信息

2026年众智商学院SCMP供应链管理专家报名：质量管理人员怎么学？模块选择、资料领取和课程咨询入口 - 众智商学院职业教育

深圳PPH过滤器厂家排行：合规与场景适配实测对比 - 起跑123

通俗易懂掌握树与二叉树：定义、核心概念与JS实现遍历

郑州名包回收怎么选？多家门店行情对比参考 - 禹竞

CANN技术解读｜metadef元数据结构与模型定义规范——深度解析昇腾CANN计算架构中基础数据层的核心设计

计算机毕业设计之基于Python的教师科研成果数据管理系统的设计与实现

Navicat重置试用期终极方案：3种方法解决14天限制问题

终极指南：yuzu-android - 在安卓设备上畅玩Switch游戏的完整教程

BiliBiliCCSubtitle实战指南：高效下载与转换B站CC字幕的完整解决方案

Java IO流总结

Buzz语音转录技术深度剖析：本地化AI转录引擎架构解析

川藏自驾游/川藏线自驾俱乐部口碑专业团队排行：专业包车拼车服务与安全保障实测 - 互联网科技品牌测评

华硕笔记本性能控制终极指南：G-Helper轻量控制中心完全教程

如何实现多语言歌词罗马化：Rush支持中日韩印等语言的音译技术详解

NFC NTAG21xF芯片实战：从场检测低功耗到内存管理全解析