当前位置：首页 > news >正文

MiniMax M3实测：百万上下文加持，对标Claude的工程级AI代码助手来了

news 2026/7/30 3:37:49

文章目录

- 前言
- 100万上下文，不是吹的
- 塞进Claude Code，它像个老工程师
- 50万行源码，它当小说读
- 读完整部《西游记》，还画了个路线图
- 看截图复刻Apple Music，设计师要失业了？
- Three.js游戏，它连游戏都包了
- 它能替代Claude吗？
- 真正打动我的，是"工程感"

P.S. 无意间发现了一个巨牛的人工智能教程，非常通俗易懂，对AI感兴趣的朋友强烈推荐去看看，传送门https://blog.csdn.net/HHX_01

前言

朋友们，今天聊个有意思的事儿。现在这大模型发布会啊，跟过年似的，每个月都有。你方唱罢我登场，个个都说自己是"全能选手"。Coding强、上下文长、多模态牛——这三个词我都听出茧子了，耳朵都快磨出包浆了。

但问题是，很多模型吧，就像我那位号称"精通八国语言"的表弟——英语只会说Hello，日语只会说八嘎，韩语只会说思密达。你让他真刀真枪干点活儿，立马露馅。写个函数还行，一遇到大型工程就懵；上下文标称一百万，真到项目里就开始"选择性失明"，跟得了白内障似的；多模态更是离谱，看图只会说"这是一张图"，你让它把图变成代码？它说"臣妾做不到啊"，语气比甄嬛传还委屈。

所以这次MiniMax发布M3，我的第一反应是：又来？又来一个"全能选手"？我信你个鬼，你们这些发布会坏得很。但当我把它塞进Claude Code，跑了一轮真实工程测试之后——好家伙，这模型，有点东西。不是那种"有点东西但不多"的东西，是那种"东西有点多"的东西。

100万上下文，不是吹的

先说这个100万tokens。很多朋友听到这个数字，第一反应跟我妈听到我月薪一样："真的假的？你确定没多写个零？"在真实工程里，长上下文不是锦上添花，是生死线。你让模型分析一个大型代码库，短上下文模型就像高度近视进图书馆——只能看清眼前这一排书，后面的全靠猜，猜对了算运气，猜错了算你倒霉。

MiniMax M3用的是MSA架构，官方说百万上下文下每个token计算量只有上一代的1/20。翻译成人话就是：以前看100万字要喘半天，现在跟刷朋友圈似的，大拇指滑两下就完了，还不带卡顿的。这意味着什么？意味着它真能"读项目"，而不是"猜项目"，更不是"蒙项目"。

**冷知识：**100万tokens大约相当于150万字中文，或者3本《红楼梦》摞在一起。以前模型看这么多字，CPU能烧到可以煎鸡蛋；现在M3看完还能给你写个读后感，顺便分析人物关系。

塞进Claude Code，它像个老工程师

我把M3接进Claude Code，第一个测试项目是OpenClaw——一个代码量很大的开源项目，复杂程度堪比北京地铁线路图。我让M3先init项目，生成CLAUDE.md做初步理解。然后从issue里挑了个真实bug，让它定位，注意，是定位，不是直接修。

这时候精彩了。它没一上来就乱改代码，而是先分析根因，解释问题出在哪，拆解触发路径。然后给了三个修复方案，每个方案的影响面、改动文件、要不要加配置开关，列得清清楚楚。朋友们，这像什么？这像不像你们公司那个干了十年的老工程师？遇到问题不慌，先泡杯茶，再分析，再给方案，最后问你：“老板，选哪个？”

最怕的是什么？最怕模型"太积极"——你让它修个bug，它顺手把半个项目重构了，还美其名曰"代码优化"。等你发现的时候，git diff已经红得跟股市暴跌似的。M3在这方面表现出了难得的工程克制感：只做精准修复，不改无关代码。这种"该干嘛干嘛，不多管闲事"的品质，比很多刚毕业的新人都强。

**工程克制感三原则：**1. 改动尽量小；2. 保持原有代码风格；3. 不引入不必要的重构。M3这三条全占了，堪称AI界的"佛系码农"。

50万行源码，它当小说读

第二个测试更狠。我让它分析泄露出来的50多万行Claude Code源码，找出遥测逻辑。这个任务，短上下文模型直接跪了，跪得比求婚还干脆。50万行啊，相当于把《红楼梦》看了三遍，还得找出所有"宝玉"出场的页码、说了什么话、旁边有谁、当时什么天气。

M3的表现让我惊了。它找出了多个出口端点，给了具体文件位置和代码行数，还整理出控制开关，分析了设备ID和身份指纹的生成逻辑。这就好比你在一个超级迷宫里找出口，别人还在入口转圈呢，它已经画完地图、标好路线、还在出口处摆了个小吃摊等你了。

这类任务最考验的不是"会不会解释代码"，而是能不能在巨大代码库中快速定位真正重要的部分。如果上下文不够长，它容易只看到局部；如果检索能力不好，它会漏掉关键文件；如果工程理解不够强，它会把无关代码也当成核心逻辑。M3把这三件事都办妥了，长上下文、代码搜索、结构化总结，一气呵成。

读完整部《西游记》，还画了个路线图

接下来我换了个玩法，不搞代码了，搞文学。把整部《西游记》扔给M3，让它生成交互式取经路线图。要求很变态：整理国家和地点、列出妖怪、总结剧情、按顺序生成节点、点击弹出详情、还要有古典卷轴风格。这相当于让一个人读完三大名著，然后给你做个旅游攻略APP。

M3的处理方式很聪明——它没硬读全文，而是先搜索定位关键章节，再派生多个子代理干活。这就好比一个项目经理，接到活儿之后不自己硬扛，而是把任务拆给几个小弟，最后汇总成果。这种"懂得借力"的智慧，很多职场老油条都不一定有。

最后生成的页面，点开"长安"有介绍，点开"鹰愁涧"能看到第15回、危险等级、关键事件。最绝的是"狮驼国"的危险等级，划分得相当准确——毕竟那是三个妖怪的地盘，危险系数直接拉满，比火焰山还刺激。这说明它不只是能"装下"长文本，还能从里面抽信息、结构化、再变成可交互产品。从"读者"到"导游"，一步到位。

看截图复刻Apple Music，设计师要失业了？

然后测多模态。我给M3三张Apple Music截图，让它高保真复刻。这个任务的难点在于：模型要先理解截图里的布局、颜色、层级、卡片、封面、导航、按钮，然后把视觉理解转化成前端代码，最后还要生成可交互UI。相当于给一张餐厅照片，让你把菜做出来，还得味道一样。

几分钟后，页面出来了。侧边栏、主页、音乐卡片、封面图、播放器区域，还原度我主观判断90%左右。剩下10%不是它不行，是我截图不够高清，这锅我背。以后产品经理看到喜欢的UI，截图丢给M3，demo就有了。设计师听完可能想打人，但开发者听完想请它吃饭——毕竟以前这种活至少要磨一两天，现在几分钟搞定。

**独立开发者福音：**看到喜欢的网页、App或仪表盘设计，截图丢过去，高保真原型秒出。从"眼馋"到"拥有"，只差一个回车键。

Three.js游戏，它连游戏都包了

最后测创意代码，直接上硬菜——两个3D游戏。第一个是侏罗纪风格皮卡车狩猎恐龙，玩家开车、控制方向、机枪射击，恐龙被击中后消失。第二个是墓穴探险，第一人称视角，头灯照亮前方，黑暗中前进、射击、打怪物、捡药箱，子弹打墙上冒火光，怪物倒下，失败能重来。

虽然跟专业游戏没法比，画面大概相当于十年前的水平，但作为一个模型生成的demo，它已经具备了交互、状态、视觉效果和游戏机制。这不是写静态页面了，这是在做浏览器应用。以前你说"AI帮我写个游戏"，AI给你画个井字棋；现在你说"AI帮我写个游戏"，AI给你整出个第一人称射击。这差距，比我和吴彦祖的颜值差距还大。

它能替代Claude吗？

这是大家最关心的问题，堪比"我和你妈掉水里你救谁"。我的判断是：在很多任务上，M3已经具备替代潜力，但不能说全面替代。就像电动车和油车，市区通勤电动车香，长途越野还是油车稳。

大型代码库阅读、长文档分析、前端UI生成、多模态截图转代码、工程辅助、成本敏感型任务——M3都很值得尝试。尤其是需要大量tokens的场景，它的性价比会非常突出，突出到让你觉得以前花的钱有点冤。

但如果你极度依赖长期稳定性、复杂推理一致性、极高可靠性的代码审查，或者已有成熟的Claude工作流，建议把M3作为"第二主力"来测试。更合理的分工：Claude负责最高风险、最高价值的任务，M3负责大量长上下文、代码阅读、UI生成、原型开发和成本敏感任务。一个当主治医生，一个当全科医生，各司其职。

**选型建议：**Claude继续负责最高风险任务；MiniMax M3负责大量长上下文、代码阅读、UI生成、原型开发和成本敏感任务。这样可以在不牺牲质量的前提下，大幅降低成本，并提升任务吞吐量。

真正打动我的，是"工程感"

这次M3最让我惊讶的，不是100万tokens，不是benchmark分数，也不是发布会上那些花里胡哨的PPT。真正让我觉得值得关注的是：它在真实工程任务中表现出的"工程感"。

它会先理解项目；会先定位bug；会给出多个修复方案；会考虑改动面；会尽量避免不必要重构；会在大型代码库中找关键文件；会把长文本变成结构化产品；会把截图变成可运行UI；会把创意需求变成浏览器游戏。这已经不是传统意义上的"聊天机器人"了，这更像是一个可以进入真实开发环境、处理复杂上下文、执行多步任务的AI工程助手。

所以，M3的意义可能不只是"又一个国产大模型发布了"。它真正代表的是：国产模型正在从单纯拼参数、拼榜单，进入到拼真实工作流、拼工程能力、拼Agent可用性的阶段。如果你正在用Claude Code、Cursor或其他AI Coding工具，M3绝对值得接入测试。因为它可能会成为接下来一段时间里，最值得关注的高性价比Coding Agent模型之一。毕竟，能干活还便宜的员工，哪个老板不喜欢呢？

P.S. 无意间发现了一个巨牛的人工智能教程，非常通俗易懂，对AI感兴趣的朋友强烈推荐去看看，传送门https://blog.csdn.net/HHX_01

查看全文

http://www.jsqmd.com/news/947586/